3,583 papers
arXiv:2601.20270 80 28 янв. 2026 г. FREE

Least-to-Most с градацией уверенности: итеративное рассуждение для неоднозначных задач

КЛЮЧЕВАЯ СУТЬ
Least-to-Most промптинг — это техника, которая разбивает сложную задачу на серию подвопросов и решает их последовательно, используя ответы предыдущих шагов. В этом исследовании добавили механизм answer sensitivity — на каждом шаге модель даёт процентную оценку уверенности (0-100%) и продолжает итерации пока не пересечёт пороговые значения "точно да" или "точно нет".
Адаптировать под запрос

TL;DR

Least-to-Most промптинг — это техника, которая разбивает сложную задачу на серию подвопросов и решает их последовательно, используя ответы предыдущих шагов. В этом исследовании добавили механизм answer sensitivity — на каждом шаге модель даёт процентную оценку уверенности (0-100%) и продолжает итерации пока не пересечёт пороговые значения "точно да" или "точно нет".

LLM плохо оценивают неоднозначные случаи с одной попытки. Модель может начать с оценки 25% (скорее нет), но через несколько итераций углублённого анализа прийти к 90% (точно да). В исследовании фишинговых URL именно outlier iterations (когда модель долго анализировала) исправили от 50% до 80% ошибок one-shot подхода — случаи, которые с одного взгляда казались безобидными, при детальном разборе оказались опасными.

Метод работает через управляемые итерации: модель задаёт себе подвопрос → анализирует → оценивает уверенность в процентах → если не достигла верхнего (например, 80%) или нижнего (например, 20%) порога — формулирует следующий подвопрос. Лимит в 10 итераций защищает от зацикливания. Консервативное правило: если за 10 шагов не определились — считаем угрозой.


🔬

Схема метода

Выполняется через multi-turn диалог (каждый шаг = новый запрос к LLM):

ИНИЦИАЛИЗАЦИЯ:
Задача → Определи верхний/нижний порог уверенности → Лимит итераций (10)

ИТЕРАЦИЯ (повторяется до выхода):
ШАГ 1: Сформулируй подвопрос для анализа → [конкретный вопрос]
ШАГ 2: Ответь на подвопрос → [анализ]
ШАГ 3: Оцени текущую уверенность → [число 0-100%]
ШАГ 4: Проверка выхода:
  - Уверенность ≥ верхнего порога → СТОП, ответ ДА
  - Уверенность ≤ нижнего порога → СТОП, ответ НЕТ
  - Достигли лимита итераций → СТОП, консервативный ответ
  - Иначе → следующая итерация

ФИНАЛ: Итоговое решение с объяснением траектории рассуждений

🚀

Пример применения

Задача: Получил инвест-предложение в телеграме: "Доверительное управление криптой, 30% в месяц, вход от 100К₽, канал с отзывами 5000 подписчиков". Нужно понять — легитимный сервис или развод.

Промпт (первый запрос):

Помоги оценить инвестиционное предложение методом итеративного анализа.

ПРЕДЛОЖЕНИЕ:
"Доверительное управление криптой, гарантированная доходность 30% в месяц, 
минимальный вход 100 000 рублей, есть телеграм-канал с 5000 подписчиков 
и положительными отзывами"

МЕТОД РАБОТЫ:
1. Задай себе подвопрос для проверки одного аспекта
2. Ответь на него
3. Оцени текущую уверенность что это СКАМ по шкале 0-100%:
   - 0% = точно легитимно
   - 100% = точно мошенничество
4. Если уверенность ≥80% или ≤20% — сделай финальный вывод
5. Если между 20-80% — переходи к следующему подвопросу
6. Максимум 10 итераций

Начни с первого подвопроса.

Результат:

Модель проведёт 4-7 раундов анализа (зависит от сложности случая). Типичная траектория: - Итерация 1: "Реалистична ли доходность 30% в месяц?" → Уверенность: 45% (подозрительно, но не окончательно) - Итерация 2: "Что означает отсутствие регистрации/лицензии?" → Уверенность: 65% (сильнее к скаму) - Итерация 3: "Накрутка подписчиков и отзывов — распространённая практика?" → Уверенность: 85% → СТОП

Получишь финальный вердикт с объяснением: "Уверенность 85% что это мошенническая схема" + траектория рассуждений (какие вопросы задавала модель, как менялась оценка, почему пришла к выводу).


🧠

Почему это работает

LLM хорошо генерируют одиночные ответы, но плохо оценивают сложные многофакторные ситуации с одного взгляда. В one-shot режиме модель должна одновременно найти все важные аспекты, взвесить их и принять решение — это приводит к поверхностному анализу неоднозначных случаев.

Least-to-Most использует сильную сторону LLM — способность генерировать связные цепочки текста. Каждый подвопрос фокусирует внимание модели на конкретном аспекте, а процентная оценка создаёт числовую шкалу вместо бинарного "да/нет". Это снимает давление преждевременного решения — модель может сказать "пока 45%, нужно проверить ещё".

Рычаги управления:

  • Пороги уверенности (20%-80%) → для консервативных решений сузь диапазон (30%-70%), для быстрых — расширь (10%-90%)
  • Лимит итераций (10) → уменьши до 5 для простых задач (экономия токенов), увеличь до 15 для критически важных
  • Консервативное правило (при неопределённости → угроза) → замени на противоположное ("при неопределённости → допустимо") для задач где переоценка риска вредна
  • Шаг вывода уверенности → убери формулировку "оцени в процентах", модель будет давать качественную оценку ("скорее да", "неясно") — меньше структуры, но естественнее рассуждение

📋

Шаблон промпта

Помоги решить задачу методом итеративного анализа с градацией уверенности.

ЗАДАЧА:
{описание_ситуации_или_вопроса}

МЕТОД РАБОТЫ:
1. Сформулируй подвопрос для проверки одного аспекта
2. Ответь на него с обоснованием
3. Оцени текущую уверенность по шкале 0-100%:
   - 0% = {один_полюс_ответа}
   - 100% = {противоположный_полюс_ответа}
4. Если уверенность ≥{верхний_порог}% или ≤{нижний_порог}% — финальный вывод
5. Если между {нижний_порог}-{верхний_порог}% — следующий подвопрос
6. Максимум {лимит_итераций} итераций

После {лимит_итераций} итераций без достижения порогов: {консервативное_правило}

Начни с первого подвопроса.

Заполни: - {описание_ситуации_или_вопроса} — что анализируем - {один_полюс_ответа} и {противоположный_полюс_ответа} — крайние точки шкалы ("точно безопасно" / "точно опасно", "категорически против" / "полностью за") - {верхний_порог} и {нижний_порог} — обычно 80% и 20%, сузь для консервативности (70%-30%), расширь для скорости (90%-10%) - {лимит_итераций} — обычно 10, можно 5 для простых задач или 15 для критичных - {консервативное_правило} — что делать при неопределённости ("считай угрозой", "прими риск", "отложи решение")


🚀 Быстрый старт — вставь в чат:

Вот техника итеративного анализа с градацией уверенности. 
Адаптируй под мою задачу: [твоя задача — например, "проверить надёжность 
нового поставщика" или "оценить стоит ли менять работу"].

Задай вопросы чтобы правильно настроить:
- Что означает 0% и 100% для МОЕЙ задачи?
- Какие пороги уверенности поставить?
- Сколько итераций достаточно?
- Что делать если за лимит итераций не определились?

[вставить шаблон выше]

LLM спросит про полюса шкалы (0% и 100% для твоей задачи) и стратегию при неопределённости — потому что разные задачи требуют разной консервативности. Например, при оценке безопасности лучше перестраховаться (неопределённость → угроза), а при оценке возможностей — рисковать (неопределённость → попробовать). Модель возьмёт структуру и подстроит под контекст.


⚠️

Ограничения

⚠️ Токены и время: Outlier случаи требуют 6-10 итераций — это 6-10 запросов к LLM вместо одного. Для массовой обработки затратно, для разовых решений приемлемо.

⚠️ Не для простых задач: Если вопрос однозначный ("Столица России?") — итерации избыточны. Метод для неоднозначных ситуаций, где с первого взгляда непонятно.

⚠️ Риск зацикливания: Модель может уходить в боковые аспекты и не продвигаться к выводу. Лимит итераций критичен — без него может "спорить сама с собой" бесконечно.

⚠️ Ручное управление: Автоматическая проверка порогов требует скрипта (API + цикл). Вручную в чате нужно самому отслеживать процент и решать продолжать ли итерации.


🔍

Как исследовали

Команда взяла три датасета URL (HP, EBBU, ISCX) и протестировала четыре современные LLM (Gemma, Llama, GPT-4.1, Gemini) на случайной выборке по 1000 URL из каждого датасета (50/50 легитимные/фишинг). Эксперименты повторяли пять раз и усредняли F1-score.

Сравнивали с двумя baseline: 1. URLTran — supervised модель на BERT, fine-tuned на размеченных URL (это потолок, что можно получить с обучением) 2. One-shot классификатор — один промпт без итераций (это стандартный подход к LLM)

Ключевая находка: Least-to-Most показал в среднем +0.03 F1 против One-shot (0.9040 vs 0.8726), а лучшая модель (Gemini) достигла 0.9621 F1 — всего на 0.03 меньше чем supervised URLTran (0.99), при этом не требуя размеченных данных для обучения.

Но самое интересное обнаружилось при анализе траекторий. Исследователи проследили как менялась процентная оценка от итерации к итерации. Оказалось, что URL требующие много итераций (outliers) — это именно те случаи, где One-shot ошибался. Например, из 24 outlier-случаев у GPT на EBBU датасете, 19 были неправильно классифицированы One-shot методом — а Least-to-Most их исправил через углублённый анализ.

Более того, траектории показали качественный сдвиг в уверенности: модель могла начать с 25% (скорее легитимный URL), но через 6 итераций прийти к 90% (точно фишинг). Это значит итеративное рассуждение меняло вывод, не просто подтверждало первую интуицию.

Исследование показало что структурированное multi-step рассуждение с явной градацией уверенности извлекает больше из LLM, чем single-shot даже с Chain-of-Thought. Причём эффект стабилен — Least-to-Most делал меньше ошибок чем One-shot в почти всех сценариях (11 из 12 комбинаций модель-датасет).


💡

Адаптации и экстраполяции

📌

🔧 Техника: Качественная шкала вместо процентов → естественнее рассуждение

Убери требование "оцени 0-100%" и замени на качественные метки:

3. Оцени текущую уверенность:
   - "ТОЧНО ДА" (≥80%)
   - "СКОРЕЕ ДА" (60-80%)
   - "НЕЯСНО" (40-60%)
   - "СКОРЕЕ НЕТ" (20-40%)
   - "ТОЧНО НЕТ" (≤20%)
4. Если "ТОЧНО ДА" или "ТОЧНО НЕТ" — финальный вывод

Эффект: Модель рассуждает свободнее, не искусственно подгоняя оценку под число. Хорошо для творческих/субъективных задач. Минус — сложнее программно автоматизировать.


📌

🔧 Техника: Двухполярный анализ → видишь аргументы ЗА и ПРОТИВ

Вместо единой шкалы проси две отдельные оценки на каждой итерации:

3. Дай две оценки 0-100%:
   - Уверенность что ДА: ___%
   - Уверенность что НЕТ: ___%

   (Сумма может быть ≠100% если есть неопределённость)

Эффект: Видишь силу аргументов с обеих сторон. Полезно для сложных дилемм где есть весомые доводы и за, и против — например, "переезжать в другой город ради оффера?". Модель может показать "40% за, 55% против" → разрыв небольшой, решение неочевидное.


🔗

Ресурсы

Eliciting Least-to-Most Reasoning for Phishing URL Detection Оригинальная работа Least-to-Most prompting: Zhou et al. "Least-to-Most Prompting Enables Complex Reasoning in Large Language Models" (2023) One-shot baseline: Rashid et al. "LLMs are One-Shot URL Classifiers and Explainers" (2024) URLTran supervised model: Maneriker et al. "URLTran: Improving Phishing URL Detection Using Transformers" (2021)

Holly Trikilis, Pasindu Marasinghe, Fariza Rashid, Suranga Seneviratne University of Sydney


Проблемы LLM

ПроблемаСутьКак обойти
Модель плохо оценивает многофакторные ситуации с одной попыткиЗадаёшь вопрос про сложную ситуацию (безопасность, надёжность, выбор). Модель должна одновременно найти все важные аспекты, взвесить их и решить. Получается поверхностный анализ. Неоднозначные случаи часто оцениваются неправильно. Особенно опасно когда с первого взгляда кажется безобидным, но при проверке деталей — угрозаРазбей на итерации: модель анализирует один аспект оценивает уверенность в процентах если не достигла порога "точно да" или "точно нет" переходит к следующему аспекту. Процентная шкала позволяет сказать "пока 45%, надо проверить ещё" вместо преждевременного решения

Методы

МетодСуть
Итеративный анализ с градацией уверенностиМодель задаёт себе подвопрос отвечает оценивает уверенность 0-100% если не достигла порога (например, 80% или 20%) формулирует следующий подвопрос. Лимит итераций (обычно 10) защищает от зацикливания. Оцени текущую уверенность по шкале 0-100%: 0% = точно безопасно, 100% = точно опасно. Почему работает: Фокус на одном аспекте за раз снижает когнитивную нагрузку. Процентная шкала снимает давление бинарного решения — модель может выражать неопределённость числом. Каждая итерация углубляет понимание. Когда применять: неоднозначные ситуации, много факторов для оценки, нужно обоснованное решение. Когда не работает: простые однозначные вопросы, массовая обработка (затратно по токенам), нужен мгновенный ответ

Тезисы

ТезисКомментарий
Процентная шкала уверенности позволяет модели выражать "пока не знаю"Бинарный ответ (да/нет) вынуждает решить преждевременно. Процентная шкала даёт пространство для неопределённости: модель может сказать "сейчас 45%, подозрительно, но недостаточно для вывода". Это снимает давление и позволяет продолжать анализ. Механизм: число легко сравнить с порогом, слово ("возможно") — нет. Применяй: В multi-step задачах добавь "оцени текущую уверенность 0-100%" + пороги продолжения (20%-80%). Между порогами — продолжай углубление
📖 Простыми словами

Eliciting Least-to-Most Reasoning for Phishing URL Detection

arXiv: 2601.20270

Нейросети тупят при анализе фишинга ровно по той же причине, по которой люди попадаются на развод: они смотрят на картинку целиком и ведутся на обертку. Когда ты просишь модель оценить подозрительную ссылку или оффер одним махом, она пытается проглотить всё сразу и выдает поверхностный вердикт. Метод Least-to-Most меняет саму механику мышления AI — вместо того чтобы гадать по кофейной гуще, модель заставляют разбирать проблему на атомы, решая цепочку мелких подзадач, где каждый следующий ответ опирается на предыдущий.

Это как если бы ты пришел к опытному детективу с подозрительным контрактом. Дилетант просто глянет на печать и скажет: "Вроде норм". Профи же сначала проверит реальность юрлица, потом пробьет директора по базам, затем вчитается в мелкий шрифт про штрафы и только в конце сложит пазл. В этом исследовании к такой детективной работе добавили answer sensitivity — теперь на каждом шаге модель выставляет себе оценку уверенности от 0 до 100%. Если она сомневается, она не закрывает дело, а копает дальше, пока не пробьет порог уверенности.

В жизни это выглядит так: тебе прилетает ссылка на «крипто-инвест-канал» с бешеными процентами. Обычный промпт может сказать, что это подозрительно, но не факт. Метод Least-to-Most заставит модель сначала спросить себя: «Реальна ли доходность 30% в месяц?», затем: «Почему отзывы выглядят как под копирку?», и следом: «Куда на самом деле ведет эта сокращенная ссылка?». Только когда по каждому пункту накопится критическая масса улик, модель вынесет приговор. Это превращает AI из гадалки в дотошного аналитика, который не ленится проверять детали.

Тестировали это на фишинговых ссылках, но принцип универсален для любой сложной оценки рисков. Эту же логику можно вкрутить в проверку юридических договоров, аудит кода на уязвимости или анализ сомнительных бизнес-предложений. Везде, где цена ошибки высока, а вводные данные выглядят мутно, многошаговый диалог с самопроверкой уверенности на каждом этапе на голову разбивает стандартные «быстрые» ответы. One-shot промптинг лажает, потому что пытается объять необъятное, а итеративный подход просто не оставляет шансов на ошибку.

Короче, если хочешь, чтобы AI реально находил подвохи, а не просто кивал, забудь про короткие вопросы. Нужно внедрять последовательную декомпозицию и заставлять модель оценивать свою уверенность в цифрах на каждом шаге. Это единственный способ заставить LLM видеть суть, а не вестись на красивый фасад. Кто продолжит юзать простые промпты для безопасности, тот рано или поздно пропустит удар, потому что мошенники давно научились обходить поверхностные фильтры.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с