3,583 papers
arXiv:2606.22678 72 21 июня 2026 г. FREE

RigorBench: пять принципов дисциплины — LLM умеет планировать, но не делает это без явного указания

КЛЮЧЕВАЯ СУТЬ
Planning Fidelity базового агента — 0.25 из 1. После одной фразы в промпте — 0.72. Способность планировать у модели была всегда. Метод RigorBench позволяет требовать от модели процесс, а не только результат — в каком порядке, с какой проверкой, с каким признанием ошибок. Пять явных требований поднимают качество на 17% и снижают расход токенов на 12% — потому что дисциплина срезает переделки.
Адаптировать под запрос

TL;DR

LLM по умолчанию не планирует — она сразу генерирует ответ. Если попросить написать текст, разобрать ситуацию или решить задачу — модель прыгает к результату без плана, без проверки и никогда не скажет «я не знаю». Именно так работает любой LLM-агент без явных инструкций о процессе.

RigorBench — это бенчмарк, который впервые измеряет не что LLM произвела, а как — насколько дисциплинированно она работает. Базовый агент без инструкций о процессе почти никогда не создаёт план, не проверяет результат и не признаёт, что задача невыполнима. Вместо этого — уверенно выдаёт что-то правдоподобное и неверное. Главная находка: модель способна планировать, только никто не просил.

Исследование выделяет пять столпов дисциплины и показывает: когда явно требовать каждый из них, качество результата растёт на 17%, а токенов тратится на 12% меньше — потому что планирование исключает многократные переделки.


🔬

Схема метода

Пять столпов, которые нужно прописывать явно в промпте:

СТОЛП 1: Планирование       → явный план/декомпозиция ДО выполнения
СТОЛП 2: Верификация        → проверка результата по критериям после
СТОЛП 3: Признание незнания → «скажи, если задача невозможна/неясна»
СТОЛП 4: Атомарность        → небольшие проверяемые шаги, не монолит
СТОЛП 5: Разнообразие восстановления → при ошибке — новая стратегия, не то же самое другими словами

Всё — в одном промпте или через явную последовательность шагов.

🚀

Пример применения

Задача: Нужно разобрать нишу на Wildberries — есть идея продавать корейскую косметику, но непонятно, насколько она перспективна.

Промпт:

Прежде чем отвечать, составь явный план: какие аспекты будешь анализировать и в каком порядке. Покажи план мне до начала работы.

Задача: оцени перспективность ниши «корейская косметика» на Wildberries для нового продавца с бюджетом ~500 000 ₽.

После анализа проверь сам себя: какие пункты плана ты выполнил, а какие пропустил.

Важно: если для полноценного ответа не хватает данных или задача сформулирована слишком широко — скажи об этом явно, задай уточняющие вопросы. Не придумывай цифры.

Работай атомарно: сначала покажи план → жди моё «ок» → потом приступай к анализу.

Результат: Модель сначала покажет явный план: «1. Объём ниши, 2. Конкурентность, 3. Барьеры входа, 4. Что данных нет — нужен доступ к аналитике». Если задача нечёткая — спросит, что именно важно. После подтверждения — пойдёт по плану и в конце покажет, что сделала, а что осталось за кадром. Никакого самоуверенного «вот ваш анализ» без оговорок.


🧠

Почему это работает

LLM обучена завершать текст, а не решать задачи методично. По умолчанию она берёт кратчайший путь к правдоподобному ответу — это выглядит как уверенность, но часто это просто fastest completion, а не лучший ответ.

Модель физически способна строить планы, декомпозировать, признавать неопределённость — у неё есть паттерны для всего этого. Но без явного запроса она эти паттерны не активирует. Planning Fidelity (качество планирования) у базового агента: 0.25 из 1. После явного требования — 0.72. Способность была, её просто не вызвали.

Самый нелогичный результат: дисциплинированные агенты тратят меньше токенов, хотя вроде делают больше (пишут план, проверяют). Объяснение простое: без плана агент переделывает одно и то же пять раз. С планом — делает правильно раз и два.

Рычаги управления: - «Покажи план до начала» → «жди ок» — разбивает монолит на два шага, ты контролируешь направление до выполнения - «Скажи, если данных не хватает» — выключает режим уверенной выдумки - «Проверь себя в конце» — отдельный Self-Check шаг, модель сама находит дыры - «При ошибке — опиши, почему предыдущий подход не сработал, прежде чем пробовать новый» — ломает doom loop (когда модель раз за разом пытается одно и то же)


📋

Шаблон промпта

Прежде чем приступать, составь явный план: какие шаги нужны для {задача}. 
Покажи план — и жди моего подтверждения перед началом работы.

Задача: {задача}

Требования к процессу:
— Работай по плану, не пропускай шаги
— Если данных не хватает или задача неоднозначна — скажи явно и задай вопросы
— После выполнения проверь: какие пункты плана выполнены, что осталось?
— Если что-то не получится — объясни, почему, и предложи другой подход

{любые дополнительные критерии результата}

Плейсхолдеры: - {задача} — что нужно сделать: «напиши стратегию», «разбери ситуацию», «составь план» - {любые дополнительные критерии результата} — формат, объём, угол зрения, ограничения


🚀 Быстрый старт — вставь в чат:

Вот шаблон дисциплинированного запроса. 
Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, что за задача и какие критерии результата важны — потому что «план до начала» требует знать, что именно планировать.


⚠️

Ограничения

⚠️ Abstention не работает натурально: Даже с явным «скажи, если не знаешь» — модели в почти половине случаев всё равно выдают уверенный неверный ответ на заведомо невозможные задачи. Инструкция помогает, но не исключает проблему.

⚠️ Планирование ≠ верификация: Исследование показало, что добавление требования «проверь себя» почти не меняет ситуацию в автономных агентах. В чате — работает лучше, особенно если явно задавать критерии проверки.

⚠️ Масштаб небольшой: 30 задач — маловато для окончательных выводов. Принципы работают, но конкретные числа (+17%, +41%) воспринимай как ориентир, не абсолют.

⚠️ Исследование про автономных агентов, не про чат: В чате нет «траектории выполнения» и нет автоматических проверок. Принципы извлекаемы, но ты сам должен контролировать процесс — запрашивать план, подтверждать, требовать самопроверку.


🔗

Ресурсы

RigorBench: Benchmarking Engineering Process Discipline in Autonomous AI Coding Agents Meher Sai Preetam Madiraju, Meher Bhaskar Madiraju Georgia Institute of Technology (Gatech) mehersaipreetam@gatech.edu, meherbhaskar.madiraju@gatech.edu

Смежное: SWEbench (оценка агентов по результату), Agent-Rigor framework, ReAct paradigm (Yao et al.), Reflexion (Shinn et al.)


📋 Дайджест исследования

Ключевая суть

Planning Fidelity базового агента — 0.25 из 1. После одной фразы в промпте — 0.72. Способность планировать у модели была всегда. Метод RigorBench позволяет требовать от модели процесс, а не только результат — в каком порядке, с какой проверкой, с каким признанием ошибок. Пять явных требований поднимают качество на 17% и снижают расход токенов на 12% — потому что дисциплина срезает переделки.

Принцип работы

Пять требований прописываются в промпте явно. Не намёком — требованием. Ключевой приём: разрыв между планом и выполнением. «Покажи план — жди моего ок.» В этот момент ты берёшь контроль над направлением, а не только над результатом. Пять требований: 1. Планирование — явный план до начала. Не в голове у модели, а на экране. 2. Верификация — проверка по критериям после. 3. Признание незнания — «скажи, если задача невозможна или данных не хватает». 4. Атомарность — небольшие шаги с подтверждением между ними. 5. Диверсия восстановления — при ошибке новая стратегия, не то же самое другими словами.

Почему работает

LLM обучена завершать текст. Не решать задачи методично — именно завершать. Это кратчайший путь к правдоподобному ответу. Выглядит как уверенность — часто это просто быстрый финиш, а не лучший ответ. Паттерны планирования у модели есть. Она просто не активирует их без явного запроса. Planning Fidelity в базовом агенте — 0.25. После явного требования — 0.72. Почти в три раза. Способность была с самого начала. Про токены: дисциплинированный агент тратит меньше, потому что не переделывает. Без плана — пять итераций одного и того же. С планом — один раз, верно.

Когда применять

Любая задача с шагами и риском ошибиться в направлении. Анализ ниши, написание стратегии, разбор ситуации, сложный текст с требованиями. Особенно важно: когда ты хочешь проверить направление до выполнения, а не переделывать после. Не подходит для простых запросов — «переведи», «сделай короче», «ответь на вопрос». Там план только замедляет.

Мини-рецепт

1. Потребуй план первым шагом: «Прежде чем приступать, составь явный план. Покажи мне — и жди моего ок.» Модель не уйдёт в выполнение без разрешения.
2. Добавь инструкцию на незнание: «Если данных не хватает или задача неоднозначна — скажи явно и задай вопросы. Не придумывай.» Это выключает режим уверенной выдумки.
3. Прочитай план и подтверди: Скажи «ок» или поправь направление. Это единственный момент, когда ты контролируешь процесс до, а не после.
4. Потребуй самопроверку: «После выполнения проверь: что из плана сделано, что пропущено.» Модель сама найдёт дыры.
5. Закрой петлю повторений: «Если что-то не получится — объясни почему, и предложи другой подход. Не повторяй то же самое.» Ломает ситуацию, когда модель раз за разом пробует одно и то же.

Примеры

[ПЛОХО] : Разбери нишу корейской косметики на Wildberries
[ХОРОШО] : Прежде чем начать — составь явный план анализа. Покажи мне и жди подтверждения. Задача: оцени перспективность ниши «корейская косметика» на Wildberries для нового продавца с бюджетом 500 000 ₽. Требования к процессу: — Если данных не хватает — скажи явно, задай вопросы. Не придумывай цифры. — После анализа проверь себя: что выполнено из плана, что осталось за кадром. — Если какой-то пункт не получится закрыть — объясни почему и предложи, как восполнить пробел. Результат: модель сначала выдаст план — «1. Объём ниши, 2. Конкурентность, 3. Барьеры входа, 4. Чего не хватает — нужен доступ к аналитике». После подтверждения пройдёт по плану и в конце покажет, что сделала, а что осталось. Никакого самоуверенного «вот ваш анализ» без оговорок.
Источник: RigorBench: Benchmarking Engineering Process Discipline in Autonomous AI Coding Agents
ArXiv ID: 2606.22678 | Сгенерировано: 2026-06-28 21:51

Проблемы LLM

ПроблемаСутьКак обойти
Инструкция «признай незнание» работает ненадёжноПишешь «скажи, если данных не хватает». Модель всё равно в половине случаев выдаёт уверенный неверный ответ. Особенно на заведомо невыполнимых задачах. Инструкция снижает проблему, но не устраняет.Добавь явный критерий невозможности: «проверь — есть ли в задаче противоречие или отсутствующие данные. Если да — опиши это до начала работы». Плюс разбивай задачу на шаги: на маленьком шаге ложь заметнее.

Методы

МетодСуть
Двухшаговый запуск — контроль до выполненияПиши не «сделай X», а в два этапа: сначала «составь план и покажи мне», потом — жди твоего «ок» перед выполнением. Синтаксис: Покажи план жди моего подтверждения приступай. Почему работает: Модель по умолчанию сразу прыгает к результату. Двухшаговый запуск разрывает этот прыжок. Ты видишь направление до того, как потрачены усилия. Если план неверный — правишь дёшево, до работы. Когда применять: любая задача с несколькими аспектами, анализ, написание текста, стратегия. Когда не нужно: простые одношаговые задачи — план избыточен.
Требование новой стратегии при ошибкеКогда модель ошиблась и пробует снова — она часто делает то же самое другими словами. Добавь в запрос: Если подход не сработал — объясни почему, и предложи другой, отличный подход. Почему работает: Без требования объяснения модель не анализирует провал — просто повторяет. Обязательное объяснение заставляет зафиксировать что пошло не так. После этого новый подход действительно отличается. Применяй: в итеративных задачах, при переработке текста, отладке логики.
📖 Простыми словами

RigorBench: BenchmarkingEngineeringProcess Discipline inAutonomousAICodingAgents

arXiv: 2606.22678

LLM по своей природе — это не инженер, а сверхмощный автодополнитель текста. Когда ты даешь ей задачу, она не садится размышлять, а просто генерирует наиболее вероятное продолжение фразы. Проблема в том, что модель прыгает к результату мгновенно, пропуская этап планирования, проверки и критического анализа. Она физически не умеет говорить «я не знаю» или «мне нужно подумать», если ты не заставишь её это сделать через жесткие рамки промпта. Без четкой дисциплины любой AI-агент — это просто генератор случайных, хоть и правдоподобных галлюцинаций.

Это как нанять на работу стажера-всезнайку, который на любой сложный вопрос тут же выдает уверенный ответ, даже не открыв гугл. Формально он молодец, среагировал быстро, но по факту он просто выдумал решение на ходу, чтобы не показаться глупым. Ты ждешь от него глубокой аналитики, а получаешь fastest completion — самый короткий путь к точке в конце предложения. Без палки над головой и четкого чек-листа такой сотрудник завалит любой проект, просто потому что он не приучен проверять свои гипотезы перед тем, как вывалить их на тебя.

Чтобы превратить этот хаос в результат, нужно внедрять инженерную дисциплину через пять конкретных этапов. Сначала заставляешь модель составить план действий, затем требуешь проверку условий (а точно ли мы можем это сделать?), следом идет пошаговое выполнение, обязательная самопроверка на ошибки и, наконец, финальный аудит. Если ты просишь разобрать нишу на маркетплейсе, модель не должна сразу писать «косметика — это круто». Она обязана сначала найти данные по конкурентам, проверить объем рынка, выявить риски и только потом делать выводы.

Этот принцип универсален: он работает и при написании кода, и при создании маркетинговой стратегии, и даже при планировании отпуска. Исследование RigorBench доказывает, что автономные агенты лажают не потому, что они тупые, а потому, что у них нет процедурной дисциплины. Как только ты вводишь жесткий алгоритм «сначала думай — потом пиши», качество ответов взлетает, потому что модель перестает гадать и начинает имитировать работу мозга системно. SEO для смыслов уступает место жесткой логике процесса.

Короче: хватит ждать от нейронки магии, начни относиться к ней как к исполнителю, который склонен к халтуре. Если в твоем промпте нет требования сначала составить план и проверить факты, ты получишь красивую, но бесполезную пустышку. Дисциплина важнее креативности, особенно когда речь идет о задачах, где цена ошибки выше нуля. Либо ты прописываешь алгоритм контроля, либо продолжаешь играть в лотерею с галлюцинациями, надеясь, что в этот раз пронесет.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с