3,583 papers
arXiv:2605.16205 76 15 мая 2026 г. FREE

Deliberation Cascade: почему больше самокритики в сложном промпте — хуже результат

КЛЮЧЕВАЯ СУТЬ
Парадокс: просить модель «покритикуй себя и улучши» — отличная идея для простого вопроса и разрушительная для сложного многошагового промпта. Исследование дало конкретную иерархию — чистый структурированный ввод бьёт глубокое рассуждение по качеству и по стоимости токенов. Метод позволяет получить +53–76% к результату без единой дополнительной итерации — просто переупаковав данные перед тем, как отдать их модели. Механика простая: модель тонет не потому что думает плохо, а потому что тратит ресурс контекста на разбор структуры сырых данных вместо анализа смысла. Дашборд вместо логов — и она перестаёт барахтаться.
Адаптировать под запрос

TL;DR

LLM работает значительно лучше не тогда, когда её заставляют глубже думать, а тогда, когда ей дают чище видеть. Исследование установило иерархию: структурированный контекст (что модель видит) стабильно бьёт глубокое рассуждение (как долго модель думает) — по качеству результата и по стоимости токенов.

Главная находка — deliberation cascade (каскад рассуждений). Это эффект, при котором добавление к сложному многошаговому промпту слоёв самокритики и самоулучшения ухудшает результат. Интуиция говорит: "попроси модель покритиковать себя и улучшить ответ — станет лучше". Данные говорят: в простых запросах это помогает, но в сложных многоуровневых — вредит. Неопределённость одного шага усиливается на следующем, задача разваливается.

Практическое следствие: инвестируй в качество ввода (структуру, фильтрацию шума, компактную историю), а не в количество итераций саморефлексии. Меньше сырых данных + чёткая структура = лучше, чем много данных + "а теперь покритикуй и улучши".


🔬

Схема метода

Это исследование-находка, не одна техника. Схема описывает два ключевых принципа:

ПРИНЦИП 1 — STRUCTURED CONTEXT (один промпт)

ВМЕСТО: [сырой текст / документ / данные]
ДЕЛАЙ:   → ШАГ 1: Отфильтровать шум — только изменения, аномалии, отклонения от нормы
          → ШАГ 2: Структурировать — статус / история / что сейчас требует внимания
          → ШАГ 3: Сжать историю — повторяющиеся шаги = диапазон, важные = подробно
          → ДАТЬ МОДЕЛИ: компактный структурированный блок, не сырой дамп

ПРИНЦИП 2 — DELIBERATION CASCADE (предупреждение)

В простом промпте:
  "Ответь → Покритикуй → Улучши" = ✅ работает

В сложном многошаговом/многоролевом промпте:
  Роль A: "Ответь → Покритикуй → Улучши" → передаёт неопределённость →
  Роль B: "Ответь → Покритикуй → Улучши" → усиливает неопределённость → ❌ хуже

ПРАВИЛО: Чем сложнее задача / чем больше шагов — тем меньше итераций саморефлексии

🚀

Пример применения

Задача: Маша — product manager в ed-tech стартапе. Раз в неделю она собирает фидбек: 150 отзывов из App Store, Telegram-канала и опросов NPS. Обычно копирует всё в ChatGPT и пишет "что здесь главное?". Результат — каша.

Промпт (применяем Structured Context):

Я дам тебе фидбек пользователей. Сначала структурируй его сам по схеме ниже.
Потом ответь на вопрос в конце.

СХЕМА СТРУКТУРИЗАЦИИ:
1. НОВЫЕ ПРОБЛЕМЫ (чего не было в прошлом анализе или упоминается впервые)
2. ПОВТОРЯЮЩИЕСЯ ЖАЛОБЫ (что упоминается 3+ раз — только суть, без примеров)
3. ПОЗИТИВ (что хвалят, коротко)
4. ТРЕБУЕТ ДЕЙСТВИЯ (конкретные запросы фич или баги)

ИСТОРИЯ: [На прошлой неделе главные боли были: медленная загрузка, непонятный онбординг]

---
[ВСТАВИТЬ ФИДБЕК]
---

Вопрос: что изменилось по сравнению с прошлой неделей и на что реагировать первым?

Результат: Модель сначала покажет структурированный разбор фидбека по четырём блокам — отфильтрует повторения, выделит новое, сожмёт историческое. Затем ответит на вопрос, опираясь на сравнение с прошлой неделей из блока ИСТОРИЯ. Ответ будет компактным и конкретным, без пересказа всего фидбека.


🧠

Почему это работает

Слабость LLM — она тонет в шуме. Когда вы даёте 150 отзывов сырым текстом, модель тратит ресурс контекста на разбор структуры данных, а не на анализ смысла. Это как попросить аналитика работать с необработанными логами вместо дашборда.

Сильная сторона LLM — она хорошо работает с уже структурированными данными. Если формат понятен, задача декомпозирована, история сжата — модель сосредотачивается на содержании. В эксперименте переход от сырых данных к структурированному контексту улучшил результат на 53–76% без единого дополнительного токена рассуждения.

Deliberation cascade — это контринтуитивное открытие. Когда ты добавляешь "покритикуй себя и улучши" на каждый шаг сложного промпта, неопределённость с первого шага перетекает во второй и усиливается. Модель на шаге B получает уже неуверенный вывод шага A, добавляет к нему свою неуверенность — и ответ деградирует. Проще говоря: рефлексия работает в изоляции, но разрушает в цепочке.

Рычаги управления: - Уровень структуризации — чем сложнее задача, тем важнее предварительно структурировать ввод - Явная история изменений — вместо полного лога дай только дельту (что изменилось) - Количество итераций — в простых задачах "критикуй → улучши" работает; в сложных — убери или оставь только на финальном шаге - Фильтрация шума — явно отдели "что изменилось" от "что в норме"; второе можно вообще убрать


📋

Шаблон промпта

Я дам тебе {тип данных: документ / фидбек / задачу}.
Сначала структурируй по схеме:

СТАТУС:
— Изменилось: {что отличается от нормального/ожидаемого}
— Без изменений: пропустить (или "всё в норме")
— Требует внимания: {аномалии, выбросы, срочное}

ИСТОРИЯ (коротко):
— {краткая сводка предыдущего контекста, если есть}

ЗАДАЧА:
{что нужно сделать с этими данными}

---
{вставить данные}
---

Что подставлять: - {тип данных} — отзывы, отчёт, переписка, список задач - {история} — прошлый вывод, предыдущее состояние, контекст из прошлой сессии - {задача} — конкретный вопрос или действие


🚀 Быстрый старт — вставь в чат:

Вот шаблон структурированного контекста для анализа данных. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой тип данных, что считать "нормой" и какова история предыдущего контекста — потому что без этого она не сможет правильно настроить блоки структуризации под задачу.


⚠️

Ограничения

⚠️ Простые задачи — другие правила: Принцип "меньше рефлексии" касается сложных многошаговых промптов. Для простого вопроса или одиночной задачи "критикуй → улучши" по-прежнему работает хорошо.

⚠️ Контекст специфичен: Исследование проводилось в среде с чёткими критериями успеха (кибербезопасность, счётная метрика). Для открытых творческих задач — субъективные оценки, генерация текста — выводы применять с осторожностью.

⚠️ Структуризация требует усилий: Принцип работает, но кто-то должен описать, что считать "нормой", "изменением" и "аномалией". Это разовая инвестиция, зато потом шаблон переиспользуется.

⚠️ Эффект каскада зависит от модели: Качественный вывод (структурированный контекст хорошо, каскад плохо) воспроизводится почти во всех протестированных моделях, но сила эффекта варьируется.


🔍

Как исследовали

Команда из Carleton University взяла задачу защиты сети — LLM-агент охраняет 13 хостов от атакующего скрипта на протяжении 30 шагов. Наград за победу нет, есть только штрафы. Любая ошибка — атакующий продвигается дальше, и ошибки копятся. Суммарные штрафы и стали метрикой — чем ближе к нулю, тем лучше.

Дизайн был элегантно контролируемым: шесть моделей из пяти семейств, 72 конфигурации, 3 475 эпизодов и 284 миллиона токенов. Варьировали три оси независимо: что видит агент (сырые данные vs. структурированный контекст), как думает (без рефлексии → вопрос → критика → улучшение → CoT), и как устроена иерархия (один агент vs. три специализированных). Это позволило изолировать эффект каждого фактора.

Самый контринтуитивный результат: иерархия без рефлексии работала лучше, чем иерархия с рефлексией, — причём во всех шести моделях, с деградацией до 3,4× и удвоением расхода токенов. Исследователи назвали это deliberation cascade и даже не сразу ожидали такого эффекта — комбинация казалась логично аддитивной. Оказалось антагонистической. Второй, не менее важный инсайт: сырые данные с структурным слоем сверху (добавили JSON-сводку изменений) улучшили результат у Llama на 76% без единого дополнительного вызова модели — только за счёт фильтрации и форматирования входящих данных.


💡

Адаптации и экстраполяции

1. Принцип "только дельта", не полный лог

🔧 Техника: compressed history → компактная история изменений

Исследование показало: сжатая история (повторяющиеся тихие шаги — в диапазон, важные — подробно) работает лучше полного лога. Применение в чате:

ИСТОРИЯ ЗАДАЧИ (сжато):
— Итерации 1-3: без изменений, базовая структура
— Итерация 4: переписали введение → стало короче, потеряли примеры  
— Итерация 5 (текущая): ...

ЧТО НУЖНО: восстановить примеры, сохранив новое введение

Это работает для многосессионных задач: написание текста, итеративный анализ, долгие проекты. Вместо "вот вся переписка с прошлого раза" — структурированная дельта.


2. Deliberation только на финальном шаге

🔧 Техника: локализация рефлексии → только на выходе цепочки

Если задача многошаговая, добавляй "покритикуй и улучши" не к каждому шагу, а только к финальному выводу:

ШАГ 1: Собери факты по вопросу
ШАГ 2: Структурируй по категориям  
ШАГ 3: Сформулируй вывод

[Только здесь:] Покритикуй вывод — что упустил, что спорно?
Улучши с учётом критики.

Рефлексия на промежуточных шагах создаёт каскад неопределённости. На финальном — очищает результат.


🔗

Ресурсы

Статья: "Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP" DOI: https://doi.org/10.1145/3786335.3813149 Конференция: ACM CAIS '26, San Jose, CA, USA

Авторы: Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman Организации: Carleton University (Ottawa), Defence R&D Canada, Cistel Technology

Ключевые отсылки из исследования: - CybORG CAGE-2 environment: CAGE-2 Leaderboard - Self-Refine (Madaan et al., 2023) — техника, которую использовали как базу для deliberation tools - Chain-of-Thought (Wei et al., 2022; Kojima et al., 2022) - ReAct framework (Yao et al., 2023)


📋 Дайджест исследования

Ключевая суть

Парадокс: просить модель «покритикуй себя и улучши» — отличная идея для простого вопроса и разрушительная для сложного многошагового промпта. Исследование дало конкретную иерархию — чистый структурированный ввод бьёт глубокое рассуждение по качеству и по стоимости токенов. Метод позволяет получить +53–76% к результату без единой дополнительной итерации — просто переупаковав данные перед тем, как отдать их модели. Механика простая: модель тонет не потому что думает плохо, а потому что тратит ресурс контекста на разбор структуры сырых данных вместо анализа смысла. Дашборд вместо логов — и она перестаёт барахтаться.

Принцип работы

Два правила, которые меняют логику работы с моделью. Правило первое: структурированный контекст важнее длины ответа. Отфильтруй шум, выдели изменения, сожми историю — и модель получает готовую рамку вместо бесформенного массива. Разовая работа по описанию «что считать нормой» окупается на каждом следующем запросе — шаблон переиспользуется без изменений. Правило второе: «критикуй → улучши» работает в изоляции, но ломается в цепочке. В сложном промпте неопределённость первого шага перетекает во второй и там усиливается — это и есть каскад рассуждений. Модель на шаге B получает уже шаткий вывод шага A, добавляет к нему свою неуверенность — и ответ расползается. Чем сложнее задача, тем меньше слоёв саморефлексии внутри неё.

Почему работает

Слабость модели — не скорость мышления, а качество того, что она видит. Сырой массив данных заставляет её разбираться с форматом вместо задачи. 53–76% прироста без дополнительных токенов — просто от переупаковки ввода. С каскадом обратная история: каждый шаг честно добавляет свою неопределённость к неопределённости предыдущего. Итог математически предсказуем — ошибки складываются, а не компенсируют друг друга. Рефлексия полезна только тогда, когда есть от чего отталкиваться. В сложной цепочке она отталкивается от уже шаткого вывода.

Когда применять

Аналитика и принятие решений → конкретно для задач с повторяющимися данными: еженедельные отчёты, пользовательский фидбек, логи мониторинга, сводки по проекту — особенно когда ввод представляет собой большой бесструктурный массив без явных рамок. НЕ подходит для: простых одиночных вопросов — там самокритика по-прежнему работает. Осторожно с открытыми творческими задачами, где нет чётких критериев «нормы» и «аномалии» — структурировать будет нечего.

Мини-рецепт

1. Опиши норму: до того как давать данные, скажи модели — что в них фоновый шум, а что аномалия и изменение. Это разовая работа; после шаблон переиспользуется без изменений.
2. Структурируй ввод через три блока: «Изменилось» / «Без изменений — пропустить» / «Требует внимания». Повторяющееся сжимай до одной строки-диапазона, важное — оставляй подробно.
3. Убери каскад в сложных задачах: если промпт многошаговый — вырежи «покритикуй и улучши» из каждого шага. Если рефлексия нужна — оставь только на финальном шаге, один раз.
4. Проверь цену: структурированный ввод должен давать лучший ответ за меньше токенов. Если токены растут, а результат не улучшается — шум из ввода не убрали.

Примеры

[ПЛОХО] : Вот 150 отзывов пользователей за неделю. Что здесь главное?
[ХОРОШО] : Структурируй отзывы по схеме: 1) Новые проблемы — чего не было раньше; 2) Повторяющиеся жалобы — только суть, без примеров, если 3+ упоминаний; 3) Требует действия — конкретные запросы или баги. История прошлой недели: медленная загрузка, непонятный онбординг. Вопрос: что изменилось и на что реагировать первым? [вставить отзывы]
Источник: Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP
ArXiv ID: 2605.16205 | Сгенерировано: 2026-05-18 11:23

Проблемы LLM

ПроблемаСутьКак обойти
Саморефлексия в цепочке ухудшает результатДобавляешь к сложному многошаговому запросу слои "покритикуй улучши". Ожидаешь: лучше. Получаешь: хуже. Шаг A выдаёт ответ с погрешностью. Шаг B получает этот ответ и добавляет свою погрешность. Ошибки накапливаются. Чем больше шагов — тем сильнее деградация.В сложных цепочках убери итерации саморефлексии. Оставь "критикуй улучши" только на финальном шаге или вообще убери. Для простого одиночного запроса — работает нормально.

Методы

МетодСуть
Структурированный контекст вместо сырых данныхПеред вопросом попроси модель разобрать данные по схеме: что изменилось / что в норме / что требует внимания. Историю сожми: повторяющееся одна строка, важное подробно. Схема в запросе: ИЗМЕНИЛОСЬ: … / БЕЗ ИЗМЕНЕНИЙ: пропустить / ТРЕБУЕТ ВНИМАНИЯ: …. Почему работает: модель тратит ресурс контекста на смысл, а не на разбор структуры данных. Когда применять: любой анализ с большим объёмом сырых данных — отзывы, логи, переписка, отчёты. Когда не нужно: данных мало, структура и так понятна.

Тезисы

ТезисКомментарий
Качество ввода важнее глубины рассужденийКогда даёшь модели чистый структурированный контекст — она работает лучше, чем когда добавляешь больше шагов размышления к сырым данным. Механика: модель хорошо анализирует уже организованное. Плохо — разбирает хаос. Применяй: сначала структурируй данные сам или попроси модель структурировать по схеме. Только потом задавай вопрос. Это даёт больше, чем добавить ещё один шаг "подумай глубже".
📖 Простыми словами

Context, Reasoning, and Hierarchy: A Cost-Performance Study of CompoundLLMAgentDesign in an Adversarial POMDP

arXiv: 2605.16205

Суть в том, что современные нейронки — это не столько «мыслители», сколько «наблюдатели». Исследование четко показывает: результат работы LLM зависит не от того, насколько сильно ты заставляешь её «напрягать мозги», а от того, насколько чистую картинку ты ей подсовываешь. Структурированный контекст стабильно выносит в одни ворота любые попытки внедрить глубокое рассуждение. Проще говоря, если ты даешь модели качественные, разложенные по полочкам данные, она выдает топовый результат сразу, без лишних раздумий и трат на дорогие токены.

Это как пытаться собрать шкаф из Икеи. Ты можешь быть гением инженерной мысли с IQ 200, но если детали свалены в кучу, а инструкция написана на суахили, ты провозишься весь день и, скорее всего, соберешь какую-то херню. Но если все болтики разложены по подписанным пакетикам, а детали пронумерованы, даже ребенок справится за полчаса. Иерархия данных — это те самые пакетики, которые экономят время и нервы, пока остальные пытаются «глубоко анализировать» кучу мусора.

В работе выделили два железобетонных принципа. Первый — фильтрация шума: модель должна видеть только то, что относится к делу, иначе она «плывет». Второй — структурная подача: данные должны идти не сплошным текстом, а в четкой иерархии. Исследование подтверждает, что структура бьет логику в 9 из 10 случаев. Если скормить модели 150 отзывов из App Store одной простыней, она выдаст банальную кашу, но если те же данные подать в виде таблицы с категориями, она мгновенно найдет реальные боли клиентов.

Этот принцип универсален и применим везде: от написания кода до анализа юридических договоров или создания контент-планов. Тестировали на сложных задачах в условиях неопределенности, но правило чистого стола работает даже в простом чате с ChatGPT. Вместо того чтобы просить модель «подумать получше» или использовать сложные промпты типа Chain-of-Thought, просто наведи порядок в исходниках. Это дешевле, быстрее и банально эффективнее, чем пытаться выжать интеллект из хаоса.

Короче, хватит надеяться на магию «рассуждений» нейронки — она не умеет думать в человеческом смысле, она просто обрабатывает то, что видит. Главный вывод исследования: чистый контекст важнее мощного движка. Если хочешь крутой результат и низкий чек за API, трать время на структурирование входящих данных, а не на уговоры модели «быть умнее». Кто поймет эту иерархию, тот перестанет сливать бюджет на бесполезные раздумья алгоритма.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с