arXiv:2605.16205 76 15 мая 2026 г. FREE

Deliberation Cascade: почему больше самокритики в сложном промпте — хуже результат

КЛЮЧЕВАЯ СУТЬ

Парадокс: просить модель «покритикуй себя и улучши» — отличная идея для простого вопроса и разрушительная для сложного многошагового промпта. Исследование дало конкретную иерархию — чистый структурированный ввод бьёт глубокое рассуждение по качеству и по стоимости токенов. Метод позволяет получить +53–76% к результату без единой дополнительной итерации — просто переупаковав данные перед тем, как отдать их модели. Механика простая: модель тонет не потому что думает плохо, а потому что тратит ресурс контекста на разбор структуры сырых данных вместо анализа смысла. Дашборд вместо логов — и она перестаёт барахтаться.

Адаптировать под запрос

⚡

TL;DR

LLM работает значительно лучше не тогда, когда её заставляют глубже думать, а тогда, когда ей дают чище видеть. Исследование установило иерархию: структурированный контекст (что модель видит) стабильно бьёт глубокое рассуждение (как долго модель думает) — по качеству результата и по стоимости токенов.

Главная находка — deliberation cascade (каскад рассуждений). Это эффект, при котором добавление к сложному многошаговому промпту слоёв самокритики и самоулучшения ухудшает результат. Интуиция говорит: "попроси модель покритиковать себя и улучшить ответ — станет лучше". Данные говорят: в простых запросах это помогает, но в сложных многоуровневых — вредит. Неопределённость одного шага усиливается на следующем, задача разваливается.

Практическое следствие: инвестируй в качество ввода (структуру, фильтрацию шума, компактную историю), а не в количество итераций саморефлексии. Меньше сырых данных + чёткая структура = лучше, чем много данных + "а теперь покритикуй и улучши".

🔬

Схема метода

Это исследование-находка, не одна техника. Схема описывает два ключевых принципа:

ПРИНЦИП 1 — STRUCTURED CONTEXT (один промпт)

ВМЕСТО: [сырой текст / документ / данные]
ДЕЛАЙ:   → ШАГ 1: Отфильтровать шум — только изменения, аномалии, отклонения от нормы
          → ШАГ 2: Структурировать — статус / история / что сейчас требует внимания
          → ШАГ 3: Сжать историю — повторяющиеся шаги = диапазон, важные = подробно
          → ДАТЬ МОДЕЛИ: компактный структурированный блок, не сырой дамп

ПРИНЦИП 2 — DELIBERATION CASCADE (предупреждение)

В простом промпте:
  "Ответь → Покритикуй → Улучши" = ✅ работает

В сложном многошаговом/многоролевом промпте:
  Роль A: "Ответь → Покритикуй → Улучши" → передаёт неопределённость →
  Роль B: "Ответь → Покритикуй → Улучши" → усиливает неопределённость → ❌ хуже

ПРАВИЛО: Чем сложнее задача / чем больше шагов — тем меньше итераций саморефлексии

🚀

Пример применения

Задача: Маша — product manager в ed-tech стартапе. Раз в неделю она собирает фидбек: 150 отзывов из App Store, Telegram-канала и опросов NPS. Обычно копирует всё в ChatGPT и пишет "что здесь главное?". Результат — каша.

Промпт (применяем Structured Context):

Я дам тебе фидбек пользователей. Сначала структурируй его сам по схеме ниже.
Потом ответь на вопрос в конце.

СХЕМА СТРУКТУРИЗАЦИИ:
1. НОВЫЕ ПРОБЛЕМЫ (чего не было в прошлом анализе или упоминается впервые)
2. ПОВТОРЯЮЩИЕСЯ ЖАЛОБЫ (что упоминается 3+ раз — только суть, без примеров)
3. ПОЗИТИВ (что хвалят, коротко)
4. ТРЕБУЕТ ДЕЙСТВИЯ (конкретные запросы фич или баги)

ИСТОРИЯ: [На прошлой неделе главные боли были: медленная загрузка, непонятный онбординг]

---
[ВСТАВИТЬ ФИДБЕК]
---

Вопрос: что изменилось по сравнению с прошлой неделей и на что реагировать первым?

Результат: Модель сначала покажет структурированный разбор фидбека по четырём блокам — отфильтрует повторения, выделит новое, сожмёт историческое. Затем ответит на вопрос, опираясь на сравнение с прошлой неделей из блока ИСТОРИЯ. Ответ будет компактным и конкретным, без пересказа всего фидбека.

🧠

Почему это работает

Слабость LLM — она тонет в шуме. Когда вы даёте 150 отзывов сырым текстом, модель тратит ресурс контекста на разбор структуры данных, а не на анализ смысла. Это как попросить аналитика работать с необработанными логами вместо дашборда.

Сильная сторона LLM — она хорошо работает с уже структурированными данными. Если формат понятен, задача декомпозирована, история сжата — модель сосредотачивается на содержании. В эксперименте переход от сырых данных к структурированному контексту улучшил результат на 53–76% без единого дополнительного токена рассуждения.

Deliberation cascade — это контринтуитивное открытие. Когда ты добавляешь "покритикуй себя и улучши" на каждый шаг сложного промпта, неопределённость с первого шага перетекает во второй и усиливается. Модель на шаге B получает уже неуверенный вывод шага A, добавляет к нему свою неуверенность — и ответ деградирует. Проще говоря: рефлексия работает в изоляции, но разрушает в цепочке.

Рычаги управления: - Уровень структуризации — чем сложнее задача, тем важнее предварительно структурировать ввод - Явная история изменений — вместо полного лога дай только дельту (что изменилось) - Количество итераций — в простых задачах "критикуй → улучши" работает; в сложных — убери или оставь только на финальном шаге - Фильтрация шума — явно отдели "что изменилось" от "что в норме"; второе можно вообще убрать

📋

Шаблон промпта

Я дам тебе {тип данных: документ / фидбек / задачу}.
Сначала структурируй по схеме:

СТАТУС:
— Изменилось: {что отличается от нормального/ожидаемого}
— Без изменений: пропустить (или "всё в норме")
— Требует внимания: {аномалии, выбросы, срочное}

ИСТОРИЯ (коротко):
— {краткая сводка предыдущего контекста, если есть}

ЗАДАЧА:
{что нужно сделать с этими данными}

---
{вставить данные}
---

Что подставлять: - {тип данных} — отзывы, отчёт, переписка, список задач - {история} — прошлый вывод, предыдущее состояние, контекст из прошлой сессии - {задача} — конкретный вопрос или действие

🚀 Быстрый старт — вставь в чат:

Вот шаблон структурированного контекста для анализа данных. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой тип данных, что считать "нормой" и какова история предыдущего контекста — потому что без этого она не сможет правильно настроить блоки структуризации под задачу.

⚠️

Ограничения

⚠️ Простые задачи — другие правила: Принцип "меньше рефлексии" касается сложных многошаговых промптов. Для простого вопроса или одиночной задачи "критикуй → улучши" по-прежнему работает хорошо.

⚠️ Контекст специфичен: Исследование проводилось в среде с чёткими критериями успеха (кибербезопасность, счётная метрика). Для открытых творческих задач — субъективные оценки, генерация текста — выводы применять с осторожностью.

⚠️ Структуризация требует усилий: Принцип работает, но кто-то должен описать, что считать "нормой", "изменением" и "аномалией". Это разовая инвестиция, зато потом шаблон переиспользуется.

⚠️ Эффект каскада зависит от модели: Качественный вывод (структурированный контекст хорошо, каскад плохо) воспроизводится почти во всех протестированных моделях, но сила эффекта варьируется.

🔍

Как исследовали

Команда из Carleton University взяла задачу защиты сети — LLM-агент охраняет 13 хостов от атакующего скрипта на протяжении 30 шагов. Наград за победу нет, есть только штрафы. Любая ошибка — атакующий продвигается дальше, и ошибки копятся. Суммарные штрафы и стали метрикой — чем ближе к нулю, тем лучше.

Дизайн был элегантно контролируемым: шесть моделей из пяти семейств, 72 конфигурации, 3 475 эпизодов и 284 миллиона токенов. Варьировали три оси независимо: что видит агент (сырые данные vs. структурированный контекст), как думает (без рефлексии → вопрос → критика → улучшение → CoT), и как устроена иерархия (один агент vs. три специализированных). Это позволило изолировать эффект каждого фактора.

Самый контринтуитивный результат: иерархия без рефлексии работала лучше, чем иерархия с рефлексией, — причём во всех шести моделях, с деградацией до 3,4× и удвоением расхода токенов. Исследователи назвали это deliberation cascade и даже не сразу ожидали такого эффекта — комбинация казалась логично аддитивной. Оказалось антагонистической. Второй, не менее важный инсайт: сырые данные с структурным слоем сверху (добавили JSON-сводку изменений) улучшили результат у Llama на 76% без единого дополнительного вызова модели — только за счёт фильтрации и форматирования входящих данных.

💡

Адаптации и экстраполяции

1. Принцип "только дельта", не полный лог

🔧 Техника: compressed history → компактная история изменений

Исследование показало: сжатая история (повторяющиеся тихие шаги — в диапазон, важные — подробно) работает лучше полного лога. Применение в чате:

ИСТОРИЯ ЗАДАЧИ (сжато):
— Итерации 1-3: без изменений, базовая структура
— Итерация 4: переписали введение → стало короче, потеряли примеры  
— Итерация 5 (текущая): ...

ЧТО НУЖНО: восстановить примеры, сохранив новое введение

Это работает для многосессионных задач: написание текста, итеративный анализ, долгие проекты. Вместо "вот вся переписка с прошлого раза" — структурированная дельта.

2. Deliberation только на финальном шаге

🔧 Техника: локализация рефлексии → только на выходе цепочки

Если задача многошаговая, добавляй "покритикуй и улучши" не к каждому шагу, а только к финальному выводу:

ШАГ 1: Собери факты по вопросу
ШАГ 2: Структурируй по категориям  
ШАГ 3: Сформулируй вывод

[Только здесь:] Покритикуй вывод — что упустил, что спорно?
Улучши с учётом критики.

Рефлексия на промежуточных шагах создаёт каскад неопределённости. На финальном — очищает результат.

🔗

Ресурсы

Статья: "Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP" DOI: https://doi.org/10.1145/3786335.3813149 Конференция: ACM CAIS '26, San Jose, CA, USA

Авторы: Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman Организации: Carleton University (Ottawa), Defence R&D Canada, Cistel Technology

Ключевые отсылки из исследования: - CybORG CAGE-2 environment: CAGE-2 Leaderboard - Self-Refine (Madaan et al., 2023) — техника, которую использовали как базу для deliberation tools - Chain-of-Thought (Wei et al., 2022; Kojima et al., 2022) - ReAct framework (Yao et al., 2023)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Два правила, которые меняют логику работы с моделью. Правило первое: структурированный контекст важнее длины ответа. Отфильтруй шум, выдели изменения, сожми историю — и модель получает готовую рамку вместо бесформенного массива. Разовая работа по описанию «что считать нормой» окупается на каждом следующем запросе — шаблон переиспользуется без изменений. Правило второе: «критикуй → улучши» работает в изоляции, но ломается в цепочке. В сложном промпте неопределённость первого шага перетекает во второй и там усиливается — это и есть каскад рассуждений. Модель на шаге B получает уже шаткий вывод шага A, добавляет к нему свою неуверенность — и ответ расползается. Чем сложнее задача, тем меньше слоёв саморефлексии внутри неё.

Почему работает

Слабость модели — не скорость мышления, а качество того, что она видит. Сырой массив данных заставляет её разбираться с форматом вместо задачи. 53–76% прироста без дополнительных токенов — просто от переупаковки ввода. С каскадом обратная история: каждый шаг честно добавляет свою неопределённость к неопределённости предыдущего. Итог математически предсказуем — ошибки складываются, а не компенсируют друг друга. Рефлексия полезна только тогда, когда есть от чего отталкиваться. В сложной цепочке она отталкивается от уже шаткого вывода.

Когда применять

Аналитика и принятие решений → конкретно для задач с повторяющимися данными: еженедельные отчёты, пользовательский фидбек, логи мониторинга, сводки по проекту — особенно когда ввод представляет собой большой бесструктурный массив без явных рамок. НЕ подходит для: простых одиночных вопросов — там самокритика по-прежнему работает. Осторожно с открытыми творческими задачами, где нет чётких критериев «нормы» и «аномалии» — структурировать будет нечего.

Мини-рецепт

1. Опиши норму: до того как давать данные, скажи модели — что в них фоновый шум, а что аномалия и изменение. Это разовая работа; после шаблон переиспользуется без изменений.
2. Структурируй ввод через три блока: «Изменилось» / «Без изменений — пропустить» / «Требует внимания». Повторяющееся сжимай до одной строки-диапазона, важное — оставляй подробно.
3. Убери каскад в сложных задачах: если промпт многошаговый — вырежи «покритикуй и улучши» из каждого шага. Если рефлексия нужна — оставь только на финальном шаге, один раз.
4. Проверь цену: структурированный ввод должен давать лучший ответ за меньше токенов. Если токены растут, а результат не улучшается — шум из ввода не убрали.

Примеры

[ПЛОХО] : Вот 150 отзывов пользователей за неделю. Что здесь главное?

[ХОРОШО] :

Структурируй отзывы по схеме: 1) Новые проблемы — чего не было раньше; 2) Повторяющиеся жалобы — только суть, без примеров, если 3+ упоминаний; 3) Требует действия — конкретные запросы или баги. История прошлой недели: медленная загрузка, непонятный онбординг. Вопрос: что изменилось и на что реагировать первым? [вставить отзывы]

Источник: Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP

ArXiv ID: 2605.16205 | Сгенерировано: 2026-05-18 11:23

Проблемы LLM

Проблема	Суть	Как обойти
Саморефлексия в цепочке ухудшает результат	Добавляешь к сложному многошаговому запросу слои "покритикуй → улучши". Ожидаешь: лучше. Получаешь: хуже. Шаг A выдаёт ответ с погрешностью. Шаг B получает этот ответ и добавляет свою погрешность. Ошибки накапливаются. Чем больше шагов — тем сильнее деградация.	В сложных цепочках убери итерации саморефлексии. Оставь "критикуй → улучши" только на финальном шаге или вообще убери. Для простого одиночного запроса — работает нормально.

Методы

Метод Суть

Структурированный контекст вместо сырых данных Перед вопросом попроси модель разобрать данные по схеме: что изменилось / что в норме / что требует внимания. Историю сожми: повторяющееся → одна строка, важное → подробно. Схема в запросе: ИЗМЕНИЛОСЬ: … / БЕЗ ИЗМЕНЕНИЙ: пропустить / ТРЕБУЕТ ВНИМАНИЯ: …. Почему работает: модель тратит ресурс контекста на смысл, а не на разбор структуры данных. Когда применять: любой анализ с большим объёмом сырых данных — отзывы, логи, переписка, отчёты. Когда не нужно: данных мало, структура и так понятна.

Метод	Суть
Структурированный контекст вместо сырых данных	Перед вопросом попроси модель разобрать данные по схеме: что изменилось / что в норме / что требует внимания. Историю сожми: повторяющееся → одна строка, важное → подробно. Схема в запросе: `ИЗМЕНИЛОСЬ: … / БЕЗ ИЗМЕНЕНИЙ: пропустить / ТРЕБУЕТ ВНИМАНИЯ: …`. Почему работает: модель тратит ресурс контекста на смысл, а не на разбор структуры данных. Когда применять: любой анализ с большим объёмом сырых данных — отзывы, логи, переписка, отчёты. Когда не нужно: данных мало, структура и так понятна.

Тезисы

Тезис	Комментарий
Качество ввода важнее глубины рассуждений	Когда даёшь модели чистый структурированный контекст — она работает лучше, чем когда добавляешь больше шагов размышления к сырым данным. Механика: модель хорошо анализирует уже организованное. Плохо — разбирает хаос. Применяй: сначала структурируй данные сам или попроси модель структурировать по схеме. Только потом задавай вопрос. Это даёт больше, чем добавить ещё один шаг "подумай глубже".

Тезис

Комментарий

Качество ввода важнее глубины рассуждений

Когда даёшь модели чистый структурированный контекст — она работает лучше, чем когда добавляешь больше шагов размышления к сырым данным. Механика: модель хорошо анализирует уже организованное. Плохо — разбирает хаос. Применяй: сначала структурируй данные сам или попроси модель структурировать по схеме. Только потом задавай вопрос. Это даёт больше, чем добавить ещё один шаг "подумай глубже".

📖 Простыми словами

Context, Reasoning, and Hierarchy: A Cost-Performance Study of CompoundLLMAgentDesign in an Adversarial POMDP

arXiv: 2605.16205

Суть в том, что современные нейронки — это не столько «мыслители», сколько «наблюдатели». Исследование четко показывает: результат работы LLM зависит не от того, насколько сильно ты заставляешь её «напрягать мозги», а от того, насколько чистую картинку ты ей подсовываешь. Структурированный контекст стабильно выносит в одни ворота любые попытки внедрить глубокое рассуждение. Проще говоря, если ты даешь модели качественные, разложенные по полочкам данные, она выдает топовый результат сразу, без лишних раздумий и трат на дорогие токены.

Это как пытаться собрать шкаф из Икеи. Ты можешь быть гением инженерной мысли с IQ 200, но если детали свалены в кучу, а инструкция написана на суахили, ты провозишься весь день и, скорее всего, соберешь какую-то херню. Но если все болтики разложены по подписанным пакетикам, а детали пронумерованы, даже ребенок справится за полчаса. Иерархия данных — это те самые пакетики, которые экономят время и нервы, пока остальные пытаются «глубоко анализировать» кучу мусора.

В работе выделили два железобетонных принципа. Первый — фильтрация шума: модель должна видеть только то, что относится к делу, иначе она «плывет». Второй — структурная подача: данные должны идти не сплошным текстом, а в четкой иерархии. Исследование подтверждает, что структура бьет логику в 9 из 10 случаев. Если скормить модели 150 отзывов из App Store одной простыней, она выдаст банальную кашу, но если те же данные подать в виде таблицы с категориями, она мгновенно найдет реальные боли клиентов.

Этот принцип универсален и применим везде: от написания кода до анализа юридических договоров или создания контент-планов. Тестировали на сложных задачах в условиях неопределенности, но правило чистого стола работает даже в простом чате с ChatGPT. Вместо того чтобы просить модель «подумать получше» или использовать сложные промпты типа Chain-of-Thought, просто наведи порядок в исходниках. Это дешевле, быстрее и банально эффективнее, чем пытаться выжать интеллект из хаоса.

Короче, хватит надеяться на магию «рассуждений» нейронки — она не умеет думать в человеческом смысле, она просто обрабатывает то, что видит. Главный вывод исследования: чистый контекст важнее мощного движка. Если хочешь крутой результат и низкий чек за API, трать время на структурирование входящих данных, а не на уговоры модели «быть умнее». Кто поймет эту иерархию, тот перестанет сливать бюджет на бесполезные раздумья алгоритма.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню