TL;DR
LLM работает значительно лучше не тогда, когда её заставляют глубже думать, а тогда, когда ей дают чище видеть. Исследование установило иерархию: структурированный контекст (что модель видит) стабильно бьёт глубокое рассуждение (как долго модель думает) — по качеству результата и по стоимости токенов.
Главная находка — deliberation cascade (каскад рассуждений). Это эффект, при котором добавление к сложному многошаговому промпту слоёв самокритики и самоулучшения ухудшает результат. Интуиция говорит: "попроси модель покритиковать себя и улучшить ответ — станет лучше". Данные говорят: в простых запросах это помогает, но в сложных многоуровневых — вредит. Неопределённость одного шага усиливается на следующем, задача разваливается.
Практическое следствие: инвестируй в качество ввода (структуру, фильтрацию шума, компактную историю), а не в количество итераций саморефлексии. Меньше сырых данных + чёткая структура = лучше, чем много данных + "а теперь покритикуй и улучши".
Схема метода
Это исследование-находка, не одна техника. Схема описывает два ключевых принципа:
ПРИНЦИП 1 — STRUCTURED CONTEXT (один промпт)
ВМЕСТО: [сырой текст / документ / данные]
ДЕЛАЙ: → ШАГ 1: Отфильтровать шум — только изменения, аномалии, отклонения от нормы
→ ШАГ 2: Структурировать — статус / история / что сейчас требует внимания
→ ШАГ 3: Сжать историю — повторяющиеся шаги = диапазон, важные = подробно
→ ДАТЬ МОДЕЛИ: компактный структурированный блок, не сырой дамп
ПРИНЦИП 2 — DELIBERATION CASCADE (предупреждение)
В простом промпте:
"Ответь → Покритикуй → Улучши" = ✅ работает
В сложном многошаговом/многоролевом промпте:
Роль A: "Ответь → Покритикуй → Улучши" → передаёт неопределённость →
Роль B: "Ответь → Покритикуй → Улучши" → усиливает неопределённость → ❌ хуже
ПРАВИЛО: Чем сложнее задача / чем больше шагов — тем меньше итераций саморефлексии
Пример применения
Задача: Маша — product manager в ed-tech стартапе. Раз в неделю она собирает фидбек: 150 отзывов из App Store, Telegram-канала и опросов NPS. Обычно копирует всё в ChatGPT и пишет "что здесь главное?". Результат — каша.
Промпт (применяем Structured Context):
Я дам тебе фидбек пользователей. Сначала структурируй его сам по схеме ниже.
Потом ответь на вопрос в конце.
СХЕМА СТРУКТУРИЗАЦИИ:
1. НОВЫЕ ПРОБЛЕМЫ (чего не было в прошлом анализе или упоминается впервые)
2. ПОВТОРЯЮЩИЕСЯ ЖАЛОБЫ (что упоминается 3+ раз — только суть, без примеров)
3. ПОЗИТИВ (что хвалят, коротко)
4. ТРЕБУЕТ ДЕЙСТВИЯ (конкретные запросы фич или баги)
ИСТОРИЯ: [На прошлой неделе главные боли были: медленная загрузка, непонятный онбординг]
---
[ВСТАВИТЬ ФИДБЕК]
---
Вопрос: что изменилось по сравнению с прошлой неделей и на что реагировать первым?
Результат:
Модель сначала покажет структурированный разбор фидбека по четырём блокам — отфильтрует повторения, выделит новое, сожмёт историческое. Затем ответит на вопрос, опираясь на сравнение с прошлой неделей из блока ИСТОРИЯ. Ответ будет компактным и конкретным, без пересказа всего фидбека.
Почему это работает
Слабость LLM — она тонет в шуме. Когда вы даёте 150 отзывов сырым текстом, модель тратит ресурс контекста на разбор структуры данных, а не на анализ смысла. Это как попросить аналитика работать с необработанными логами вместо дашборда.
Сильная сторона LLM — она хорошо работает с уже структурированными данными. Если формат понятен, задача декомпозирована, история сжата — модель сосредотачивается на содержании. В эксперименте переход от сырых данных к структурированному контексту улучшил результат на 53–76% без единого дополнительного токена рассуждения.
Deliberation cascade — это контринтуитивное открытие. Когда ты добавляешь "покритикуй себя и улучши" на каждый шаг сложного промпта, неопределённость с первого шага перетекает во второй и усиливается. Модель на шаге B получает уже неуверенный вывод шага A, добавляет к нему свою неуверенность — и ответ деградирует. Проще говоря: рефлексия работает в изоляции, но разрушает в цепочке.
Рычаги управления: - Уровень структуризации — чем сложнее задача, тем важнее предварительно структурировать ввод - Явная история изменений — вместо полного лога дай только дельту (что изменилось) - Количество итераций — в простых задачах "критикуй → улучши" работает; в сложных — убери или оставь только на финальном шаге - Фильтрация шума — явно отдели "что изменилось" от "что в норме"; второе можно вообще убрать
Шаблон промпта
Я дам тебе {тип данных: документ / фидбек / задачу}.
Сначала структурируй по схеме:
СТАТУС:
— Изменилось: {что отличается от нормального/ожидаемого}
— Без изменений: пропустить (или "всё в норме")
— Требует внимания: {аномалии, выбросы, срочное}
ИСТОРИЯ (коротко):
— {краткая сводка предыдущего контекста, если есть}
ЗАДАЧА:
{что нужно сделать с этими данными}
---
{вставить данные}
---
Что подставлять:
- {тип данных} — отзывы, отчёт, переписка, список задач
- {история} — прошлый вывод, предыдущее состояние, контекст из прошлой сессии
- {задача} — конкретный вопрос или действие
🚀 Быстрый старт — вставь в чат:
Вот шаблон структурированного контекста для анализа данных.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой тип данных, что считать "нормой" и какова история предыдущего контекста — потому что без этого она не сможет правильно настроить блоки структуризации под задачу.
Ограничения
⚠️ Простые задачи — другие правила: Принцип "меньше рефлексии" касается сложных многошаговых промптов. Для простого вопроса или одиночной задачи "критикуй → улучши" по-прежнему работает хорошо.
⚠️ Контекст специфичен: Исследование проводилось в среде с чёткими критериями успеха (кибербезопасность, счётная метрика). Для открытых творческих задач — субъективные оценки, генерация текста — выводы применять с осторожностью.
⚠️ Структуризация требует усилий: Принцип работает, но кто-то должен описать, что считать "нормой", "изменением" и "аномалией". Это разовая инвестиция, зато потом шаблон переиспользуется.
⚠️ Эффект каскада зависит от модели: Качественный вывод (структурированный контекст хорошо, каскад плохо) воспроизводится почти во всех протестированных моделях, но сила эффекта варьируется.
Как исследовали
Команда из Carleton University взяла задачу защиты сети — LLM-агент охраняет 13 хостов от атакующего скрипта на протяжении 30 шагов. Наград за победу нет, есть только штрафы. Любая ошибка — атакующий продвигается дальше, и ошибки копятся. Суммарные штрафы и стали метрикой — чем ближе к нулю, тем лучше.
Дизайн был элегантно контролируемым: шесть моделей из пяти семейств, 72 конфигурации, 3 475 эпизодов и 284 миллиона токенов. Варьировали три оси независимо: что видит агент (сырые данные vs. структурированный контекст), как думает (без рефлексии → вопрос → критика → улучшение → CoT), и как устроена иерархия (один агент vs. три специализированных). Это позволило изолировать эффект каждого фактора.
Самый контринтуитивный результат: иерархия без рефлексии работала лучше, чем иерархия с рефлексией, — причём во всех шести моделях, с деградацией до 3,4× и удвоением расхода токенов. Исследователи назвали это deliberation cascade и даже не сразу ожидали такого эффекта — комбинация казалась логично аддитивной. Оказалось антагонистической. Второй, не менее важный инсайт: сырые данные с структурным слоем сверху (добавили JSON-сводку изменений) улучшили результат у Llama на 76% без единого дополнительного вызова модели — только за счёт фильтрации и форматирования входящих данных.
Адаптации и экстраполяции
1. Принцип "только дельта", не полный лог
🔧 Техника: compressed history → компактная история изменений
Исследование показало: сжатая история (повторяющиеся тихие шаги — в диапазон, важные — подробно) работает лучше полного лога. Применение в чате:
ИСТОРИЯ ЗАДАЧИ (сжато):
— Итерации 1-3: без изменений, базовая структура
— Итерация 4: переписали введение → стало короче, потеряли примеры
— Итерация 5 (текущая): ...
ЧТО НУЖНО: восстановить примеры, сохранив новое введение
Это работает для многосессионных задач: написание текста, итеративный анализ, долгие проекты. Вместо "вот вся переписка с прошлого раза" — структурированная дельта.
2. Deliberation только на финальном шаге
🔧 Техника: локализация рефлексии → только на выходе цепочки
Если задача многошаговая, добавляй "покритикуй и улучши" не к каждому шагу, а только к финальному выводу:
ШАГ 1: Собери факты по вопросу
ШАГ 2: Структурируй по категориям
ШАГ 3: Сформулируй вывод
[Только здесь:] Покритикуй вывод — что упустил, что спорно?
Улучши с учётом критики.
Рефлексия на промежуточных шагах создаёт каскад неопределённости. На финальном — очищает результат.
Ресурсы
Статья: "Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP" DOI: https://doi.org/10.1145/3786335.3813149 Конференция: ACM CAIS '26, San Jose, CA, USA
Авторы: Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman Организации: Carleton University (Ottawa), Defence R&D Canada, Cistel Technology
Ключевые отсылки из исследования: - CybORG CAGE-2 environment: CAGE-2 Leaderboard - Self-Refine (Madaan et al., 2023) — техника, которую использовали как базу для deliberation tools - Chain-of-Thought (Wei et al., 2022; Kojima et al., 2022) - ReAct framework (Yao et al., 2023)
