3,583 papers
arXiv:2602.18806 82 21 фев. 2026 г. FREE

Think²: структурированное само-исправление через три фазы мышления в одном промпте

КЛЮЧЕВАЯ СУТЬ
LLM замечает что ошибается в 51% случаев. Но исправляет себя — только в 16%. Это не сбой, это структурная проблема: модель видит симптом, но не может поставить диагноз. Think² позволяет сломать этот паттерн — три обязательные фазы (Планирование → Мониторинг → Оценка) прямо в промпте поднимают успешное само-исправление до 50%, рост в три раза. Принудительные остановки превращают линейную генерацию в процесс с контрольными точками — модель не может закончить, не сверив финал с тем, что обещала в начале.
Адаптировать под запрос

TL;DR

Think² — техника, которая разбивает любой сложный запрос на три обязательные фазы прямо внутри промпта: Планирование → Мониторинг → Оценка. Модель не просто решает задачу, а сначала строит маршрут, затем контролирует каждый шаг, и в конце проверяет результат против исходных условий.

Главная боль: LLM уверенно идёт к неправильному ответу. Модель чувствует, что что-то не так — в 51% случаев она замечает ошибку. Но диагностировать точную причину ей удаётся только в 28% случаев. Итог: попытки исправить себя заканчиваются успехом лишь в 16% случаев. Модель как врач, который видит больного, но не может поставить диагноз — и назначает лечение наугад.

Что делает метод: принудительная структура Планирование → Мониторинг → Оценка ломает этот паттерн. Когда модель обязана сначала описать ожидаемую форму ответа, потом явно отслеживать каждый шаг, а в конце сверить результат с исходными условиями — диагностика ошибок вырастает до 58%, а успешное само-исправление до 50% — рост в три раза.


🔬

Схема метода

Всё выполняется в одном промпте, три фазы — в одном запросе:

ФАЗ 1: ПЛАНИРОВАНИЕ
→ Классифицировать тип задачи
→ Выписать известные факты, формулы, ограничения
→ Предсказать форму ответа (тип, диапазон, структуру)

ФАЗ 2: МОНИТОРИНГ
→ Решать шаг за шагом с явным отслеживанием состояния
→ На каждом переходе: "Логика шага верна? Нет противоречий?"
→ При сомнении — остановиться и разобрать источник

ФАЗ 3: ОЦЕНКА
→ Проверить ответ против предсказаний из Фазы 1
→ Проверить, все ли ограничения из задачи выполнены
→ Зафиксировать финальный вывод

🚀

Пример применения

⚠️ Сильная зона метода: многошаговые задачи с чёткими ограничениями, где есть риск уверенной ошибки — диагностика, анализ, логические решения, оценка рисков. Слабая зона: простые вопросы, творческие задачи без жёстких критериев, задачи для слабых моделей.


Задача: Ты получил оффер в стартап на 20% меньше нынешней зарплаты, но с долей 0,5% и опционами. Компания на стадии Series A, оценка 800 млн рублей. Нужно решить: соглашаться или нет.

Промпт:

Помоги принять решение об оффере. Действуй строго по трём фазам:

ЗАДАЧА: Мне предложили оффер в стартап. Детали:
- Текущая зарплата: 350 000 руб/мес
- Оффер: 280 000 руб/мес (-20%)
- Доля в компании: 0,5%
- Стадия: Series A
- Текущая оценка компании: 800 млн рублей
- Клифф: 1 год, вестинг: 4 года
- Сфера: EdTech, B2B

---

ФАЗА 1 — ПЛАНИРОВАНИЕ:
Прежде чем анализировать — выпиши:
1. Какие факторы критически важны для этого решения
2. Какие данные у нас есть, а каких не хватает
3. В каком формате должен выглядеть финальный вывод
4. Предскажи: какие подводные камни обычно упускают при таком решении

ФАЗА 2 — МОНИТОРИНГ:
Анализируй по шагам. После каждого шага явно пиши: 
"✓ Этот шаг завершён" или "⚠️ Здесь нужна осторожность: [причина]"
Шаги:
- Финансовые потери за период вестинга
- Сценарии стоимости доли (×3, ×10, провал)
- Риски, которые сложно посчитать
- Альтернативные издержки

ФАЗА 3 — ОЦЕНКА:
Проверь: твой вывод учитывает ВСЕ критические факторы из Фазы 1?
Есть ли противоречие между данными и рекомендацией?
Дай финальный вывод: [соглашаться / не соглашаться / уточнить условия] + главный аргумент.

Результат: Модель пройдёт три явных блока с маркировкой. В Фазе 1 сама выпишет ключевые переменные — вероятность выхода, ликвидность доли, условия размытия. В Фазе 2 будет видна явная разметка каждого шага с предупреждениями. В Фазе 3 модель сверит финальный вывод с тем, что сама же назвала критичным — и если есть противоречие, скажет об этом.


🧠

Почему это работает

Слабость LLM: модель генерирует текст линейно — токен за токеном. Она не "возвращается назад" и не проверяет, совпадает ли то, что написала в конце, с тем, что обещала в начале. Chain-of-Thought даёт шаги, но не даёт контрольные точки — момент, где модель обязана остановиться и явно сравнить текущее состояние с целевым.

Сильная сторона LLM: модель хорошо следует явным инструкциям внутри промпта. Если написано "после каждого шага проверь логику" — она проверит. Структура формата ответа становится структурой процесса мышления.

Как метод использует это: три фазы создают принудительные остановки. Планирование фиксирует ожидаемую форму ответа ещё до решения. Мониторинг превращает каждый переход в точку контроля. Оценка закрывает петлю: модель не может просто закончить — она обязана сверить финал с началом. Это и есть то, что психологи называют регулятивным циклом.

Рычаги управления: - Детальность Фазы 1 → больше пунктов в списке ограничений = глубже планирование, но длиннее ответ - Маркеры мониторинга ( / ⚠️) → убери их, если нужен чистый вывод без служебных меток - Условие в Фазе 3 → замени "проверь противоречия" на "дай уверенность в процентах по каждому пункту" — получишь калиброванную оценку - Детализация предсказания в Фазе 1 → попроси предсказать форму ошибки, а не только форму ответа — модель острее ловит свои слабые места


📋

Шаблон промпта

Реши задачу строго по трём фазам:

ЗАДАЧА: {описание задачи с конкретными данными и ограничениями}

---

ФАЗА 1 — ПЛАНИРОВАНИЕ:
До начала решения выпиши:
1. Тип задачи и ключевые переменные
2. Что уже известно, чего не хватает
3. Предсказание: какой должна быть форма/тип финального ответа
4. Где обычно ошибаются в задачах такого типа

ФАЗА 2 — МОНИТОРИНГ:
Решай шаг за шагом. После каждого шага явно пиши:
"✓ Проверено: [что проверил]" или "⚠️ Риск: [что вызывает сомнение]"
Шаги: {перечисли 3-5 логических этапов для своей задачи}

ФАЗА 3 — ОЦЕНКА:
- Соответствует ли ответ предсказанной форме из Фазы 1?
- Выполнены ли все ограничения из задачи?
- Есть ли внутренние противоречия?
Финальный вывод: {формат нужного тебе ответа}

Плейсхолдеры: - {описание задачи} — конкретная ситуация с числами, условиями, контекстом. Чем точнее — тем лучше диагностика - {перечисли шаги} — 3-5 логических этапов решения твоей задачи. Можно написать просто "определи сам исходя из задачи" - {формат ответа} — например: "рекомендация + главный аргумент" или "список рисков по убыванию важности"


🚀 Быстрый старт — вставь в чат:

Вот шаблон метода Think² (трёхфазное мышление). 
Адаптируй под мою задачу: {твоя задача}.
Задавай уточняющие вопросы, если нужны данные для заполнения полей.

[вставить шаблон выше]

LLM спросит какие шаги нужны в Фазе 2 и какой формат финального вывода — потому что именно эти элементы зависят от конкретной задачи и определяют качество диагностики.


⚠️

Ограничения

⚠️ Зависимость от модели: На слабых моделях без встроенного режима рассуждений метод может ухудшить результат — особенно на математике и коде. Структура создаёт накладные расходы, с которыми маломощная модель не справляется. Для ChatGPT-4, Claude Sonnet и выше — работает хорошо.

⚠️ Не для простых задач: Если задача решается одним действием — три фазы избыточны. Метод окупается только там, где есть риск уверенной ошибки: сложная логика, анализ с противоречивыми данными, многошаговые решения.

⚠️ Не стоит ждать чудес на математике: На чистых вычислениях (школьная алгебра, простая арифметика) прирост незначительный или отрицательный. Главная сила — в диагностике логических ошибок и повышении воспринимаемой достоверности, а не в счётных задачах.

⚠️ MetaController — только концепция: Идея автоматически роутить задачи между "быстрым" и "медленным" режимом красивая, но в исследовании она показала серьёзные сбои — модель путала сложные задачи с простыми по поверхностным признакам. Ручное решение: применяй фазы сам, когда чувствуешь, что задача нетривиальная.


🔍

Как исследовали

Команда из IIIT Hyderabad поставила чистый эксперимент: взяли два принципиально разных типа моделей — Llama-3-8B (обычная инструктивная) и Qwen-3-8B (со встроенным режимом рассуждений) — и прогнали через шесть бенчмарков, каждый из которых целенаправленно бьёт в разную фазу: GSM8K на планирование, CRUXEval на мониторинг выполнения, CorrectBench на диагностику ошибок, TruthfulQA на сопротивление галлюцинациям.

Самый интересный результат оказался неожиданным: структура помогает только тому, кто уже умеет думать. Qwen-3, у которого есть встроенные думающие токены, поглотил три фазы как естественный скаффолдинг и показал лучшие результаты почти везде. Llama-3, которая не обучена на цепочках рассуждений, начала тонуть в структуре — на GSM8K упала с 80% до 69%. Это важный инсайт: метаструктура промпта — не замена способности модели рассуждать, а усилитель уже существующей.

Отдельно провели живую оценку с людьми: 580 пар ответов, аннотаторы с высшим образованием, полный слепой дизайн (кто написал — неизвестно). Они оценивали не правильность ответа, а доверие к рассуждению. 84% предпочли Ann Brown-подход — за то, что модель явно признаёт неопределённость там, где она есть, вместо уверенных ошибок. CoT часто выдаёт уверенный ответ даже когда ошибается — три фазы принудительно выравнивают "уверенность голоса" с реальной правотой.


📄

Оригинал из исследования

Детальные промпты для каждого бенчмарка авторы вынесли в Appendix B, который в публичной версии статьи недоступен. Ниже — точное описание механики фаз из основного текста:

Phase 1 (Planning):

"The model first classifies the problem structure and identifies stable knowledge (e.g., formulas, constraints, rules) before generating solution steps. This separates constraint retrieval from execution, forcing strategic roadmap construction and prediction of the answer's structural form (e.g., value range or type), thereby reducing premature token-level commitment."

Phase 2 (Monitoring):

"The model explicitly tracks intermediate reasoning states (e.g., variable changes or logical transitions) and performs debugging checks when ambiguity or complexity arises. This transforms generation into controlled processing, enabling real-time detection of inconsistencies and revision of heuristic decisions."

Phase 3 (Evaluation):

"The model checks whether the solution satisfies predictions and structural commitments established during Planning. Closing the regulatory loop enables detection of internal contradictions and hallucinated premises beyond surface-level correctness."

Контекст: Это точные описания механики из Section 4 (Mind Over Matter Framework) — основа, на которой строится весь метод.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: Фаза 1 как детектор "где модель ошибётся"

Вместо стандартного планирования — попроси модель в Фазе 1 явно предсказать собственные слабые места:

ФАЗА 1 — ПЛАНИРОВАНИЕ:
Прежде чем начать:
1. Какие данные тебе нужны, но их нет в задаче?
2. В каком месте рассуждения ты с наибольшей вероятностью допустишь ошибку?
3. Какой ответ был бы "слишком очевидным" и почему он может быть ловушкой?

Модель сама маркирует риски до того, как на них наткнётся. Особенно эффективно для задач с "ловушками" — неочевидными условиями в договорах, кейсах, технических ТЗ.


📌

🔧 Техника: Фаза 3 с числовой уверенностью → калиброванная оценка

Замените стандартную Оценку на:

ФАЗА 3 — ОЦЕНКА:
По каждому ключевому утверждению из ответа выставь уверенность (0-100%):
- [Утверждение 1]: __% — потому что [обоснование]
- [Утверждение 2]: __% — потому что [обоснование]
Если уверенность < 70% — пометь как "требует проверки".

Полезно для юридических, медицинских, финансовых вопросов — там где цена ошибки высокая и нужно знать, где именно не доверять ответу.


📌

🔧 Техника: Two-pass — сначала решение, потом чистые фазы

Некоторые задачи лучше решать в два прохода:

Сначала реши задачу как обычно.

Теперь — примени три фазы РЕТРОСПЕКТИВНО к своему решению:
ФАЗА 1: Что ты должен был знать до решения?
ФАЗА 2: Где в твоём рассуждении были переходы без явной проверки?
ФАЗА 3: Твой ответ удовлетворяет всем условиям задачи?

Помогает обнаружить пропущенные условия уже после первого ответа — меньше структурной нагрузки, выше скорость.


🔗

Ресурсы

Статья: Think²: Grounded Metacognitive Reasoning in Large Language Models

Авторы: Abraham Paul Elenjical, Vivek Hruday Kavuri, Vasudeva Varma — IIIT Hyderabad

Теоретическая база: Ann Brown's Theory of Metacognitive Regulation (Brown, 1987); Kahneman's Dual-Process Theory (Thinking Fast and Slow, 2011)

Методы для сравнения: Chain-of-Thought (Wei et al., 2022); Metacognitive Prompting (Wang & Zhao, 2024)

Бенчмарки: GSM8K, CRUXEval, MBPP, AIME, CorrectBench, TruthfulQA


📋 Дайджест исследования

Ключевая суть

LLM замечает что ошибается в 51% случаев. Но исправляет себя — только в 16%. Это не сбой, это структурная проблема: модель видит симптом, но не может поставить диагноз. Think² позволяет сломать этот паттерн — три обязательные фазы (Планирование → Мониторинг → Оценка) прямо в промпте поднимают успешное само-исправление до 50%, рост в три раза. Принудительные остановки превращают линейную генерацию в процесс с контрольными точками — модель не может закончить, не сверив финал с тем, что обещала в начале.

Принцип работы

Chain-of-Thought даёт шаги, но не даёт остановок. Модель идёт вперёд — и не сравнивает, совпадает ли то, что написала в конце, с тем, что обещала в начале. Это как врач, который видит больного, но назначает лечение не глядя на симптомы — просто потому что кончил осмотр. Think² вставляет три принудительные точки сверки: Планирование фиксирует ожидаемую форму ответа ещё до решения. Мониторинг превращает каждый переход в явную проверку с маркером. Оценка замыкает петлю — модель обязана сверить финал с условиями из самого начала, а не просто поставить точку.

Почему работает

LLM генерирует текст линейно — токен за токеном, без возможности вернуться назад. CoT добавляет шаги, но не добавляет момент, где модель обязана остановиться и явно сравнить текущий результат с целевым. Диагностика ошибок вырастает с 28% до 58% — потому что явная структура фаз заставляет модель сначала зафиксировать ожидания, и только потом двигаться вперёд, сверяя каждый шаг. Второй рычаг: модель хорошо следует явным инструкциям внутри промпта. Структура формата ответа становится структурой процесса мышления — задай рамку, и модель её заполнит честно.

Когда применять

Сложные многошаговые задачи с чёткими ограничениями → анализ офферов и условий сделок, оценка рисков, диагностические решения, логические задачи с противоречивыми данными — особенно там, где есть риск уверенной ошибки. НЕ подходит для простых одношаговых запросов, творческих задач без жёстких критериев и слабых моделей — на них три фазы создают накладные расходы, с которыми модель не справляется. Для ChatGPT-4, Claude Sonnet и выше работает хорошо.

Мини-рецепт

1. Опиши задачу с конкретными данными: числа, ограничения, контекст. Чем точнее — тем глубже диагностика. Расплывчатый запрос убивает всю ценность Фазы 1.
2. Вставь три фазы в промпт: Планирование (что известно, чего не хватает, какой должен быть ответ, где обычно ошибаются), Мониторинг (шаги с явной маркировкой ✓ Проверено / ⚠️ Риск), Оценка (сверка финала с условиями из Планирования).
3. Пропиши шаги Фазы 2: три-пять логических этапов для твоей задачи. Можно написать 'определи сам исходя из задачи' — модель справится, но конкретные шаги дают более острую диагностику.
4. Укажи формат финального вывода в Фазе 3: 'рекомендация + главный аргумент' или 'список рисков по убыванию важности'. Без этого Оценка размывается в общие слова.

Примеры

[ПЛОХО] : Стоит ли принять оффер: зарплата ниже на 20%, но доля 0,5% в стартапе на посевном раунде
[ХОРОШО] : Помоги принять решение об оффере. Действуй строго по трём фазам. ЗАДАЧА: текущая зарплата 350 000 руб/мес, оффер 280 000 руб/мес, доля 0,5%, стадия Series A, оценка компании 800 млн рублей, клифф 1 год, вестинг 4 года, сфера EdTech для бизнес-клиентов. ФАЗА 1 — ПЛАНИРОВАНИЕ: выпиши критические факторы, каких данных не хватает, предскажи форму финального вывода и типичные ошибки при таком решении. ФАЗА 2 — МОНИТОРИНГ: анализируй по шагам — финансовые потери за период вестинга, сценарии стоимости доли (×3, ×10, провал), риски размытия доли, альтернативные издержки. После каждого шага пиши: ✓ Проверено: [что проверил] или ⚠️ Риск: [что вызывает сомнение]. ФАЗА 3 — ОЦЕНКА: учтены ли все факторы из Фазы 1? Есть ли противоречия между данными и выводом? Финальный вывод: соглашаться / не соглашаться / уточнить условия + один главный аргумент.
Источник: Think²: Grounded Metacognitive Reasoning in Large Language Models
ArXiv ID: 2602.18806 | Сгенерировано: 2026-02-24 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель замечает ошибку, но не может её исправитьМодель чувствует что что-то не так. Замечает в половине случаев. Но точно назвать причину ошибки — может только в 28% из них. Итог: попытки исправить себя работают лишь в 16% случаев. Это не проблема невнимательности. Это разрыв между "чувствую что не так" и "понимаю что именно не так". Встречается на любой сложной задаче с цепочкой шаговДобавь в промпт явные контрольные точки. До решения — попроси предсказать форму ответа. В процессе — потребуй проверку каждого шага. После — потребуй сверку финала с началом. Модель следует явной структуре лучше, чем ищет ошибки сама
Линейная генерация не даёт вернуться назадМодель пишет токен за токеном. Она не сравнивает конец с началом — если не заставить явно. Пишет вывод, который противоречит условию из начала промпта. И не замечает этого. Проблема нарастает с длиной ответаВ конце промпта добавь блок проверки: "Убедись что финальный ответ соответствует условиям из задачи и предсказаниям которые ты сделал в начале". Закрытие петли — явное требование, не умолчание

Методы

МетодСуть
Три фазы в одном промпте: план контроль сверкаОдин промпт, три обязательных блока. Фаза 1 — Планирование: до решения выпиши тип задачи, известные факты, ограничения, предсказание формы ответа, типичные ошибки. Фаза 2 — Мониторинг: решай шаг за шагом, после каждого шага явно пиши ✓ Проверено или ⚠️ Риск: [причина]. Фаза 3 — Оценка: сверь финал с предсказанием из Фазы 1, проверь все ограничения, зафикcируй вывод. Почему работает: Планирование фиксирует ожидания до решения. Мониторинг превращает каждый переход в точку остановки. Оценка закрывает петлю — модель обязана сверить конец с началом. Без явной структуры — этого не происходит. Когда применять: сложная логика, анализ с противоречиями, многошаговые решения. Когда не применять: простые вопросы, творческие задачи, слабые модели — там структура даёт накладные расходы без пользы

Тезисы

ТезисКомментарий
Структура формата ответа становится структурой мышленияМодель хорошо следует явным инструкциям внутри промпта. Если написано "проверь логику после каждого шага" — она проверит. Это можно использовать: форма ответа задаёт форму рассуждений. Чем точнее прописана структура — тем точнее контроль. Применяй: хочешь чтобы модель думала аккуратнее — не говори "думай тщательно", а пропиши явные блоки с маркерами проверки
📖 Простыми словами

Think$^{2}$: Grounded Metacognitive Reasoning inLargeLanguageModels

arXiv: 2602.18806

Суть метода Think² в том, что он заставляет нейронку перестать нестись вперед без оглядки. Обычные модели работают линейно: они просто выплевывают слово за словом, пока не дойдут до точки, и никогда не смотрят в зеркало заднего вида. Этот метод внедряет в процесс метакогнитивный контроль — по сути, заставляет ИИ включить внутреннего критика, который делит работу на три фазы: план, постоянный мониторинг процесса и финальную проверку. Модель больше не просто «думает», она следит за тем, как она думает, чтобы не уйти в самонадеянный бред.

Это как если бы ты дал задание очень умному, но дико рассеянному стажеру. Без Think² он выслушает тебя, убежит в соседнюю комнату и через час принесет результат, который вообще не про то, что ты просил, потому что он забыл условия на полпути. С этой техникой стажер сначала пишет план на бумажке, каждые пять минут сверяется с твоим ТЗ и в конце сам ищет у себя ошибки, прежде чем показать работу тебе. Формально он тратит больше времени, но зато не выдает херню на выходе.

Внутри промпта теперь живут три конкретных этапа. Сначала идет планирование, где модель прописывает маршрут решения. Затем — мониторинг, когда на каждом шаге ИИ обязан подтвердить, что он все еще следует логике и не нарушает ограничения. И финал — оценка, где результат жестко сравнивается с исходным запросом. Это превращает обычный «поток сознания» в структурированный процесс с контрольными точками, где модель буквально бьет себя по рукам, если начинает лажать.

Метод тестировали на сложных логических задачах, но принцип универсален. Он идеально ложится на любую диагностику, анализ рисков или юридический разбор — везде, где цена ошибки высока, а условия задачи легко потерять в длинном тексте. Chain-of-Thought просто дает шаги, а Think² дает надзор над этими шагами. Это переход от простого рассуждения к осознанному управлению процессом, что особенно критично для задач, где нужно не «красиво написать», а «точно решить».

Короче: хватит надеяться, что нейронка сама удержит в памяти все твои условия. Если задача сложнее, чем написание поста в соцсети, используй трехфазную структуру, чтобы заставить модель контролировать саму себя. Планирование, мониторинг и оценка — это единственный способ выжать из LLM адекватный результат в многошаговых квестах. Кто не внедрит такой контроль, так и будет получать уверенные галлюцинации вместо рабочих решений.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с