TL;DR
Think² — техника, которая разбивает любой сложный запрос на три обязательные фазы прямо внутри промпта: Планирование → Мониторинг → Оценка. Модель не просто решает задачу, а сначала строит маршрут, затем контролирует каждый шаг, и в конце проверяет результат против исходных условий.
Главная боль: LLM уверенно идёт к неправильному ответу. Модель чувствует, что что-то не так — в 51% случаев она замечает ошибку. Но диагностировать точную причину ей удаётся только в 28% случаев. Итог: попытки исправить себя заканчиваются успехом лишь в 16% случаев. Модель как врач, который видит больного, но не может поставить диагноз — и назначает лечение наугад.
Что делает метод: принудительная структура Планирование → Мониторинг → Оценка ломает этот паттерн. Когда модель обязана сначала описать ожидаемую форму ответа, потом явно отслеживать каждый шаг, а в конце сверить результат с исходными условиями — диагностика ошибок вырастает до 58%, а успешное само-исправление до 50% — рост в три раза.
Схема метода
Всё выполняется в одном промпте, три фазы — в одном запросе:
ФАЗ 1: ПЛАНИРОВАНИЕ
→ Классифицировать тип задачи
→ Выписать известные факты, формулы, ограничения
→ Предсказать форму ответа (тип, диапазон, структуру)
ФАЗ 2: МОНИТОРИНГ
→ Решать шаг за шагом с явным отслеживанием состояния
→ На каждом переходе: "Логика шага верна? Нет противоречий?"
→ При сомнении — остановиться и разобрать источник
ФАЗ 3: ОЦЕНКА
→ Проверить ответ против предсказаний из Фазы 1
→ Проверить, все ли ограничения из задачи выполнены
→ Зафиксировать финальный вывод
Пример применения
⚠️ Сильная зона метода: многошаговые задачи с чёткими ограничениями, где есть риск уверенной ошибки — диагностика, анализ, логические решения, оценка рисков. Слабая зона: простые вопросы, творческие задачи без жёстких критериев, задачи для слабых моделей.
Задача: Ты получил оффер в стартап на 20% меньше нынешней зарплаты, но с долей 0,5% и опционами. Компания на стадии Series A, оценка 800 млн рублей. Нужно решить: соглашаться или нет.
Промпт:
Помоги принять решение об оффере. Действуй строго по трём фазам:
ЗАДАЧА: Мне предложили оффер в стартап. Детали:
- Текущая зарплата: 350 000 руб/мес
- Оффер: 280 000 руб/мес (-20%)
- Доля в компании: 0,5%
- Стадия: Series A
- Текущая оценка компании: 800 млн рублей
- Клифф: 1 год, вестинг: 4 года
- Сфера: EdTech, B2B
---
ФАЗА 1 — ПЛАНИРОВАНИЕ:
Прежде чем анализировать — выпиши:
1. Какие факторы критически важны для этого решения
2. Какие данные у нас есть, а каких не хватает
3. В каком формате должен выглядеть финальный вывод
4. Предскажи: какие подводные камни обычно упускают при таком решении
ФАЗА 2 — МОНИТОРИНГ:
Анализируй по шагам. После каждого шага явно пиши:
"✓ Этот шаг завершён" или "⚠️ Здесь нужна осторожность: [причина]"
Шаги:
- Финансовые потери за период вестинга
- Сценарии стоимости доли (×3, ×10, провал)
- Риски, которые сложно посчитать
- Альтернативные издержки
ФАЗА 3 — ОЦЕНКА:
Проверь: твой вывод учитывает ВСЕ критические факторы из Фазы 1?
Есть ли противоречие между данными и рекомендацией?
Дай финальный вывод: [соглашаться / не соглашаться / уточнить условия] + главный аргумент.
Результат: Модель пройдёт три явных блока с маркировкой. В Фазе 1 сама выпишет ключевые переменные — вероятность выхода, ликвидность доли, условия размытия. В Фазе 2 будет видна явная разметка каждого шага с предупреждениями. В Фазе 3 модель сверит финальный вывод с тем, что сама же назвала критичным — и если есть противоречие, скажет об этом.
Почему это работает
Слабость LLM: модель генерирует текст линейно — токен за токеном. Она не "возвращается назад" и не проверяет, совпадает ли то, что написала в конце, с тем, что обещала в начале. Chain-of-Thought даёт шаги, но не даёт контрольные точки — момент, где модель обязана остановиться и явно сравнить текущее состояние с целевым.
Сильная сторона LLM: модель хорошо следует явным инструкциям внутри промпта. Если написано "после каждого шага проверь логику" — она проверит. Структура формата ответа становится структурой процесса мышления.
Как метод использует это: три фазы создают принудительные остановки. Планирование фиксирует ожидаемую форму ответа ещё до решения. Мониторинг превращает каждый переход в точку контроля. Оценка закрывает петлю: модель не может просто закончить — она обязана сверить финал с началом. Это и есть то, что психологи называют регулятивным циклом.
Рычаги управления:
- Детальность Фазы 1 → больше пунктов в списке ограничений = глубже планирование, но длиннее ответ
- Маркеры мониторинга (✓ / ⚠️) → убери их, если нужен чистый вывод без служебных меток
- Условие в Фазе 3 → замени "проверь противоречия" на "дай уверенность в процентах по каждому пункту" — получишь калиброванную оценку
- Детализация предсказания в Фазе 1 → попроси предсказать форму ошибки, а не только форму ответа — модель острее ловит свои слабые места
Шаблон промпта
Реши задачу строго по трём фазам:
ЗАДАЧА: {описание задачи с конкретными данными и ограничениями}
---
ФАЗА 1 — ПЛАНИРОВАНИЕ:
До начала решения выпиши:
1. Тип задачи и ключевые переменные
2. Что уже известно, чего не хватает
3. Предсказание: какой должна быть форма/тип финального ответа
4. Где обычно ошибаются в задачах такого типа
ФАЗА 2 — МОНИТОРИНГ:
Решай шаг за шагом. После каждого шага явно пиши:
"✓ Проверено: [что проверил]" или "⚠️ Риск: [что вызывает сомнение]"
Шаги: {перечисли 3-5 логических этапов для своей задачи}
ФАЗА 3 — ОЦЕНКА:
- Соответствует ли ответ предсказанной форме из Фазы 1?
- Выполнены ли все ограничения из задачи?
- Есть ли внутренние противоречия?
Финальный вывод: {формат нужного тебе ответа}
Плейсхолдеры:
- {описание задачи} — конкретная ситуация с числами, условиями, контекстом. Чем точнее — тем лучше диагностика
- {перечисли шаги} — 3-5 логических этапов решения твоей задачи. Можно написать просто "определи сам исходя из задачи"
- {формат ответа} — например: "рекомендация + главный аргумент" или "список рисков по убыванию важности"
🚀 Быстрый старт — вставь в чат:
Вот шаблон метода Think² (трёхфазное мышление).
Адаптируй под мою задачу: {твоя задача}.
Задавай уточняющие вопросы, если нужны данные для заполнения полей.
[вставить шаблон выше]
LLM спросит какие шаги нужны в Фазе 2 и какой формат финального вывода — потому что именно эти элементы зависят от конкретной задачи и определяют качество диагностики.
Ограничения
⚠️ Зависимость от модели: На слабых моделях без встроенного режима рассуждений метод может ухудшить результат — особенно на математике и коде. Структура создаёт накладные расходы, с которыми маломощная модель не справляется. Для ChatGPT-4, Claude Sonnet и выше — работает хорошо.
⚠️ Не для простых задач: Если задача решается одним действием — три фазы избыточны. Метод окупается только там, где есть риск уверенной ошибки: сложная логика, анализ с противоречивыми данными, многошаговые решения.
⚠️ Не стоит ждать чудес на математике: На чистых вычислениях (школьная алгебра, простая арифметика) прирост незначительный или отрицательный. Главная сила — в диагностике логических ошибок и повышении воспринимаемой достоверности, а не в счётных задачах.
⚠️ MetaController — только концепция: Идея автоматически роутить задачи между "быстрым" и "медленным" режимом красивая, но в исследовании она показала серьёзные сбои — модель путала сложные задачи с простыми по поверхностным признакам. Ручное решение: применяй фазы сам, когда чувствуешь, что задача нетривиальная.
Как исследовали
Команда из IIIT Hyderabad поставила чистый эксперимент: взяли два принципиально разных типа моделей — Llama-3-8B (обычная инструктивная) и Qwen-3-8B (со встроенным режимом рассуждений) — и прогнали через шесть бенчмарков, каждый из которых целенаправленно бьёт в разную фазу: GSM8K на планирование, CRUXEval на мониторинг выполнения, CorrectBench на диагностику ошибок, TruthfulQA на сопротивление галлюцинациям.
Самый интересный результат оказался неожиданным: структура помогает только тому, кто уже умеет думать. Qwen-3, у которого есть встроенные думающие токены, поглотил три фазы как естественный скаффолдинг и показал лучшие результаты почти везде. Llama-3, которая не обучена на цепочках рассуждений, начала тонуть в структуре — на GSM8K упала с 80% до 69%. Это важный инсайт: метаструктура промпта — не замена способности модели рассуждать, а усилитель уже существующей.
Отдельно провели живую оценку с людьми: 580 пар ответов, аннотаторы с высшим образованием, полный слепой дизайн (кто написал — неизвестно). Они оценивали не правильность ответа, а доверие к рассуждению. 84% предпочли Ann Brown-подход — за то, что модель явно признаёт неопределённость там, где она есть, вместо уверенных ошибок. CoT часто выдаёт уверенный ответ даже когда ошибается — три фазы принудительно выравнивают "уверенность голоса" с реальной правотой.
Оригинал из исследования
Детальные промпты для каждого бенчмарка авторы вынесли в Appendix B, который в публичной версии статьи недоступен. Ниже — точное описание механики фаз из основного текста:
Phase 1 (Planning):
"The model first classifies the problem structure and identifies stable knowledge (e.g., formulas, constraints, rules) before generating solution steps. This separates constraint retrieval from execution, forcing strategic roadmap construction and prediction of the answer's structural form (e.g., value range or type), thereby reducing premature token-level commitment."
Phase 2 (Monitoring):
"The model explicitly tracks intermediate reasoning states (e.g., variable changes or logical transitions) and performs debugging checks when ambiguity or complexity arises. This transforms generation into controlled processing, enabling real-time detection of inconsistencies and revision of heuristic decisions."
Phase 3 (Evaluation):
"The model checks whether the solution satisfies predictions and structural commitments established during Planning. Closing the regulatory loop enables detection of internal contradictions and hallucinated premises beyond surface-level correctness."
Контекст: Это точные описания механики из Section 4 (Mind Over Matter Framework) — основа, на которой строится весь метод.
Адаптации и экстраполяции
💡 Адаптация: Фаза 1 как детектор "где модель ошибётся"
Вместо стандартного планирования — попроси модель в Фазе 1 явно предсказать собственные слабые места:
ФАЗА 1 — ПЛАНИРОВАНИЕ:
Прежде чем начать:
1. Какие данные тебе нужны, но их нет в задаче?
2. В каком месте рассуждения ты с наибольшей вероятностью допустишь ошибку?
3. Какой ответ был бы "слишком очевидным" и почему он может быть ловушкой?
Модель сама маркирует риски до того, как на них наткнётся. Особенно эффективно для задач с "ловушками" — неочевидными условиями в договорах, кейсах, технических ТЗ.
🔧 Техника: Фаза 3 с числовой уверенностью → калиброванная оценка
Замените стандартную Оценку на:
ФАЗА 3 — ОЦЕНКА:
По каждому ключевому утверждению из ответа выставь уверенность (0-100%):
- [Утверждение 1]: __% — потому что [обоснование]
- [Утверждение 2]: __% — потому что [обоснование]
Если уверенность < 70% — пометь как "требует проверки".
Полезно для юридических, медицинских, финансовых вопросов — там где цена ошибки высокая и нужно знать, где именно не доверять ответу.
🔧 Техника: Two-pass — сначала решение, потом чистые фазы
Некоторые задачи лучше решать в два прохода:
Сначала реши задачу как обычно.
Теперь — примени три фазы РЕТРОСПЕКТИВНО к своему решению:
ФАЗА 1: Что ты должен был знать до решения?
ФАЗА 2: Где в твоём рассуждении были переходы без явной проверки?
ФАЗА 3: Твой ответ удовлетворяет всем условиям задачи?
Помогает обнаружить пропущенные условия уже после первого ответа — меньше структурной нагрузки, выше скорость.
Ресурсы
Статья: Think²: Grounded Metacognitive Reasoning in Large Language Models
Авторы: Abraham Paul Elenjical, Vivek Hruday Kavuri, Vasudeva Varma — IIIT Hyderabad
Теоретическая база: Ann Brown's Theory of Metacognitive Regulation (Brown, 1987); Kahneman's Dual-Process Theory (Thinking Fast and Slow, 2011)
Методы для сравнения: Chain-of-Thought (Wei et al., 2022); Metacognitive Prompting (Wang & Zhao, 2024)
Бенчмарки: GSM8K, CRUXEval, MBPP, AIME, CorrectBench, TruthfulQA
