TL;DR
У любой модели с «режимом думания» есть внутренняя структура: её рассуждения состоят из 7 повторяющихся ходов мысли — операторов. Стэнфордские исследователи обнаружили, что все LLM, независимо от архитектуры и задачи, перемещаются по одному и тому же словарю: запустить («Let me think...»), заземлить («I need to...»), вывести («So the answer is...»), отступить («Wait, let me...») и ещё три.
Главная находка: операторы делятся на «уверенные» (движение вперёд) и «рефлексивные» (сомнение, откат, гипотезы). На лёгких задачах много рефлексивных операторов — сигнал ошибки. Если модель постоянно говорит «Хм, но подождите, а если...» на вопрос с очевидным ответом — она скорее всего ошибается. На сложных же задачах картина обратная: рефлексия в середине размышления скорее помогает.
Ещё одна критически важная находка: «Wait, actually...» — почти всегда театр. В 85% случаев BACKTRACKING — это лишь перепроверка одной цифры, а не реальная смена стратегии. Модель редко меняет подход по-настоящему. Это меняет то, как стоит читать и направлять вывод модели: не доверяй видимому «переосмыслению» — проверяй итог.
Схема метода
Это не многошаговый промпт, а система наблюдения и управления. Используется в одном чате.
7 ОПЕРАТОРОВ (словарь для чтения и управления рассуждением):
COMMITTAL — уверенные, движение вперёд:
INITIATING → "Let me think / check / verify..." — запуск нового шага
GROUNDING → "I need to / The question is..." — опора на факты
INFERRING → "So the answer is / Thus..." — вывод из шагов
CONSTRAINING → "We need to / Now we need..." — сужение, условия
REFLECTIVE — рефлексивные, сомнение:
QUALIFYING → "But let me / Hmm, but..." — оговорка, усложнение
HYPOTHESIZING → "Alternatively / Perhaps if..." — гипотеза, условность
BACKTRACKING → "Wait / Wait, no / Wait let me..." — откат
ШАБЛОН ДИАГНОСТИКИ:
Лёгкая задача → много REFLECTIVE → ⚠️ скорее всего ошибка
Сложная задача → REFLECTIVE в середине → норма, может помочь
BACKTRACKING → в 85%случаев локальный (пересчёт одного числа, не смена стратегии)
ШАБЛОН УПРАВЛЕНИЯ:
Лёгкая задача → явно проси: GROUNDING → CONSTRAINING → INFERRING
Сложная задача → разреши HYPOTHESIZING в середине, но требуй INFERRING в конце
Шаги выполняются в одном запросе — ты либо аудируешь вывод модели, либо даёшь структуру заранее.
Пример применения
Задача: Ты попросил Claude оценить идею открытия доставки еды для офисов в Москве. Модель выдала длинный ответ с кучей «С одной стороны... с другой стороны... но если предположить... хотя, возможно...». Непонятно — это реальные риски или модель просто «думает вслух» и плывёт?
Промпт:
Оцени эту бизнес-идею по чёткой структуре:
Идея: доставка готовых обедов для офисов в Москве, подписная модель,
средний чек 600 рублей/день.
Иди строго по шагам:
1. ЗАЗЕМЛЕНИЕ (только факты о рынке, без предположений)
2. ОГРАНИЧЕНИЕ (какие условия должны выполняться, чтобы идея сработала)
3. ВЫВОД (прямой: идея жизнеспособна / не жизнеспособна и почему)
Если хочешь выдвинуть гипотезу — обозначь явно: "Гипотеза:".
Не начинай откат («подождите, а вдруг...») без явной причины.
Один вывод в конце — без «с одной стороны / с другой».
Результат:
Модель пройдёт по трём блокам: сначала факты без оговорок, затем конкретные условия, затем прямой вердикт. Гипотезы будут помечены явно. Не будет болота из «хотя, возможно, с другой стороны» — ты заблокировал неконтролируемый режим рефлексии на задаче, где он вредит.
Почему это работает
LLM не «думает» линейно — она генерирует текст, следуя паттернам из обучения. Когда ты задаёшь открытый вопрос, она воспроизводит весь репертуар «интеллектуального» поведения: сомнения, откаты, гипотезы — потому что так выглядели правильные ответы в обучающих данных. Но на лёгком вопросе это контрпродуктивно.
Рефлексивные операторы — не признак глубины, а признак неопределённости. Исследование показало: на простых задачах модели, дающие правильный ответ, используют значительно больше уверенных операторов (GROUNDING, INFERRING), а не рефлексивных. Много «хм, но подождите» на очевидном — модель не углубляется, она теряется.
Когда ты явно задаёшь последовательность операторов в промпте, ты убираешь двусмысленность. Модели не нужно угадывать, какой режим рассуждения уместен. Ты уже указал: сначала факты → потом условия → потом вывод. Это сужает пространство «болтовни» и направляет к структурированному результату.
Рычаги управления: - Блокировка рефлексии → добавь «один финальный вывод, без оговорок» — уменьшает QUALIFYING/HYPOTHESIZING - Разрешение рефлексии → «исследуй альтернативные сценарии перед выводом» — активирует HYPOTHESIZING на сложных задачах - Требование явной маркировки → «если выдвигаешь гипотезу — пометь "Гипотеза:"» — отделяет факты от предположений - Финальный INFERRING → «в конце — прямой вывод без "с одной стороны"» — заставляет завершить INFERRING, не зависнуть в QUALIFYING
Шаблон промпта
Реши задачу по структуре:
Задача: {задача}
Шаги:
1. ЗАЗЕМЛЕНИЕ — только факты и данные, которые точно известны
2. ОГРАНИЧЕНИЕ — что должно быть правдой, чтобы {цель} сработала
3. ВЫВОД — прямой итог: {критерий вывода}
Правила:
— Гипотезы помечай явно: "Гипотеза: ..."
— Откат разрешён только если нашёл конкретную ошибку в предыдущем шаге
— Один финальный вывод, без «с одной стороны / с другой»
Плейсхолдеры:
- {задача} — твой конкретный вопрос или материал для анализа
- {цель} — что анализируем (идея, решение, текст)
- {критерий вывода} — что ты хочешь получить («да/нет», «топ-3 риска», «рекомендация»)
🚀 Быстрый старт — вставь в чат:
Вот шаблон структурированного рассуждения по методу ReasonOps.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, что именно анализируем и какой нужен финальный вывод — потому что ей нужно понять тип задачи, чтобы выставить правильные операторы в нужной роли.
Ограничения
⚠️ Лёгкие vs. сложные задачи: Шаблон работает на задачах с относительно объективным ответом. На творческих или ценностных («что лучше для моего личного бренда») жёсткое подавление рефлексии скорее навредит — там HYPOTHESIZING полезен.
⚠️ BACKTRACKING — не всегда театр: В 14% случаев откат — это реальная смена подзадачи, и блокировать его опасно. Если модель явно нашла ошибку в числе или логике — не мешай ей переделать.
⚠️ Операторы — сигнал, не гарантия: Много уверенных операторов не означает правильный ответ. Это вероятностный сигнал качества, а не детектор ошибок. Проверяй итог по существу.
⚠️ Не работает в скрытом «thinking»: Claude Extended Thinking и o1/o3 в reasoning-режиме скрывают трассу от пользователя. Аудировать операторы в невидимых размышлениях нельзя — только управлять через итоговый формат вывода.
Как исследовали
Команда Стэнфорда собрала 44 662 трассы рассуждений от 12 моделей (Claude, GPT, Grok, Kimi, Qwen, R1-distill) на 8 бенчмарках от олимпиадной математики до кода. Никакой разметки вручную — исследователи взяли первые три слова каждого предложения в трассах, отфильтровали те, что встречаются достаточно часто и разнообразно (100+ трасс из 3+ датасетов), и кластеризовали их семантически. Получилось ровно 7 кластеров — не 5, не 10, именно 7 воспроизводимо.
Интересная деталь: кластер K=7 выбирали не вручную — его зафиксировал независимый LLM-судья, который достиг максимального совпадения с кластерами именно на семи. Это важно: число операторов — не авторская прихоть, а эмпирический результат.
Три независимых модели-судьи правильно классифицировали случайные фрагменты трасс в 70–76% случаев при вероятности угадать случайно 14%. Это подтвердило, что операторы семантически реальны — не просто математические кластеры. Самое неожиданное открытие: SelfCheck (модель читает своё же рассуждение и предсказывает правильность ответа) показал результат почти на уровне случайного угадывания — LLM не знают, когда они ошибаются. А структура операторов предсказывает правильность значительно лучше.
Адаптации и экстраполяции
🔧 Аудит ответа задним числом
Если модель уже дала ответ и ты сомневаешься — попроси её саму разметить своё рассуждение:
Перечитай своё предыдущее рассуждение и пометь каждый абзац
одним из семи типов:
ЗАПУСК / ЗАЗЕМЛЕНИЕ / ВЫВОД / ОГРАНИЧЕНИЕ / ОГОВОРКА / ГИПОТЕЗА / ОТКАТ
Затем скажи: каких типов было больше всего?
Если ОГОВОРКА/ГИПОТЕЗА/ОТКАТ суммарно больше 40% — это сигнал,
что я должен перепроверить итог.
Это особенно полезно на лёгких задачах — если разметка показывает доминирование рефлексивных операторов, высока вероятность ошибки.
🔧 Осознанная активация рефлексии для сложных задач
На стратегических или неоднозначных вопросах, наоборот, явно активируй HYPOTHESIZING в середине:
Этап 1 — Заземление: только то, что точно известно
Этап 2 — Альтернативы (обязательный): рассмотри 2-3 сценария,
начиная каждый с "А что если..."
Этап 3 — Вывод: после рассмотрения альтернатив — финальная рекомендация
Исследование показало: на сложных задачах трассы с HYPOTHESIZING в середине правильнее, чем без него.
Ресурсы
Статья: ReasonOps: Operator Segmentation for LLM Reasoning Traces
Код: github.com/lee-dan/ReasonOps
Авторы: Daniel Lee, Owen Queen, James Zou — Stanford University
