TL;DR
MTI — метод улучшения рассуждений LLM через вмешательство только в моменты высокой неопределённости. Вместо того чтобы корректировать всю цепочку мысли, метод измеряет энтропию (неопределённость) каждого токена во время генерации и применяет коррекцию только там, где модель сомневается. Коррекция работает через classifier-free guidance (CFG) — модель генерирует два варианта (что делать / чего НЕ делать) и выбирает контрастом.
Исследователи обнаружили: ошибки в рассуждениях концентрируются в 5-10% токенов с высокой энтропией. Правильные ответы имеют низкую среднюю энтропию, неправильные — высокую. Причём разница идёт не от всех токенов равномерно, а от небольшого числа "критических узлов" — там, где модель выбирает между несколькими вариантами. Один ошибочный выбор в таком узле запускает цепную реакцию: последующие токены генерируются на основе неправильного контекста, и вся цепочка рассуждений идёт не туда.
MTI стабилизирует эти критические узлы через селективный CFG: когда энтропия превышает порог, модель временно добавляет негативную подсказку "OUTPUT ERROR" к уже сгенерированному контексту, получает "плохое" продолжение и сдвигает вероятности в противоположную сторону. Это работает как "антипример" — показывая что НЕ надо делать, модель точнее понимает что надо. Поскольку критических узлов мало, коррекция затрагивает только 3-30% токенов (в зависимости от порога), почти не увеличивая время работы.
Схема метода
Метод работает на уровне токенов — требует доступ к вероятностям модели через API или код.
ШАГ 1: Генерация следующего токена
└── Модель выдаёт вероятности всех токенов словаря
ШАГ 2: Измерение энтропии
└── Вычисляем H = -Σ(p_i × log p_i) по всем вероятностям
ШАГ 3: Проверка порога
├── Если H ≤ τ → берём обычный токен (модель уверена)
└── Если H > τ → применяем CFG:
├── Добавляем "OUTPUT ERROR" к контексту
├── Генерируем "плохие" вероятности p_bad
├── Комбинируем: p_final = ω×p_good - (ω-1)×p_bad
└── Выбираем токен из p_final
ШАГ 4: Добавляем токен → повторяем с Шага 1
Все шаги выполняются автоматически в одном прогоне через модифицированный декодер.
Практическая адаптация для чата
⚠️ Точная реализация MTI требует доступа к вероятностям токенов — это возможно через API с параметром logprobs (OpenAI, Anthropic) или локальный запуск модели. В обычном чате метод напрямую неприменим.
Но можно извлечь принципы и адаптировать:
Принцип 1: Негативные примеры для контраста
Вместо "сделай X" → "сделай X, избегая Y". Контраст улучшает точность.
Задача: Проанализировать бизнес-идею — сервис доставки готовых обедов для офисов в Москве по подписке (от 20 человек). Прикинуть юнит-экономику.
Промпт:
Проанализируй бизнес-модель: доставка обедов в офисы Москвы, подписка от 20 человек.
ВАЖНО — избегай типичных ошибок в расчётах:
- НЕ забывай про возвраты тары и логистику обратного потока
- НЕ занижай стоимость привлечения B2B-клиента (долгий цикл сделки)
- НЕ закладывай 100% заполнение слотов доставки
- НЕ используй средний чек ресторанов (у нас оптовая закупка)
Покажи расчёты по шагам с реалистичными допущениями.
Результат: Модель выдаст расчёт юнит-экономики с акцентом на проблемные зоны: учтёт стоимость тары (залог/возврат), заложит коэффициент неполной загрузки курьеров (60-70%), оценит CAC для B2B через длительность цикла сделки, посчитает себестоимость с учётом оптовых закупок. В расчёте появятся метрики, которые обычно упускаются: retention rate офисов, сезонность (летом офисы пустеют), порча продуктов.
Принцип 2: Явная рефлексия в моменты неуверенности
Попроси модель маркировать сомнительные шаги и пересматривать их.
Задача: Оценить вероятность успеха запуска мобильного приложения для знакомств с акцентом на серьёзные отношения (конкурент Tinder/Bumble) в России.
Промпт:
Оцени шансы на успех приложения для серьёзных знакомств в России (конкурент Tinder).
Анализируй по шагам. После каждого утверждения:
- Если уверен — продолжай
- Если есть сомнение или альтернативная гипотеза — отметь [?] и рассмотри оба варианта
Покажи логику: где очевидно, где спорно, какие допущения критичны.
Результат: Модель выдаст анализ с явными маркерами неопределённости. Например: "Монетизация через подписку работает на Западе [?] — но в России платёжеспособность ниже, возможно лучшеfreemium + донаты". Или: "Вирусный рост через рефералки [?] — но для серьёзных знакомств люди стесняются приглашать друзей, нужна другая механика". Каждый спорный момент раздваивается на оптимистичный и пессимистичный сценарий с обоснованием.
Принцип 3: Итеративная проверка критических точек
Сгенерируй черновик → найди слабые места → перегенерируй.
Шаблон промпта:
Задача: {опиши задачу}
ШАГ 1 — Черновое решение:
Реши задачу, отмечая места где делаешь допущения или выбираешь между вариантами — помечай [ВЫБОР].
ШАГ 2 — Аудит критических точек:
Перечисли все места с [ВЫБОР]. Для каждого:
- Почему выбрал этот вариант?
- Какой альтернативный путь возможен?
- Насколько критичен этот выбор для итога?
ШАГ 3 — Финальное решение:
Пересмотри черновик с учётом аудита. Если нашёл ошибку в логике — исправь.
Где подставлять:
- {опиши задачу} — конкретная задача требующая выбора между вариантами (стратегические решения, анализ с неполными данными, креативные задачи).
🚀 Быстрый старт — вставь в чат:
Вот шаблон трёхшагового решения с проверкой критических точек. Адаптируй под мою задачу: [твоя задача].
[вставить шаблон выше]
LLM спросит детали задачи и уточнит какие критерии важны для аудита на Шаге 2. Она возьмёт паттерн "черновик → аудит → исправление" и применит к твоей задаче.
Почему это работает
Слабость LLM: Модель генерирует токен за токеном, опираясь на предыдущие. Один неправильный токен в критическом месте (развилка рассуждения) запускает цепную реакцию — все последующие токены генерируются на основе ошибочного контекста. Особенно опасны моменты высокой энтропии — когда модель выбирает между несколькими правдоподобными вариантами (вероятности распределены примерно поровну). В таких точках даже небольшой сдвиг вероятностей меняет весь последующий путь.
Сильная сторона LLM: Модель хорошо различает правильное/неправильное через контраст. Если показать "это плохо" — она точнее поймёт "это хорошо". Например, добавив контекст "OUTPUT ERROR" перед токеном, модель генерирует распределение вероятностей для "плохого" продолжения. Вычитая эти вероятности из "хороших", получаем усиленный сигнал к правильному выбору.
Как метод использует это: MTI фокусируется только на критических узлах (высокая энтропия = момент сомнения), не трогая уверенные шаги. В каждом таком узле модель генерирует два сценария: нормальный и "плохой" (с негативной подсказкой). Контраст между ними усиливает правильный выбор. Поскольку критических узлов мало (5-30% токенов), коррекция точечная и не замедляет работу.
Адаптация для чата: Прямое измерение энтропии недоступно, но можно попросить модель явно маркировать моменты неуверенности ("где сомневаешься?") и пересматривать их с негативными примерами ("чего НЕ делать"). Это воспроизводит логику MTI вручную: находим критические точки → усиливаем контраст → уточняем выбор.
Ограничения
⚠️ Требуется доступ к вероятностям: Точная реализация MTI работает только через API с параметром
logprobsили локальный запуск модели. В обычном веб-чате (ChatGPT/Claude без API) метод напрямую неприменим — нужна адаптация через извлечённые принципы.
⚠️ Порог энтропии зависит от задачи: Исследователи показали, что оптимальный порог τ различается: для кода лучше 0.5-1.0, для математики 1.5-2.0, для длинных рассуждений 1.0-1.5. Универсального значения нет — требуется калибровка на тестовых примерах.
⚠️ Вредит на простых задачах: Если модель уже уверена в ответе (низкая энтропия по всей цепочке), вмешательство снижает точность. MTI показывает прирост там, где есть неопределённость — сложные математические задачи, код с неочевидной логикой, рассуждения с несколькими гипотезами. На фактических вопросах ("столица Франции") или простых расчётах метод бесполезен или вредит.
Как исследовали
Команда из HKUST и Kuaishou проверила гипотезу: ошибки в рассуждениях концентрируются в токенах с высокой энтропией. Взяли бенчмарк AIME2024 (математические задачи олимпиадного уровня) и прогнали через модель Qwen3-8B с greedy decoding. Для каждого сгенерированного токена измерили энтропию распределения вероятностей. Затем сгруппировали задачи на правильные/неправильные и посчитали среднюю энтропию ответа.
Результат удивил: правильные ответы имели среднюю энтропию ~3.5, неправильные ~5.2 — разница почти в 1.5 раза. Ещё интереснее: в неправильных ответах 90% энтропии приходилось на 5-10% токенов. Остальные токены (90-95%) имели низкую энтропию, то есть модель была в них уверена. Это означало: модель не "плавает" во всей цепочке, а ошибается локально — в нескольких критических точках выбора.
Дальше протестировали селективный CFG на шести бенчмарках: общие знания (MMLU-Pro), наука (GPQA-Diamond), математика (MATH500), код (HumanEval, HumanEval+, LiveCodeBench). Сравнивали три варианта: обычная генерация (DI), CFG на всех токенах (VC), CFG только на токенах с энтропией > τ (MTI).
Вывод оказался контринтуитивным: vanilla CFG (на всех токенах) часто ухудшал результат по сравнению с обычной генерацией — например, на AIME2024 упал с 73.75% до 73.34%. Причина: CFG на низкоэнтропийных токенах вносил шум в уверенные шаги, нарушая логический поток. MTI же с порогом τ=1.5 поднял точность до 78.34% (+4.59%), применив CFG только к 15-20% токенов.
Особенно впечатлил кейс GPQA-Diamond с DeepSeek-R1-7B: обычная генерация зациклилась в повторах, выдав 29.29%. MTI исправил топ-1 предсказание в критических узлах и поднял результат до 51.52% (+22.23%). Word-cloud анализ показал: после MTI частота родовых токенов (the, a, so) упала, зато выросла частота рассуждающих коннекторов (however, if, perhaps, alternatively, wait) — модель стала чаще пересматривать свои гипотезы вместо того чтобы линейно продолжать ошибочный путь.
Инсайт для практики: большинство методов улучшения рассуждений (CoT, self-consistency, Tree of Thoughts) действуют глобально — на всю цепочку или через множественные прогоны. MTI показал обратное: достаточно скорректировать 5-10% критических точек, чтобы получить сопоставимый прирост при десятикратной экономии вычислений. Это меняет стратегию оптимизации: не "больше вычислений везде", а "точечная коррекция в моменты неопределённости".
Ресурсы
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention — Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen (HKUST(GZ), Kuaishou Technology, AIML, ZJU, Ant Group, HKUST). Код на GitHub.
