3,583 papers
arXiv:2510.13940 72 15 окт. 2025 г. FREE

MTI (Minimal Test-Time Intervention): точечная коррекция в моменты неуверенности

КЛЮЧЕВАЯ СУТЬ
Обнаружено: ошибки LLM концентрируются в 5-15% токенов с высокой неопределенностью. Остальные 85-95% модель генерирует уверенно и правильно. Метод MTI позволяет выявлять эти 'слабые моменты' и усиливать рассуждения только там — результат: +5-7% точности при 3x меньшей вычислительной нагрузке vs равномерное усиление везде. Фишка: не заставляй модель одинаково тщательно обдумывать всё. Сфокусируй усилия на моментах сомнений — энтропия токена (распределение вероятностей) показывает где модель не уверена.
Адаптировать под запрос

TL;DR

MTI — метод улучшения рассуждений LLM через вмешательство только в моменты высокой неопределённости. Вместо того чтобы корректировать всю цепочку мысли, метод измеряет энтропию (неопределённость) каждого токена во время генерации и применяет коррекцию только там, где модель сомневается. Коррекция работает через classifier-free guidance (CFG) — модель генерирует два варианта (что делать / чего НЕ делать) и выбирает контрастом.

Исследователи обнаружили: ошибки в рассуждениях концентрируются в 5-10% токенов с высокой энтропией. Правильные ответы имеют низкую среднюю энтропию, неправильные — высокую. Причём разница идёт не от всех токенов равномерно, а от небольшого числа "критических узлов" — там, где модель выбирает между несколькими вариантами. Один ошибочный выбор в таком узле запускает цепную реакцию: последующие токены генерируются на основе неправильного контекста, и вся цепочка рассуждений идёт не туда.

MTI стабилизирует эти критические узлы через селективный CFG: когда энтропия превышает порог, модель временно добавляет негативную подсказку "OUTPUT ERROR" к уже сгенерированному контексту, получает "плохое" продолжение и сдвигает вероятности в противоположную сторону. Это работает как "антипример" — показывая что НЕ надо делать, модель точнее понимает что надо. Поскольку критических узлов мало, коррекция затрагивает только 3-30% токенов (в зависимости от порога), почти не увеличивая время работы.

🔬

Схема метода

Метод работает на уровне токенов — требует доступ к вероятностям модели через API или код.

ШАГ 1: Генерация следующего токена
└── Модель выдаёт вероятности всех токенов словаря

ШАГ 2: Измерение энтропии
└── Вычисляем H = -Σ(p_i × log p_i) по всем вероятностям

ШАГ 3: Проверка порога
├── Если H ≤ τ → берём обычный токен (модель уверена)
└── Если H > τ → применяем CFG:
    ├── Добавляем "OUTPUT ERROR" к контексту
    ├── Генерируем "плохие" вероятности p_bad
    ├── Комбинируем: p_final = ω×p_good - (ω-1)×p_bad
    └── Выбираем токен из p_final

ШАГ 4: Добавляем токен → повторяем с Шага 1

Все шаги выполняются автоматически в одном прогоне через модифицированный декодер.

📌

Практическая адаптация для чата

⚠️ Точная реализация MTI требует доступа к вероятностям токенов — это возможно через API с параметром logprobs (OpenAI, Anthropic) или локальный запуск модели. В обычном чате метод напрямую неприменим.

Но можно извлечь принципы и адаптировать:

🚀

Принцип 1: Негативные примеры для контраста

Вместо "сделай X" → "сделай X, избегая Y". Контраст улучшает точность.

Задача: Проанализировать бизнес-идею — сервис доставки готовых обедов для офисов в Москве по подписке (от 20 человек). Прикинуть юнит-экономику.

Промпт:

Проанализируй бизнес-модель: доставка обедов в офисы Москвы, подписка от 20 человек.

ВАЖНО — избегай типичных ошибок в расчётах:
- НЕ забывай про возвраты тары и логистику обратного потока
- НЕ занижай стоимость привлечения B2B-клиента (долгий цикл сделки)
- НЕ закладывай 100% заполнение слотов доставки
- НЕ используй средний чек ресторанов (у нас оптовая закупка)

Покажи расчёты по шагам с реалистичными допущениями.

Результат: Модель выдаст расчёт юнит-экономики с акцентом на проблемные зоны: учтёт стоимость тары (залог/возврат), заложит коэффициент неполной загрузки курьеров (60-70%), оценит CAC для B2B через длительность цикла сделки, посчитает себестоимость с учётом оптовых закупок. В расчёте появятся метрики, которые обычно упускаются: retention rate офисов, сезонность (летом офисы пустеют), порча продуктов.

📌

Принцип 2: Явная рефлексия в моменты неуверенности

Попроси модель маркировать сомнительные шаги и пересматривать их.

Задача: Оценить вероятность успеха запуска мобильного приложения для знакомств с акцентом на серьёзные отношения (конкурент Tinder/Bumble) в России.

Промпт:

Оцени шансы на успех приложения для серьёзных знакомств в России (конкурент Tinder).

Анализируй по шагам. После каждого утверждения:
- Если уверен — продолжай
- Если есть сомнение или альтернативная гипотеза — отметь [?] и рассмотри оба варианта

Покажи логику: где очевидно, где спорно, какие допущения критичны.

Результат: Модель выдаст анализ с явными маркерами неопределённости. Например: "Монетизация через подписку работает на Западе [?] — но в России платёжеспособность ниже, возможно лучшеfreemium + донаты". Или: "Вирусный рост через рефералки [?] — но для серьёзных знакомств люди стесняются приглашать друзей, нужна другая механика". Каждый спорный момент раздваивается на оптимистичный и пессимистичный сценарий с обоснованием.

📌

Принцип 3: Итеративная проверка критических точек

Сгенерируй черновик → найди слабые места → перегенерируй.

Шаблон промпта:

Задача: {опиши задачу}

ШАГ 1 — Черновое решение:
Реши задачу, отмечая места где делаешь допущения или выбираешь между вариантами — помечай [ВЫБОР].

ШАГ 2 — Аудит критических точек:
Перечисли все места с [ВЫБОР]. Для каждого:
- Почему выбрал этот вариант?
- Какой альтернативный путь возможен?
- Насколько критичен этот выбор для итога?

ШАГ 3 — Финальное решение:
Пересмотри черновик с учётом аудита. Если нашёл ошибку в логике — исправь.

Где подставлять: - {опиши задачу} — конкретная задача требующая выбора между вариантами (стратегические решения, анализ с неполными данными, креативные задачи).

🚀 Быстрый старт — вставь в чат:

Вот шаблон трёхшагового решения с проверкой критических точек. Адаптируй под мою задачу: [твоя задача]. 

[вставить шаблон выше]

LLM спросит детали задачи и уточнит какие критерии важны для аудита на Шаге 2. Она возьмёт паттерн "черновик → аудит → исправление" и применит к твоей задаче.

🧠

Почему это работает

Слабость LLM: Модель генерирует токен за токеном, опираясь на предыдущие. Один неправильный токен в критическом месте (развилка рассуждения) запускает цепную реакцию — все последующие токены генерируются на основе ошибочного контекста. Особенно опасны моменты высокой энтропии — когда модель выбирает между несколькими правдоподобными вариантами (вероятности распределены примерно поровну). В таких точках даже небольшой сдвиг вероятностей меняет весь последующий путь.

Сильная сторона LLM: Модель хорошо различает правильное/неправильное через контраст. Если показать "это плохо" — она точнее поймёт "это хорошо". Например, добавив контекст "OUTPUT ERROR" перед токеном, модель генерирует распределение вероятностей для "плохого" продолжения. Вычитая эти вероятности из "хороших", получаем усиленный сигнал к правильному выбору.

Как метод использует это: MTI фокусируется только на критических узлах (высокая энтропия = момент сомнения), не трогая уверенные шаги. В каждом таком узле модель генерирует два сценария: нормальный и "плохой" (с негативной подсказкой). Контраст между ними усиливает правильный выбор. Поскольку критических узлов мало (5-30% токенов), коррекция точечная и не замедляет работу.

Адаптация для чата: Прямое измерение энтропии недоступно, но можно попросить модель явно маркировать моменты неуверенности ("где сомневаешься?") и пересматривать их с негативными примерами ("чего НЕ делать"). Это воспроизводит логику MTI вручную: находим критические точки → усиливаем контраст → уточняем выбор.

⚠️

Ограничения

⚠️ Требуется доступ к вероятностям: Точная реализация MTI работает только через API с параметром logprobs или локальный запуск модели. В обычном веб-чате (ChatGPT/Claude без API) метод напрямую неприменим — нужна адаптация через извлечённые принципы.

⚠️ Порог энтропии зависит от задачи: Исследователи показали, что оптимальный порог τ различается: для кода лучше 0.5-1.0, для математики 1.5-2.0, для длинных рассуждений 1.0-1.5. Универсального значения нет — требуется калибровка на тестовых примерах.

⚠️ Вредит на простых задачах: Если модель уже уверена в ответе (низкая энтропия по всей цепочке), вмешательство снижает точность. MTI показывает прирост там, где есть неопределённость — сложные математические задачи, код с неочевидной логикой, рассуждения с несколькими гипотезами. На фактических вопросах ("столица Франции") или простых расчётах метод бесполезен или вредит.

🔍

Как исследовали

Команда из HKUST и Kuaishou проверила гипотезу: ошибки в рассуждениях концентрируются в токенах с высокой энтропией. Взяли бенчмарк AIME2024 (математические задачи олимпиадного уровня) и прогнали через модель Qwen3-8B с greedy decoding. Для каждого сгенерированного токена измерили энтропию распределения вероятностей. Затем сгруппировали задачи на правильные/неправильные и посчитали среднюю энтропию ответа.

Результат удивил: правильные ответы имели среднюю энтропию ~3.5, неправильные ~5.2 — разница почти в 1.5 раза. Ещё интереснее: в неправильных ответах 90% энтропии приходилось на 5-10% токенов. Остальные токены (90-95%) имели низкую энтропию, то есть модель была в них уверена. Это означало: модель не "плавает" во всей цепочке, а ошибается локально — в нескольких критических точках выбора.

Дальше протестировали селективный CFG на шести бенчмарках: общие знания (MMLU-Pro), наука (GPQA-Diamond), математика (MATH500), код (HumanEval, HumanEval+, LiveCodeBench). Сравнивали три варианта: обычная генерация (DI), CFG на всех токенах (VC), CFG только на токенах с энтропией > τ (MTI).

Вывод оказался контринтуитивным: vanilla CFG (на всех токенах) часто ухудшал результат по сравнению с обычной генерацией — например, на AIME2024 упал с 73.75% до 73.34%. Причина: CFG на низкоэнтропийных токенах вносил шум в уверенные шаги, нарушая логический поток. MTI же с порогом τ=1.5 поднял точность до 78.34% (+4.59%), применив CFG только к 15-20% токенов.

Особенно впечатлил кейс GPQA-Diamond с DeepSeek-R1-7B: обычная генерация зациклилась в повторах, выдав 29.29%. MTI исправил топ-1 предсказание в критических узлах и поднял результат до 51.52% (+22.23%). Word-cloud анализ показал: после MTI частота родовых токенов (the, a, so) упала, зато выросла частота рассуждающих коннекторов (however, if, perhaps, alternatively, wait) — модель стала чаще пересматривать свои гипотезы вместо того чтобы линейно продолжать ошибочный путь.

Инсайт для практики: большинство методов улучшения рассуждений (CoT, self-consistency, Tree of Thoughts) действуют глобально — на всю цепочку или через множественные прогоны. MTI показал обратное: достаточно скорректировать 5-10% критических точек, чтобы получить сопоставимый прирост при десятикратной экономии вычислений. Это меняет стратегию оптимизации: не "больше вычислений везде", а "точечная коррекция в моменты неопределённости".

🔗

Ресурсы

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention — Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen (HKUST(GZ), Kuaishou Technology, AIML, ZJU, Ant Group, HKUST). Код на GitHub.


📋 Дайджест исследования

Ключевая суть

Обнаружено: ошибки LLM концентрируются в 5-15% токенов с высокой неопределенностью. Остальные 85-95% модель генерирует уверенно и правильно. Метод MTI позволяет выявлять эти 'слабые моменты' и усиливать рассуждения только там — результат: +5-7% точности при 3x меньшей вычислительной нагрузке vs равномерное усиление везде. Фишка: не заставляй модель одинаково тщательно обдумывать всё. Сфокусируй усилия на моментах сомнений — энтропия токена (распределение вероятностей) показывает где модель не уверена.

Принцип работы

Не 'думай тщательнее везде' — найди где модель сомневается, усиль рассуждения там. Двухэтапный подход: 1. Диагностика: 'Где в этой задаче самые неочевидные/спорные моменты?' 2. Решение с фокусом: 'Реши задачу, уделяя ОСОБОЕ внимание этим моментам' Модель как студент на экзамене: пусть быстро проходит простое, а время тратит на сложное. Равномерная 'тщательность' везде — пустая трата ресурсов + может испортить уверенные участки избыточным обдумыванием.

Почему работает

Модель генерирует токены последовательно. В моменты высокой энтропии (модель распределяет вероятность между несколькими вариантами примерно поровну) — она сомневается. Исследование показало: ошибки концентрируются именно в токенах с высокой энтропией (top 10-15%), остальные 85-90% модель выдаёт корректно. Вместо равномерного усиления рассуждений везде (дорого + может навредить уверенным частям) — усиливай только сомнительные участки. В оригинальном MTI это работает через classifier-free guidance только на токенах с высокой энтропией. Результат: +5-7% точности при 3x меньшей нагрузке vs полный CFG на всех токенах.

Когда применять

Задачи с многошаговыми рассуждениями → особенно логические цепочки (математика, анализ кода, юридический разбор, debugging), где одна ошибка в середине рушит всё дальнейшее. НЕ подходит для творческих задач (генерация идей, сторителлинг, брейншторминг) — там высокая неопределенность это хорошо (вариативность нужна).

Мини-рецепт

1. Диагностика сложности: Перед решением спроси модель: Определи 2-3 самых сложных/неочевидных/спорных момента в этой задаче. Где можешь ошибиться?

2. Решение с фокусом: Дай задачу с указанием: Теперь реши. Уделяй ОСОБОЕ внимание найденным моментам — рассуждай там детальнее, проверяй дважды.

3. Вариант для одного промпта: Сначала найди 2-3 момента где можешь ошибиться. Затем реши задачу, фокусируясь на этих участках — там рассуждай подробнее.

Примеры

[ПЛОХО] : Реши эту математическую задачу максимально тщательно (Модель будет одинаково 'тщательна' везде — медленно + может переусердствовать на тривиальных шагах)
[ХОРОШО] : Сначала определи 2-3 самых неочевидных шага в этой задаче (где легко ошибиться). Затем реши, уделяя этим шагам особое внимание — там рассуждай детальнее, остальное можешь быстрее. (Модель фокусирует ресурсы на проблемных участках, не раздувая простые части)
Источник: Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
ArXiv ID: 2510.13940 | Сгенерировано: 2026-01-11 23:57

Концепты не выделены.

📖 Простыми словами

MTI (Minimal Test-Time Intervention): точечная коррекция в моменты неуверенности

arXiv: 2510.13940

Суть метода MTI в том, что нейросеть лажает не везде, а в конкретных «точках бифуркации». Когда модель рассуждает, 90% текста — это очевидная база, где она уверена в каждом слове. Но есть критические моменты с высокой энтропией, когда модель сомневается, какой шаг сделать следующим. Исследователи выяснили: если пытаться «подруливать» моделью на каждом слове, она тупеет и теряет логику. Но если вмешаться только там, где она реально буксует, точность ответов взлетает без лишних тормозов.

Это как ехать с инструктором, который не дергает руль каждые пять секунд, а вступает в дело только в тот момент, когда ты входишь в крутой поворот над обрывом. Формально он молчит большую часть пути, но именно его точечное вмешательство спасает тебя от кювета. В мире LLM это работает так же: вместо того чтобы тратить ресурсы на проверку очевидных связок слов, система фокусируется на критических узлах рассуждений, где риск ошибки максимален.

Технически это реализовано через classifier-free guidance (CFG), но не для всего текста сразу, а выборочно. Модель вычисляет неопределенность каждого следующего токена, и если та зашкаливает, включается «режим коррекции». Оказалось, что ошибки в логике кучкуются в очень узких местах — буквально в паре-тройке слов на весь абзац. Исправив эти точки неопределенности, авторы получили буст в сложных задачах, не перегружая систему лишними вычислениями.

Хотя тест проводили на суровых математических бенчмарках через API, принцип универсален для любого общения с AI. Это доказывает, что главная проблема галлюцинаций — не в отсутствии знаний, а в неумении модели вовремя притормозить на сложных поворотах. Если ты просишь ChatGPT решить задачу, самая большая лажа случится именно там, где он начинает «мяться» или выдавать общие фразы. MTI — это по сути автоматический детектор таких моментов, который заставляет модель «собраться» в нужную секунду.

Короче: будущее не за гигантскими промптами, а за умным вмешательством в процесс «мышления» модели. Вместо того чтобы переписывать запрос десять раз, нужно научить систему видеть свои слабые зоны и корректировать их на лету. Минимальное вмешательство дает максимальный результат, а попытки тотального контроля над каждым словом AI только портят результат. Кто научится выцеплять эти критические точки, тот и получит самые адекватные ответы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с