TL;DR
Модели решают значительно больше сложных задач, когда им явно разрешают итерировать — пробовать снова, менять подход, продолжать работу. Ключевой рычаг: сообщать модели, правильный ответ или нет, а не просто молча давать ещё одну попытку. Разница — до двух раз по эффективности на трудных задачах.
Главная находка: на сложных задачах модель часто не даёт правильный ответ не потому, что не умеет, а потому что её остановили слишком рано. Большинство пользователей отправляют один запрос, получают ответ и либо принимают его, либо начинают заново с нуля. Это как попросить эксперта подумать 30 секунд и уйти — вместо того, чтобы дать ему работать час.
Исследователи изучили три простых способа давать модели больше "вычислительного пространства": расширенные лимиты токенов, сжатие контекста (автосуммаризация длинных диалогов) и итеративные попытки с явной обратной связью или без неё. Комбинация трёх техник повышает результаты на задачах уровня "сложная математика" и "экспертные знания" на 10–12 процентных пунктов. На других типах задач — почти никакого эффекта.
Схема метода
Три независимых техники, каждая применима отдельно:
ТЕХНИКА 1: Расширенный бюджет
→ Разреши модели отвечать долго и подробно
→ Не обрезай ответ, не торопи
ТЕХНИКА 2: Сжатие контекста
→ В длинных диалогах периодически проси сделать summary
→ "Кратко резюмируй всё сказанное выше, потом продолжаем"
ТЕХНИКА 3: Итеративные попытки (ключевая)
├── Без обратной связи → слабее
│ "Попробуй ещё раз другим способом"
└── С явной обратной связью → сильнее (в 2× по эффекту)
"Неверно. Попробуй другой подход"
"Частично верно: [что правильно]. Доработай"
"Верно! Стоп."
Все три техники работают в обычном чате без кода и API.
Пример применения
Задача: Нужно разобраться в структуре сделки M&A для своего стартапа — термшит, условия, подводные камни. Тема сложная, первый ответ ChatGPT кажется поверхностным.
Промпт (итеративный, с обратной связью):
Я основатель стартапа в сфере edtech, нам предложили termsheet от венчурного фонда.
Объясни, что в нём самое важное для меня — где обычно прячутся невыгодные условия.
Начни с первой попытки. Я буду говорить:
— "Верно, продолжай глубже" — если нужно развить мысль
— "Не то, пересмотри" — если упустил суть
— "Вот конкретный пункт: [...]" — разбери его отдельно
Не останавливайся после первого ответа — продолжаем, пока не разберём полностью.
Результат: Модель даёт первый ответ по термшиту. Пользователь реагирует: "Про liquidation preference поверхностно, копни глубже". Модель уточняет именно этот пункт, объясняет разницу между 1x non-participating и 2x participating. Пользователь: "А как это влияет на мои деньги при продаже за 200 млн?" — модель делает расчёт под конкретный сценарий. За 3–4 итерации пользователь получает то, что за один запрос не раскрывается вообще.
Почему это работает
Слабость LLM: Модель генерирует ответ один раз и "замирает". Она не знает, попала ли в цель — не получая сигнала, продолжает прежним курсом или останавливается. Это как стрелять в темноте без обратной связи о попаданиях.
Сильная сторона LLM: Модель хорошо умеет корректировать траекторию, когда получает конкретный сигнал об ошибке. "Неверно" + "попробуй иначе" — это не просто мотивация. Это сигнал сменить паттерн генерации, не повторять предыдущий путь.
Как метод это использует: Явная обратная связь ("верно/неверно") создаёт направленный поиск вместо случайного перебора. Модель исключает уже проверенные ходы и ищет в других частях "пространства решений". Именно поэтому обратная связь даёт вдвое больший эффект, чем просто "попробуй ещё раз" — без сигнала модель может повторить тот же ответ другими словами.
Рычаги управления: - Тип обратной связи → чем конкретнее ("не хватает расчёта цифр" vs "неверно"), тем точнее следующая попытка - Условие остановки → "стоп, когда я скажу 'верно'" или "стоп, когда сам будешь уверен на 90%" - Глубина vs ширина → одна глубокая цепочка итераций (сложные многошаговые задачи) vs несколько независимых попыток с выбором лучшей (фактические вопросы)
Шаблон промпта
Шаблон 1: Итерации с обратной связью (для сложных задач)
{задача}
Начни с первой попытки. После каждого ответа жди моей реакции:
— "Верно" → задача решена, можно остановиться
— "Неверно" или "[конкретная проблема]" → смени подход, не повторяй предыдущий путь
— "Глубже про [X]" → разверни эту часть подробнее
Каждая новая попытка должна отличаться от предыдущей по методу или углу зрения.
Продолжаем до тех пор, пока я не скажу "верно" или "достаточно".
Шаблон 2: Параллельные попытки (для фактических вопросов)
Реши следующую задачу {N} независимыми способами — каждый раз с нуля,
разными методами или углами зрения:
{задача}
Попытка 1: [реши]
Попытка 2: [реши иначе]
Попытка 3: [реши третьим способом]
После всех попыток: если ответы совпали — укажи это.
Если расходятся — объясни почему и какому больше доверяешь.
Плейсхолдеры: {задача} — конкретная задача, {N} — число попыток (3–5 для сложных задач, 2–3 для простых).
Когда какой шаблон: - Шаблон 1 → многошаговые задачи, анализ, написание сложного текста, разбор документов - Шаблон 2 → фактические вопросы, оценки, прогнозы, задачи с одним правильным ответом
🚀 Быстрый старт — вставь в чат:
Вот шаблон для итеративного решения задач с обратной связью.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы точнее настроить условия остановки и формат обратной связи.
[вставить шаблон выше]
LLM спросит о формате задачи и критериях "верного ответа" — потому что от этого зависит, когда останавливаться и как формулировать сигналы обратной связи.
Ограничения
⚠️ Тип задачи: Итерации с обратной связью практически не помогают на задачах, где у вас как у пользователя нет чёткого критерия "верно/неверно". Если сами не знаете правильного ответа — не можете дать честную обратную связь. Метод работает там, где вы способны оценить ответ модели.
⚠️ Тип контента: Задачи, связанные с медициной (в исследовании — HealthBench), практически не улучшаются от итераций. Возможная причина: модель упирается в ограничения своих знаний, а не в отсутствие попыток. Больше итераций ≠ новые знания.
⚠️ Параллельная vs серийная стратегия не одинакова для всех задач: Параллельные попытки (несколько независимых ответов) лучше работают для "безгосударственных" задач — фактических вопросов, где не нужно накапливать контекст. Для сложных многошаговых задач (программирование, анализ документов) лучше идти глубоко в одном диалоге.
⚠️ Повторение одного и того же: Без явной инструкции "не повторяй предыдущий подход" модель может формально дать новую попытку, но по сути воспроизвести прежний ответ другими словами. Всегда указывай, что каждая попытка должна использовать другой метод.
Как исследовали
Команда UK AI Security Institute взяла 12 frontier-моделей (от GPT-5 до Claude Opus 4.6 и экспериментального Mythos Preview) и прогнала их через 7 сложных бенчмарков — математика олимпийского уровня, задачи по кибербезопасности, медицина, программирование. Все модели тестировались с бюджетами токенов в 10–1000 раз больше стандартных — это как дать эксперту не 30 минут, а несколько часов без ограничений.
Дизайн был намеренно "тупым" — три простых техники без специальной настройки под каждый бенчмарк. Идея: показать нижнюю границу того, что даже грубые итерации могут вытащить из модели. Каждую задачу прогоняли 5 раз независимо, с обратной связью и без — итого 10 траекторий на задачу. Это позволило чётко разделить: вот что обратная связь добавляет, а вот что даёт просто больше токенов.
Самый неожиданный результат: HealthBench (медицина) не реагирует на дополнительные токены вообще — прирост +0.3 пункта при увеличении бюджета в 600 раз. Зато FrontierMath (сложная математика) даёт +12% при том же масштабировании. Это говорит не о слабости моделей, а о структуре задач: математика поддаётся поиску через итерации, медицинские знания — нет, они либо есть, либо их нет.
Оригинал из исследования
Ключевые промпты обратной связи (дословно из протокола):
No feedback condition:
"Your answer has been saved"
[+ adaptive continuation prompt inviting to refine or try a different approach]
Oracle score feedback condition:
[For binary tasks] Whether each submission is correct
[For HealthBench] Partial-credit score per submission
[Termination] Trajectory ends on first fully correct submission
Контекст: Это не промпт для пользователя, а протокол исследователей. Но паттерн "дать сигнал верно/неверно + пригласить к другому подходу" — это ровно то, что можно воспроизвести в обычном чате вручную.
Адаптации и экстраполяции
💡 Адаптация: Самооценка вместо вашей обратной связи
Если вы сами не знаете правильного ответа — делегируйте роль "оценщика" самой модели:
{задача}
Реши задачу. После каждой попытки:
1. Сам оцени уверенность в ответе от 1 до 10
2. Если уверенность < 8 — найди слабое место в своём рассуждении и попробуй снова
3. Продолжай, пока уверенность не достигнет 8+ или не попробуешь 4 разных подхода
В конце объясни, почему финальный ответ лучший из всех попыток.
Менее точно, чем реальная обратная связь, но работает когда у вас нет критерия проверки.
🔧 Техника: Параллельный дебат → выбор лучшего
Вместо последовательных итераций — три независимых ответа, потом синтез:
Реши задачу тремя способами параллельно:
Метод А: {подход 1, например "логически, шаг за шагом"}
Метод Б: {подход 2, например "через аналогии и примеры"}
Метод В: {подход 3, например "от противного — что точно не так и почему"}
После всех трёх: сравни ответы. Где совпадают — высокая уверенность.
Где расходятся — разбери конфликт и выбери победителя с обоснованием.
Хорошо работает для стратегических решений, оценки рисков, спорных вопросов.
Ресурсы
How Inference Compute Shapes Frontier LLM Evaluation — Jessica McFadyen, Ole Jorgensen, Harry Coppock, Kevin Wei, Cozmin Ududec. UK AI Security Institute (DSIT, London) в партнёрстве с University of Oxford и Harvard University. 2026.
Связанные работы, упомянутые в статье: Inspect AI (инструмент оценки AISI), ReAct framework (Yao et al., 2023), FrontierMath benchmark (Glazer et al., 2024), SWE-Bench Pro (Deng et al., 2025), Humanity's Last Exam (Phan et al., 2025, Center for AI Safety).
