3,583 papers
arXiv:2606.17930 70 16 июня 2026 г. FREE

Inference Scaling: модель решает больше задач, когда ей дают больше попыток и обратную связь

КЛЮЧЕВАЯ СУТЬ
Парадокс: модель часто и не думала отказываться — её просто остановили слишком рано. Один запрос, один ответ — принял или пошёл заново с нуля. Это как попросить эксперта подумать 30 секунд, забрать листок и уйти. Техника итеративных попыток с явной обратной связью позволяет вытащить из модели решение, которое она уже «знает», но не успела найти. Фишка: сказать «неверно, смени подход» вместо молчаливого «попробуй ещё раз» — удваивает эффект на сложных задачах, потому что модель исключает уже проверенные пути и ищет в другом месте.
Адаптировать под запрос

TL;DR

Модели решают значительно больше сложных задач, когда им явно разрешают итерировать — пробовать снова, менять подход, продолжать работу. Ключевой рычаг: сообщать модели, правильный ответ или нет, а не просто молча давать ещё одну попытку. Разница — до двух раз по эффективности на трудных задачах.

Главная находка: на сложных задачах модель часто не даёт правильный ответ не потому, что не умеет, а потому что её остановили слишком рано. Большинство пользователей отправляют один запрос, получают ответ и либо принимают его, либо начинают заново с нуля. Это как попросить эксперта подумать 30 секунд и уйти — вместо того, чтобы дать ему работать час.

Исследователи изучили три простых способа давать модели больше "вычислительного пространства": расширенные лимиты токенов, сжатие контекста (автосуммаризация длинных диалогов) и итеративные попытки с явной обратной связью или без неё. Комбинация трёх техник повышает результаты на задачах уровня "сложная математика" и "экспертные знания" на 10–12 процентных пунктов. На других типах задач — почти никакого эффекта.


🔬

Схема метода

Три независимых техники, каждая применима отдельно:

ТЕХНИКА 1: Расширенный бюджет
→ Разреши модели отвечать долго и подробно
→ Не обрезай ответ, не торопи

ТЕХНИКА 2: Сжатие контекста  
→ В длинных диалогах периодически проси сделать summary
→ "Кратко резюмируй всё сказанное выше, потом продолжаем"

ТЕХНИКА 3: Итеративные попытки (ключевая)
├── Без обратной связи → слабее
│   "Попробуй ещё раз другим способом"
└── С явной обратной связью → сильнее (в 2× по эффекту)
    "Неверно. Попробуй другой подход"
    "Частично верно: [что правильно]. Доработай"
    "Верно! Стоп."

Все три техники работают в обычном чате без кода и API.


🚀

Пример применения

Задача: Нужно разобраться в структуре сделки M&A для своего стартапа — термшит, условия, подводные камни. Тема сложная, первый ответ ChatGPT кажется поверхностным.

Промпт (итеративный, с обратной связью):

Я основатель стартапа в сфере edtech, нам предложили termsheet от венчурного фонда. 
Объясни, что в нём самое важное для меня — где обычно прячутся невыгодные условия.

Начни с первой попытки. Я буду говорить:
— "Верно, продолжай глубже" — если нужно развить мысль
— "Не то, пересмотри" — если упустил суть  
— "Вот конкретный пункт: [...]" — разбери его отдельно

Не останавливайся после первого ответа — продолжаем, пока не разберём полностью.

Результат: Модель даёт первый ответ по термшиту. Пользователь реагирует: "Про liquidation preference поверхностно, копни глубже". Модель уточняет именно этот пункт, объясняет разницу между 1x non-participating и 2x participating. Пользователь: "А как это влияет на мои деньги при продаже за 200 млн?" — модель делает расчёт под конкретный сценарий. За 3–4 итерации пользователь получает то, что за один запрос не раскрывается вообще.


🧠

Почему это работает

Слабость LLM: Модель генерирует ответ один раз и "замирает". Она не знает, попала ли в цель — не получая сигнала, продолжает прежним курсом или останавливается. Это как стрелять в темноте без обратной связи о попаданиях.

Сильная сторона LLM: Модель хорошо умеет корректировать траекторию, когда получает конкретный сигнал об ошибке. "Неверно" + "попробуй иначе" — это не просто мотивация. Это сигнал сменить паттерн генерации, не повторять предыдущий путь.

Как метод это использует: Явная обратная связь ("верно/неверно") создаёт направленный поиск вместо случайного перебора. Модель исключает уже проверенные ходы и ищет в других частях "пространства решений". Именно поэтому обратная связь даёт вдвое больший эффект, чем просто "попробуй ещё раз" — без сигнала модель может повторить тот же ответ другими словами.

Рычаги управления: - Тип обратной связи → чем конкретнее ("не хватает расчёта цифр" vs "неверно"), тем точнее следующая попытка - Условие остановки → "стоп, когда я скажу 'верно'" или "стоп, когда сам будешь уверен на 90%" - Глубина vs ширина → одна глубокая цепочка итераций (сложные многошаговые задачи) vs несколько независимых попыток с выбором лучшей (фактические вопросы)


📋

Шаблон промпта

Шаблон 1: Итерации с обратной связью (для сложных задач)

{задача}

Начни с первой попытки. После каждого ответа жди моей реакции:
— "Верно" → задача решена, можно остановиться
— "Неверно" или "[конкретная проблема]" → смени подход, не повторяй предыдущий путь
— "Глубже про [X]" → разверни эту часть подробнее

Каждая новая попытка должна отличаться от предыдущей по методу или углу зрения.
Продолжаем до тех пор, пока я не скажу "верно" или "достаточно".

Шаблон 2: Параллельные попытки (для фактических вопросов)

Реши следующую задачу {N} независимыми способами — каждый раз с нуля, 
разными методами или углами зрения:

{задача}

Попытка 1: [реши]
Попытка 2: [реши иначе]
Попытка 3: [реши третьим способом]

После всех попыток: если ответы совпали — укажи это. 
Если расходятся — объясни почему и какому больше доверяешь.

Плейсхолдеры: {задача} — конкретная задача, {N} — число попыток (3–5 для сложных задач, 2–3 для простых).

Когда какой шаблон: - Шаблон 1 → многошаговые задачи, анализ, написание сложного текста, разбор документов - Шаблон 2 → фактические вопросы, оценки, прогнозы, задачи с одним правильным ответом


🚀 Быстрый старт — вставь в чат:

Вот шаблон для итеративного решения задач с обратной связью. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы точнее настроить условия остановки и формат обратной связи.

[вставить шаблон выше]

LLM спросит о формате задачи и критериях "верного ответа" — потому что от этого зависит, когда останавливаться и как формулировать сигналы обратной связи.


⚠️

Ограничения

⚠️ Тип задачи: Итерации с обратной связью практически не помогают на задачах, где у вас как у пользователя нет чёткого критерия "верно/неверно". Если сами не знаете правильного ответа — не можете дать честную обратную связь. Метод работает там, где вы способны оценить ответ модели.

⚠️ Тип контента: Задачи, связанные с медициной (в исследовании — HealthBench), практически не улучшаются от итераций. Возможная причина: модель упирается в ограничения своих знаний, а не в отсутствие попыток. Больше итераций ≠ новые знания.

⚠️ Параллельная vs серийная стратегия не одинакова для всех задач: Параллельные попытки (несколько независимых ответов) лучше работают для "безгосударственных" задач — фактических вопросов, где не нужно накапливать контекст. Для сложных многошаговых задач (программирование, анализ документов) лучше идти глубоко в одном диалоге.

⚠️ Повторение одного и того же: Без явной инструкции "не повторяй предыдущий подход" модель может формально дать новую попытку, но по сути воспроизвести прежний ответ другими словами. Всегда указывай, что каждая попытка должна использовать другой метод.


🔍

Как исследовали

Команда UK AI Security Institute взяла 12 frontier-моделей (от GPT-5 до Claude Opus 4.6 и экспериментального Mythos Preview) и прогнала их через 7 сложных бенчмарков — математика олимпийского уровня, задачи по кибербезопасности, медицина, программирование. Все модели тестировались с бюджетами токенов в 10–1000 раз больше стандартных — это как дать эксперту не 30 минут, а несколько часов без ограничений.

Дизайн был намеренно "тупым" — три простых техники без специальной настройки под каждый бенчмарк. Идея: показать нижнюю границу того, что даже грубые итерации могут вытащить из модели. Каждую задачу прогоняли 5 раз независимо, с обратной связью и без — итого 10 траекторий на задачу. Это позволило чётко разделить: вот что обратная связь добавляет, а вот что даёт просто больше токенов.

Самый неожиданный результат: HealthBench (медицина) не реагирует на дополнительные токены вообще — прирост +0.3 пункта при увеличении бюджета в 600 раз. Зато FrontierMath (сложная математика) даёт +12% при том же масштабировании. Это говорит не о слабости моделей, а о структуре задач: математика поддаётся поиску через итерации, медицинские знания — нет, они либо есть, либо их нет.


📄

Оригинал из исследования

Ключевые промпты обратной связи (дословно из протокола):

No feedback condition:
"Your answer has been saved"  
[+ adaptive continuation prompt inviting to refine or try a different approach]

Oracle score feedback condition:
[For binary tasks] Whether each submission is correct
[For HealthBench] Partial-credit score per submission
[Termination] Trajectory ends on first fully correct submission

Контекст: Это не промпт для пользователя, а протокол исследователей. Но паттерн "дать сигнал верно/неверно + пригласить к другому подходу" — это ровно то, что можно воспроизвести в обычном чате вручную.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: Самооценка вместо вашей обратной связи

Если вы сами не знаете правильного ответа — делегируйте роль "оценщика" самой модели:

{задача}

Реши задачу. После каждой попытки:
1. Сам оцени уверенность в ответе от 1 до 10
2. Если уверенность < 8 — найди слабое место в своём рассуждении и попробуй снова
3. Продолжай, пока уверенность не достигнет 8+ или не попробуешь 4 разных подхода

В конце объясни, почему финальный ответ лучший из всех попыток.

Менее точно, чем реальная обратная связь, но работает когда у вас нет критерия проверки.


📌

🔧 Техника: Параллельный дебат → выбор лучшего

Вместо последовательных итераций — три независимых ответа, потом синтез:

Реши задачу тремя способами параллельно:

Метод А: {подход 1, например "логически, шаг за шагом"}
Метод Б: {подход 2, например "через аналогии и примеры"}  
Метод В: {подход 3, например "от противного — что точно не так и почему"}

После всех трёх: сравни ответы. Где совпадают — высокая уверенность. 
Где расходятся — разбери конфликт и выбери победителя с обоснованием.

Хорошо работает для стратегических решений, оценки рисков, спорных вопросов.


🔗

Ресурсы

How Inference Compute Shapes Frontier LLM Evaluation — Jessica McFadyen, Ole Jorgensen, Harry Coppock, Kevin Wei, Cozmin Ududec. UK AI Security Institute (DSIT, London) в партнёрстве с University of Oxford и Harvard University. 2026.

Связанные работы, упомянутые в статье: Inspect AI (инструмент оценки AISI), ReAct framework (Yao et al., 2023), FrontierMath benchmark (Glazer et al., 2024), SWE-Bench Pro (Deng et al., 2025), Humanity's Last Exam (Phan et al., 2025, Center for AI Safety).


📋 Дайджест исследования

Ключевая суть

Парадокс: модель часто и не думала отказываться — её просто остановили слишком рано. Один запрос, один ответ — принял или пошёл заново с нуля. Это как попросить эксперта подумать 30 секунд, забрать листок и уйти. Техника итеративных попыток с явной обратной связью позволяет вытащить из модели решение, которое она уже «знает», но не успела найти. Фишка: сказать «неверно, смени подход» вместо молчаливого «попробуй ещё раз» — удваивает эффект на сложных задачах, потому что модель исключает уже проверенные пути и ищет в другом месте.

Принцип работы

Без сигнала модель может повторить тот же ответ другими словами — формально новая попытка, по сути тот же маршрут. Явное «неверно» — это не мотивация, а сигнал сменить паттерн генерации. Модель исключает уже проверенные ходы и ищет в других частях пространства решений. Именно поэтому «неверно + попробуй иначе» бьёт «попробуй ещё раз» вдвое — направленный поиск против случайного перебора. Три техники работают независимо: расширенный лимит токенов, сжатие длинного диалога через краткое резюме, и итерации с явной обратной связью. Третья — главная.

Почему работает

Модель генерирует ответ и замирает — не знает, попала или нет. Без сигнала продолжает прежним курсом или останавливается вовсе. Ключевой инсайт: больше попыток без обратной связи — стрельба в темноте. С обратной связью — управляемый поиск с исключением уже проверенных путей. На сложных задачах по математике и экспертным знаниям комбинация трёх техник даёт +10–12 процентных пунктов. На медицинских вопросах — почти ноль: там модель упирается в границы своих знаний, а не в нехватку попыток. Больше итераций не добавляет новых знаний — только помогает найти то, что уже есть.

Когда применять

Многошаговые задачи — анализ документов, разбор условий сделок, написание сложного текста, отладка — особенно когда первый ответ кажется поверхностным и ты сам можешь оценить его качество. Для фактических вопросов работает параллельная стратегия: несколько независимых попыток с нуля разными методами, потом выбираешь лучшую. НЕ подходит для задач, где ты сам не знаешь правильного ответа — честный сигнал дать не сможешь, а без него эффект вдвое слабее. Также не помогает на медицинских и узкоспециальных вопросах — там ограничение в знаниях модели, а не в количестве попыток.

Мини-рецепт

1. Объяви правила игры заранее: скажи, как именно будешь реагировать — «верно / неверно / глубже про X». Без этого модель не знает, когда останавливаться и что считать успехом.
2. Задай условие выхода: «Стоп, когда скажу достаточно» или «стоп, когда сам будешь уверен на 90%». Иначе цикл размывается.
3. После каждого ответа — конкретный сигнал, не молчи: чем конкретнее («не хватает расчёта цифр» vs просто «неверно»), тем точнее следующая попытка.
4. Блокируй повторения: добавь «каждая попытка должна отличаться по методу или углу зрения» — иначе получишь тот же ответ другими словами.

Примеры

[ПЛОХО] : Объясни термшит от венчурного фонда
[ХОРОШО] : Я основатель edtech-стартапа, нам прислали предложение по условиям инвестиционной сделки. Объясни, где обычно прячутся невыгодные условия. Начни с первой попытки. После каждого ответа скажу: «верно, копай глубже» / «неверно, смени угол» / «разбери конкретный пункт: [...]». Каждая попытка — другой метод или другой угол зрения. Продолжаем до моего «достаточно». За 3–4 итерации с конкретными сигналами («про liquidation preference поверхностно») получишь разбор под свой сценарий — то, что за один запрос не раскрывается вообще.
Источник: How Inference Compute Shapes Frontier LLM Evaluation
ArXiv ID: 2606.17930 | Сгенерировано: 2026-06-17 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Повтор без явного сигнала об ошибкеГоворишь "попробуй ещё раз" — модель воспроизводит тот же ответ другими словами. Не знает что именно не так. Не меняет подход. Дополнительная попытка тратится впустуюВсегда называй что конкретно не так: "неверно, смени метод" или "этот шаг правильный, ошибка дальше". Добавь явный запрет: "не повторяй предыдущий подход"

Методы

МетодСуть
Итерации с явной обратной связью — для сложных задачСкажи модели ждать твоего сигнала после каждого ответа. Три сигнала: "верно" (стоп), "неверно" (смени подход), "глубже про X" (развей эту часть). Добавь правило: каждая попытка должна отличаться по методу от предыдущей. Почему работает: модель не угадывает куда идти — ты исключаешь уже проверенные направления. Без сигнала ищет случайно, с сигналом — направленно. Когда да: анализ документов, сложные расчёты, многошаговые задачи. Когда нет: ты сам не знаешь правильного ответа и не можешь дать честный сигнал
Параллельные попытки с выбором — для фактических вопросовПопроси решить одну задачу N раз с нуля, разными методами. После всех попыток — сравни. Совпали? Высокая надёжность. Расходятся? Попроси объяснить почему и какому больше доверяет. Почему работает: каждая попытка независима — ошибка одного пути не тянет другой. Совпадение нескольких независимых путей — сильный сигнал правильности. Когда да: фактические вопросы, прогнозы, задачи с одним правильным ответом. Когда нет: задачи где важно накапливать контекст шаг за шагом

Тезисы

ТезисКомментарий
Явный сигнал об ошибке работает в два раза сильнее слепого повтораПросто сказать "ещё раз" — слабый сигнал. Сказать "неверно, этот путь не работает" — сильный. Разница в том что модель получает направление: исключить уже проверенное и искать в другом месте. Без этого сигнала модель не знает что именно провалилось. Применяй: вместо "попробуй снова" пиши "неверно — [что именно не так] — попробуй другим способом"
📖 Простыми словами

How InferenceComputeShapes FrontierLLMEvaluation

arXiv: 2606.17930

Современные нейросети тупеют не от недостатка знаний, а от того, что их заставляют выдавать ответ с первой попытки. Фундаментальная механика тут простая: LLM — это не калькулятор, который сразу выдает верное число, а скорее поток сознания. Если модель ошибается в начале рассуждения, она обречена нести чушь до самого конца, потому что у нее нет встроенного механизма «стоп, я лажаю». Исследование доказывает, что вычислительная мощность на этапе вывода (Inference Compute) — это не просто скорость генерации текста, а возможность модели итерировать, пробовать разные пути и исправлять косяки на лету.

Это как если бы ты заставил архитектора нарисовать проект небоскреба одним росчерком пера, не отрывая руки от бумаги. Формально он что-то изобразит, но здание рухнет при первом же ветре. Чтобы получилось круто, ему нужно право на черновики, ластик и возможность выбросить неудачный эскиз в корзину. Когда мы даем модели дополнительные циклы размышлений, мы по сути даем ей тот самый ластик и время подумать над альтернативами, вместо того чтобы выдавать первую пришедшую в голову чепуху.

В работе выделяют три конкретных рычага, но самый мощный — это внешняя обратная связь. Если просто сказать модели «попробуй еще раз», она, скорее всего, наступит на те же грабли. Но если сообщить ей, правильный ответ или нет, эффективность решения сложных задач взлетает в два раза. Работают и другие методы: Best-of-N (генерируем 10 вариантов и выбираем лучший) и Beam Search (отсекаем тупиковые ветки рассуждений еще в процессе). Суть одна: чем больше ресурсов мы тратим на «обдумывание» конкретного ответа, тем умнее кажется модель.

Принцип универсален и применим везде, где цена ошибки высока — от написания кода до разбора сложных юридических контрактов. Тестировали это на математике и логике, но в жизни это работает так же: если тебе нужно проанализировать структуру сделки, не соглашайся на первый поверхностный ответ. Заставляй модель итерировать и проверять себя. Разница между «просто спросить» и «заставить перепроверить с обратной связью» — это пропасть между бесполезным набором слов и реально работающим решением.

Короче: пора перестать оценивать нейронки по их «базовому» интеллекту и начать смотреть на то, как они умеют исправлять свои ошибки. Главный вывод исследования — интеллект масштабируется через итерации. Если задача сложная, не жди чуда от одного промпта: внедряй проверку ответов и давай модели право на вторую попытку. Кто научится правильно нагружать модель вычислениями в процессе диалога, тот получит результаты уровня эксперта там, где остальные упрутся в галлюцинации.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с