3,583 papers
arXiv:2605.08478 78 8 мая 2026 г. FREE

K-Shot против Агента: несколько независимых попыток бьют долгую итерацию

КЛЮЧЕВАЯ СУТЬ
'Улучши ещё раз' — и после пятой итерации вы держите в руках чуть другую версию первого ответа. Не потому что модель ленится — потому что она генерирует текст похожий на то, что уже написала: предыдущий ответ стоит прямо у неё перед глазами. K-Shot позволяет получить принципиально разные варианты вместо вариаций одной идеи. Каждая попытка запускается в чистом контексте — без знания о предыдущих. Простая математика: 5 запусков с вероятностью успеха 30% каждый дают суммарно 83% вместо исходных 30% — за счёт формулы 1-(1-P)^N.
Адаптировать под запрос

TL;DR

Несколько свежих попыток "с нуля" часто дают лучший результат, чем одна долгая сессия, где модель итеративно "улучшает" ответ. Механика простая: запустить одну и ту же задачу N раз независимо, без связи между попытками, и выбрать лучший вариант.

Главная боль: вы просите модель "доработай это", она правит, вы просите "ещё раз улучши" — и через 5 шагов получаете чуть другую версию первого ответа. Модель буксует в контексте, который сама же создала: каждая следующая правка опирается на предыдущую, а не ищет принципиально новое решение.

Исследование показывает: когда у вас ограниченный бюджет попыток или времени, брать одну задачу и N раз запускать её независимо — статистически выгоднее, чем давать модели "думать дольше" в рамках одного разговора. Простая математика: N независимых выстрелов покрывают больше пространства решений, чем один долгий маршрут.


🔬

Схема метода

Всё происходит вручную — это стратегия работы, не один промпт.

ШАГ 1: Сформулируй задачу + критерий "хорошего ответа"
ШАГ 2: НОВЫЙ чат (или очищенный контекст) → та же задача → вариант 1
ШАГ 3: ЕЩЁ ОДИН новый чат → та же задача → вариант 2
        ... повтори N раз (обычно 3-7)
ШАГ 4: Разложи варианты рядом → выбери по критерию → готово

⚠️ Ключевое: каждая попытка — без знания о предыдущих
⚠️ Если нет времени на отдельные чаты — в одном чате 
   попроси N полностью независимых вариантов сразу

🚀

Пример применения

Задача: Максим Спиридонов (основатель Нетологии) просит написать питч-линию для нового онлайн-курса по AI-инструментам. Нужно одно предложение, которое зацепит предпринимателей в Telegram-канале.

Обычный инстинкт: написать черновик → попросить улучшить → ещё раз улучшить → получить чуть другой черновик.

Промпт (запускается в N отдельных чатах или одним блоком):

Напиши питч-линию для Telegram-анонса курса по AI-инструментам 
для предпринимателей. Одно предложение, максимум 20 слов.

Курс: за 4 недели предприниматели учатся делегировать рутину 
AI-инструментам и освобождают 10+ часов в неделю.

Аудитория: собственники малого бизнеса, 25-45 лет, устали 
от операционки, хотят масштаб.

Критерий хорошего результата: должно провоцировать мысль 
"это про меня", не звучать как реклама курса.

Это попытка №{номер}. Пиши с нуля, не оглядывайся на 
предыдущие варианты.

Результат:

Каждый запуск выдаст принципиально разный угол: один — через боль ("каждый день тушишь пожары..."), другой — через мечту ("что, если понедельник — это стратегия, не WhatsApp..."), третий — через парадокс. После 5-7 итераций у вас будет набор несхожих вариантов, из которых можно выбрать или скомбинировать лучшее. Это принципиально отличается от "улучши ещё раз" — там вы получите вариации одной темы.


🧠

Почему это работает

Модель застревает в контексте собственных слов. Когда она видит свой предыдущий ответ, каждое следующее предложение строится на нём как на фундаменте. Это не рефлексия — это генерация текста, который "похож на то, что уже написано". Новые идеи появляются реже, чем кажется.

Свежий старт = другой маршрут. Без накопленного контекста модель идёт по другому пути к ответу. Математически: N независимых попыток с вероятностью успеха P каждая дают суммарную вероятность 1-(1-P)^N. Это растёт быстро. Одна попытка с "улучшениями" внутри того же контекста работает почти как одна попытка — маршрут тот же.

Агенты в исследовании проваливались по предсказуемым причинам: они крутились по одному кругу (попробовали решение → не получилось → немного изменили → та же идея), фокусировались на симптомах вместо причины, не находили нестандартный ход. Это то же самое, что происходит в вашем чате при 10-м "улучши, пожалуйста". Независимая попытка ломает этот цикл.

Рычаги управления: - N (количество попыток) — для важных задач 5-7, для быстрых 3 - Явный критерий оценки в промпте — чем точнее критерий, тем легче выбрать лучший вариант - Температура разнообразия — попросите "дай неожиданный/нестандартный угол" в части попыток - Отдельные чаты vs. один чат — отдельные дают чище независимость, один чат с инструкцией "с нуля" даёт 80% эффекта


📋

Шаблон промпта

Для варианта "N попыток в одном чате":

Задача: {конкретная задача одной фразой}

Контекст: {что важно знать — 2-4 предложения}

Аудитория / получатель: {кто это читает / использует}

Критерий хорошего результата: {как ты поймёшь, что ответ удался}

Дай {число} полностью независимых вариантов. Каждый — с нуля, 
разные углы, разные идеи. Не улучшай предыдущие — противоречь им.

Пронумеруй. После всех вариантов — 1-2 предложения: 
какой сильнее и почему.

Плейсхолдеры: - {конкретная задача} — "написать заголовок письма", "придумать название", "сформулировать оффер" - {число} — 3 для быстрых задач, 5-7 для важных - {критерий} — это ключевое поле: "должно звучать как живой разговор, не реклама", "максимум 10 слов", "должно вызывать вопрос, не ответ"


🚀 Быстрый старт — вставь в чат:

Вот шаблон стратегии независимых попыток. Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про критерий хорошего результата и количество вариантов — потому что без этого она не знает, по какому принципу делать попытки "разными" и как оценить лучшую.


⚠️

Ограничения

⚠️ Работает только для самодостаточных задач. Если задача требует накопленного контекста — история переговоров, специфика вашего бизнеса, детали которые нужно учесть — свежий старт теряет весь этот контекст. Метод для задач, которые можно решить "с нуля".

⚠️ Нужен чёткий критерий выбора. Если вы не можете сформулировать, что делает один вариант лучше другого, вы просто получите N разных текстов и будете растеряны. Чем субъективнее задача — тем ниже эффект.

⚠️ Итерация не всегда враг. Если вам нужно учесть конкретную обратную связь ("убери корпоративный тон из второго абзаца") — это работа на итерацию, не на независимые запуски. Метод про разнообразие, не про уточнение.

⚠️ Исследование проводилось на задачах с объективной проверкой (код либо работает, либо нет). Для текстовых задач эффект скорее всего тоже есть, но точных данных нет.


🔍

Как исследовали

Исследователи из Принстона взяли 216 задач с Codeforces — соревновательная платформа по программированию — и проверили три стратегии при одинаковом бюджете. Первая: запустить задачу N раз независимо и взять первое правильное решение (k-shot). Вторая: дать одному агенту весь бюджет и пусть итерирует с доступом к терминалу. Третья: разделить бюджет между тремя независимыми агентами.

Интересно, что они мерили не просто "решил / не решил", а сколько задач решается на каждый потраченный доллар — то есть эффективность, а не максимум. Это честная бизнес-метрика.

Результат оказался неожиданным: k-shot во всех моделях и на всех уровнях сложности бил агентов — и по деньгам, и по количеству вызовов модели. Агенты не просто стоили дороже — они были менее эффективны буквально за каждый запрос. Когда провели анализ провальных агентских сессий, выяснилось: почти 20% отказов — это концептуально неправильный алгоритм (не смогли найти нужный подход), ещё по ~7% — бег по кругу и неэффективная отладка. Агент видел что не работает, но не мог выйти за рамки уже выбранного пути. Независимая новая попытка эту ловушку обходит автоматически.


📄

Оригинал из исследования

Как авторы формулируют главный вывод:

"k-shot inference consistently achieves a superior accuracy–cost and 
accuracy–query tradeoff compared to agent-based approaches"

"agents are less effective per model invocation, despite benefiting from 
iterative refinement and tool access"

"independent k-shot attempts naturally emphasize exploration, allowing rare 
but correct solution paths to be discovered early at relatively low cost"

Формула метрики (для понимания логики, не для применения):

Оптимальная стратегия = максимизировать:
−ln(1 − p) / cost_per_attempt

где p = вероятность успеха одной попытки

Проще говоря: выбирай метод, который даёт максимум "log-шанса успеха" за каждый потраченный рубль. Если один свежий запрос дешевле и при этом даёт сравнимый шанс успеха — повторяй его, не строй агента.

Контекст: Исследователи сравнивали k-shot с SWE-agent (реальный агентный фреймворк с доступом к терминалу) на задачах Codeforces при бюджете до $2 на задачу.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: "Параллельные версии" для контента

Та же логика работает для любого контента с чётким критерием успеха — заголовки, офферы, темы писем, сценарии видео.

Напиши {число} версий {тип контента} для {аудитория}.

{краткий контекст задачи}

Правила для версий:
— Каждая с нуля, разные углы
— Версия 1: через боль / проблему
— Версия 2: через желаемый результат  
— Версия 3: через парадокс или неожиданное сравнение
— Версия 4: максимально просто, без умных слов
— Версия 5: провокационно, на грани

Критерий: {что должно вызвать у читателя}

После всех версий — какая сильнее и почему.

📌

🔧 Техника: Роль судьи после попыток

После получения N вариантов — попросите ту же модель выступить судьёй:

Вот {число} вариантов {тип контента}:

[вставить все варианты]

Критерий оценки: {критерий}
Аудитория: {аудитория}

Оцени каждый по критерию 1-10. Объясни что работает и что нет. 
Предложи гибрид лучших элементов.

Это убирает необходимость самому сравнивать N вариантов вручную. Модель выступает редактором, а не автором.


📌

🔧 Техника: Ограниченная итерация (обоснованная)

Исследование показывает: агенты не плохи — они плохи при неограниченном времени и бюджете. Если дать агенту жёсткий лимит шагов — эффективность растёт.

Применение в чате:

Реши задачу: {задача}

Правило: максимум 3 попытки улучшения. После каждой оценивай: 
стал ли ответ принципиально лучше или только поверхностно другим? 
Если поверхностно — остановись и признай это.

Это заставляет модель осознанно остановить "цикл без прорыва".


🔗

Ресурсы

Работа: When Independent Sampling Outperforms Agentic Reasoning

Авторы: Yihe Dong, Boris Shigida (Princeton University)

Код: https://github.com/princeton-pli/competitive-programming-agents

Платформа оценки: Codeforces (https://codeforces.com/)

Агент в экспериментах: SWE-agent (Yang et al., 2024)


📋 Дайджест исследования

Ключевая суть

'Улучши ещё раз' — и после пятой итерации вы держите в руках чуть другую версию первого ответа. Не потому что модель ленится — потому что она генерирует текст похожий на то, что уже написала: предыдущий ответ стоит прямо у неё перед глазами. K-Shot позволяет получить принципиально разные варианты вместо вариаций одной идеи. Каждая попытка запускается в чистом контексте — без знания о предыдущих. Простая математика: 5 запусков с вероятностью успеха 30% каждый дают суммарно 83% вместо исходных 30% — за счёт формулы 1-(1-P)^N.

Принцип работы

Итерация в одном чате — это не поиск нового решения. Это шлифовка одной идеи. Модель строит каждое следующее предложение на предыдущем как на фундаменте: видит то, что написала, и генерирует что-то похожее. Это не рефлексия — это инерция. Свежий контекст ведёт по другому маршруту к ответу — не улучшенная копия, а новый путь. Поэтому стратегия простая: не 'улучши', а 'сделай заново с нуля' — в отдельных чатах или с явной инструкцией 'противоречь предыдущим вариантам' в одном.

Почему работает

Агентурная итерация проваливается предсказуемо: модель пробует решение, не получается, чуть меняет — и возвращается к той же идее с другой стороны. Фокусируется на симптомах, не находит нестандартный ход. Это тот же цикл, что происходит в вашем чате при десятом 'пожалуйста, исправь'. Независимые попытки ломают цикл — не через везение, а через охват пространства решений: каждый маршрут исследует другую часть карты. Исследование проверяло это на задачах с объективной оценкой — код либо работает, либо нет. Для текстовых задач точных цифр нет, но механика та же.

Когда применять

Творческие и текстовые задачи → для питч-линий, заголовков, офферов, названий, концепций — когда нужно найти лучший угол, а не уточнить детали. Особенно когда уже попросил 'улучши' три раза и получаешь одно и то же. НЕ подходит для задач с накопленным контекстом: история переговоров, специфика бизнеса, обратная связь типа 'убери корпоративный тон из второго абзаца'. Там нужна итерация, а не разнообразие. Метод для задач, которые можно решить с нуля.

Мини-рецепт

1. Сформулируй критерий: что делает ответ хорошим — это ключевое поле. Без него получишь N разных текстов и растеряешься. 'Звучит как живой разговор, не реклама' лучше чем 'хороший питч'.
2. Выбери N: 3 для быстрых задач, 5-7 для важных решений.
3. Запускай попытки: каждая в новом чате — это даёт чистую независимость. Нет времени на отдельные чаты — в одном чате попроси N вариантов с нуля: дай {число} полностью независимых вариантов, каждый — с нуля, разные углы, противоречь предыдущим.
4. Разложи и выбирай: оцени по критерию из шага 1 — выбирай лучший или комбинируй.

Примеры

[ПЛОХО] : Написал питч для курса по AI-инструментам — улучши его
[ХОРОШО] : Напиши 5 питч-линий для Telegram-анонса курса по AI-инструментам для предпринимателей. Каждая — с нуля, разный угол. Аудитория: собственники малого бизнеса, устали от операционки. Критерий: должно вызывать мысль 'это про меня', не звучать как реклама. Противоречь предыдущим вариантам — не шлифуй, а ищи другой заход.
Источник: When Independent Sampling Outperforms Agentic Reasoning
ArXiv ID: 2605.08478 | Сгенерировано: 2026-05-12 05:45

Проблемы LLM

ПроблемаСутьКак обойти
Модель застревает в контексте собственных ответовПросишь "улучши" — получаешь вариацию первого ответа. Модель видит свой предыдущий текст и строит на нём следующий. Это не рефлексия. Это генерация "похожего на то, что уже есть". Принципиально новый угол появляется редко. Проблема для любых задач: тексты, идеи, формулировкиЗапускай задачу заново с чистого контекста. Каждая новая попытка — другой маршрут к ответу. Не "улучши", а "напиши с нуля"

Методы

МетодСуть
N независимых попыток вместо итерацийЗапускаешь одну и ту же задачу N раз. Каждый раз — новый чат или явная инструкция "с нуля, не опирайся на предыдущее". Варианты не связаны между собой. После — выбираешь лучший по критерию. Шаблон в одном чате: Дай {число} полностью независимых вариантов. Каждый — с нуля, разные углы. Не улучшай предыдущие — противоречь им. После — скажи какой сильнее и почему. Почему работает: N независимых попыток с вероятностью успеха P каждая дают 1-(1-P)^N. Покрывают разные части пространства решений. Итерации в одном контексте этого не дают. Когда применять: самодостаточные задачи (нужен чёткий критерий выбора), нужно разнообразие идей, а не уточнение деталей. Не работает: задача требует накопленного контекста, нужно учесть конкретную правку ("убери этот абзац")
📖 Простыми словами

When Independent Sampling OutperformsAgenticReasoning

arXiv: 2605.08478

Суть в том, что современные нейронки гораздо тупее, чем мы привыкли думать. Когда ты просишь модель «подумать еще раз» или «исправить ошибки» в рамках одного чата, она не анализирует свои косяки как живой человек. Она просто застревает в контексте собственных слов. Каждое следующее предложение намертво привязано к предыдущему бреду, и модель превращается в заложника своего же текста. Вместо реального улучшения она просто пережевывает старую жвачку, пытаясь сделать её чуть более презентабельной.

Это как если бы ты попросил пьяного друга пересказать сюжет фильма. Если он начал нести чушь, то сколько бы ты ни просил его «собраться и уточнить детали», он будет просто наваливать новые слои абсурда поверх старых. Но если ты выставишь его за дверь, приведешь его же, но трезвого, и попросишь начать заново — результат будет в разы лучше. Независимые попытки работают именно так: они обнуляют «пьяный» контекст и дают шанс на чистый старт.

Метод независимого сэмплирования — это когда ты запускаешь одну и ту же задачу 10 раз в разных окнах, а потом выбираешь жемчужину. Например, тебе нужен убойный питч для курса по AI. Вместо того чтобы мучить одну модель правками типа «добавь огня» или «сделай короче», ты просто генерируешь 20 вариантов с нуля. Статистика говорит, что среди этих двадцати «свежих» попыток найдется одна идеальная, которая на голову выше любого результата долгой и нудной «работы над ошибками».

Исследователи гоняли этот принцип на сложных задачах, но он применим везде: от написания кода до придумывания заголовков в Telegram. Это смерть агентного подхода в тех местах, где важна точность, а не процесс. Оказывается, что «тупой» перебор вариантов (N-sampling) эффективнее, чем хваленая «рефлексия» и итеративное улучшение. Модели проще родить шедевр с чистого листа, чем вытащить себя за волосы из болота собственного неудачного контекста.

Короче: хватит играть в «учителя» и заставлять нейронку переделывать работу в одном диалоге. Это пустая трата токенов и твоего времени. Если результат не зашел с первого-второго раза — сноси чат к чертям и запускай генерацию пачкой. Количество независимых попыток бьет качество глубоких раздумий в 9 из 10 случаев. Просто выбери лучший вариант из кучи свежих и забудь про «агентские» муки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с