TL;DR
Несколько свежих попыток "с нуля" часто дают лучший результат, чем одна долгая сессия, где модель итеративно "улучшает" ответ. Механика простая: запустить одну и ту же задачу N раз независимо, без связи между попытками, и выбрать лучший вариант.
Главная боль: вы просите модель "доработай это", она правит, вы просите "ещё раз улучши" — и через 5 шагов получаете чуть другую версию первого ответа. Модель буксует в контексте, который сама же создала: каждая следующая правка опирается на предыдущую, а не ищет принципиально новое решение.
Исследование показывает: когда у вас ограниченный бюджет попыток или времени, брать одну задачу и N раз запускать её независимо — статистически выгоднее, чем давать модели "думать дольше" в рамках одного разговора. Простая математика: N независимых выстрелов покрывают больше пространства решений, чем один долгий маршрут.
Схема метода
Всё происходит вручную — это стратегия работы, не один промпт.
ШАГ 1: Сформулируй задачу + критерий "хорошего ответа"
ШАГ 2: НОВЫЙ чат (или очищенный контекст) → та же задача → вариант 1
ШАГ 3: ЕЩЁ ОДИН новый чат → та же задача → вариант 2
... повтори N раз (обычно 3-7)
ШАГ 4: Разложи варианты рядом → выбери по критерию → готово
⚠️ Ключевое: каждая попытка — без знания о предыдущих
⚠️ Если нет времени на отдельные чаты — в одном чате
попроси N полностью независимых вариантов сразу
Пример применения
Задача: Максим Спиридонов (основатель Нетологии) просит написать питч-линию для нового онлайн-курса по AI-инструментам. Нужно одно предложение, которое зацепит предпринимателей в Telegram-канале.
Обычный инстинкт: написать черновик → попросить улучшить → ещё раз улучшить → получить чуть другой черновик.
Промпт (запускается в N отдельных чатах или одним блоком):
Напиши питч-линию для Telegram-анонса курса по AI-инструментам
для предпринимателей. Одно предложение, максимум 20 слов.
Курс: за 4 недели предприниматели учатся делегировать рутину
AI-инструментам и освобождают 10+ часов в неделю.
Аудитория: собственники малого бизнеса, 25-45 лет, устали
от операционки, хотят масштаб.
Критерий хорошего результата: должно провоцировать мысль
"это про меня", не звучать как реклама курса.
Это попытка №{номер}. Пиши с нуля, не оглядывайся на
предыдущие варианты.
Результат:
Каждый запуск выдаст принципиально разный угол: один — через боль ("каждый день тушишь пожары..."), другой — через мечту ("что, если понедельник — это стратегия, не WhatsApp..."), третий — через парадокс. После 5-7 итераций у вас будет набор несхожих вариантов, из которых можно выбрать или скомбинировать лучшее. Это принципиально отличается от "улучши ещё раз" — там вы получите вариации одной темы.
Почему это работает
Модель застревает в контексте собственных слов. Когда она видит свой предыдущий ответ, каждое следующее предложение строится на нём как на фундаменте. Это не рефлексия — это генерация текста, который "похож на то, что уже написано". Новые идеи появляются реже, чем кажется.
Свежий старт = другой маршрут. Без накопленного контекста модель идёт по другому пути к ответу. Математически: N независимых попыток с вероятностью успеха P каждая дают суммарную вероятность 1-(1-P)^N. Это растёт быстро. Одна попытка с "улучшениями" внутри того же контекста работает почти как одна попытка — маршрут тот же.
Агенты в исследовании проваливались по предсказуемым причинам: они крутились по одному кругу (попробовали решение → не получилось → немного изменили → та же идея), фокусировались на симптомах вместо причины, не находили нестандартный ход. Это то же самое, что происходит в вашем чате при 10-м "улучши, пожалуйста". Независимая попытка ломает этот цикл.
Рычаги управления: - N (количество попыток) — для важных задач 5-7, для быстрых 3 - Явный критерий оценки в промпте — чем точнее критерий, тем легче выбрать лучший вариант - Температура разнообразия — попросите "дай неожиданный/нестандартный угол" в части попыток - Отдельные чаты vs. один чат — отдельные дают чище независимость, один чат с инструкцией "с нуля" даёт 80% эффекта
Шаблон промпта
Для варианта "N попыток в одном чате":
Задача: {конкретная задача одной фразой}
Контекст: {что важно знать — 2-4 предложения}
Аудитория / получатель: {кто это читает / использует}
Критерий хорошего результата: {как ты поймёшь, что ответ удался}
Дай {число} полностью независимых вариантов. Каждый — с нуля,
разные углы, разные идеи. Не улучшай предыдущие — противоречь им.
Пронумеруй. После всех вариантов — 1-2 предложения:
какой сильнее и почему.
Плейсхолдеры:
- {конкретная задача} — "написать заголовок письма", "придумать название", "сформулировать оффер"
- {число} — 3 для быстрых задач, 5-7 для важных
- {критерий} — это ключевое поле: "должно звучать как живой разговор, не реклама", "максимум 10 слов", "должно вызывать вопрос, не ответ"
🚀 Быстрый старт — вставь в чат:
Вот шаблон стратегии независимых попыток. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про критерий хорошего результата и количество вариантов — потому что без этого она не знает, по какому принципу делать попытки "разными" и как оценить лучшую.
Ограничения
⚠️ Работает только для самодостаточных задач. Если задача требует накопленного контекста — история переговоров, специфика вашего бизнеса, детали которые нужно учесть — свежий старт теряет весь этот контекст. Метод для задач, которые можно решить "с нуля".
⚠️ Нужен чёткий критерий выбора. Если вы не можете сформулировать, что делает один вариант лучше другого, вы просто получите N разных текстов и будете растеряны. Чем субъективнее задача — тем ниже эффект.
⚠️ Итерация не всегда враг. Если вам нужно учесть конкретную обратную связь ("убери корпоративный тон из второго абзаца") — это работа на итерацию, не на независимые запуски. Метод про разнообразие, не про уточнение.
⚠️ Исследование проводилось на задачах с объективной проверкой (код либо работает, либо нет). Для текстовых задач эффект скорее всего тоже есть, но точных данных нет.
Как исследовали
Исследователи из Принстона взяли 216 задач с Codeforces — соревновательная платформа по программированию — и проверили три стратегии при одинаковом бюджете. Первая: запустить задачу N раз независимо и взять первое правильное решение (k-shot). Вторая: дать одному агенту весь бюджет и пусть итерирует с доступом к терминалу. Третья: разделить бюджет между тремя независимыми агентами.
Интересно, что они мерили не просто "решил / не решил", а сколько задач решается на каждый потраченный доллар — то есть эффективность, а не максимум. Это честная бизнес-метрика.
Результат оказался неожиданным: k-shot во всех моделях и на всех уровнях сложности бил агентов — и по деньгам, и по количеству вызовов модели. Агенты не просто стоили дороже — они были менее эффективны буквально за каждый запрос. Когда провели анализ провальных агентских сессий, выяснилось: почти 20% отказов — это концептуально неправильный алгоритм (не смогли найти нужный подход), ещё по ~7% — бег по кругу и неэффективная отладка. Агент видел что не работает, но не мог выйти за рамки уже выбранного пути. Независимая новая попытка эту ловушку обходит автоматически.
Оригинал из исследования
Как авторы формулируют главный вывод:
"k-shot inference consistently achieves a superior accuracy–cost and
accuracy–query tradeoff compared to agent-based approaches"
"agents are less effective per model invocation, despite benefiting from
iterative refinement and tool access"
"independent k-shot attempts naturally emphasize exploration, allowing rare
but correct solution paths to be discovered early at relatively low cost"
Формула метрики (для понимания логики, не для применения):
Оптимальная стратегия = максимизировать:
−ln(1 − p) / cost_per_attempt
где p = вероятность успеха одной попытки
Проще говоря: выбирай метод, который даёт максимум "log-шанса успеха" за каждый потраченный рубль. Если один свежий запрос дешевле и при этом даёт сравнимый шанс успеха — повторяй его, не строй агента.
Контекст: Исследователи сравнивали k-shot с SWE-agent (реальный агентный фреймворк с доступом к терминалу) на задачах Codeforces при бюджете до $2 на задачу.
Адаптации и экстраполяции
💡 Адаптация: "Параллельные версии" для контента
Та же логика работает для любого контента с чётким критерием успеха — заголовки, офферы, темы писем, сценарии видео.
Напиши {число} версий {тип контента} для {аудитория}.
{краткий контекст задачи}
Правила для версий:
— Каждая с нуля, разные углы
— Версия 1: через боль / проблему
— Версия 2: через желаемый результат
— Версия 3: через парадокс или неожиданное сравнение
— Версия 4: максимально просто, без умных слов
— Версия 5: провокационно, на грани
Критерий: {что должно вызвать у читателя}
После всех версий — какая сильнее и почему.
🔧 Техника: Роль судьи после попыток
После получения N вариантов — попросите ту же модель выступить судьёй:
Вот {число} вариантов {тип контента}:
[вставить все варианты]
Критерий оценки: {критерий}
Аудитория: {аудитория}
Оцени каждый по критерию 1-10. Объясни что работает и что нет.
Предложи гибрид лучших элементов.
Это убирает необходимость самому сравнивать N вариантов вручную. Модель выступает редактором, а не автором.
🔧 Техника: Ограниченная итерация (обоснованная)
Исследование показывает: агенты не плохи — они плохи при неограниченном времени и бюджете. Если дать агенту жёсткий лимит шагов — эффективность растёт.
Применение в чате:
Реши задачу: {задача}
Правило: максимум 3 попытки улучшения. После каждой оценивай:
стал ли ответ принципиально лучше или только поверхностно другим?
Если поверхностно — остановись и признай это.
Это заставляет модель осознанно остановить "цикл без прорыва".
Ресурсы
Работа: When Independent Sampling Outperforms Agentic Reasoning
Авторы: Yihe Dong, Boris Shigida (Princeton University)
Код: https://github.com/princeton-pli/competitive-programming-agents
Платформа оценки: Codeforces (https://codeforces.com/)
Агент в экспериментах: SWE-agent (Yang et al., 2024)
