3,583 papers
arXiv:2606.03544 73 2 июня 2026 г. FREE

SAGE: один лучший пример бьёт всю историю попыток

КЛЮЧЕВАЯ СУТЬ
Парадокс: чем больше истории правок даёшь модели при итерации — тем хуже результат. LLM не умеет отделить паттерн победителя от паттерна неудачника в длинном журнале версий. Она просто усредняет всё подряд — включая тупики. Метод Top-1 trace позволяет вырваться из петли бесполезных улучшений — показываешь один лучший внешний пример вместо всей истории попыток. Модель извлекает паттерн из эталона и переносит на твою задачу — вместо двадцатой версии «улучшенного» шаблона получаешь что-то, скалиброванное по настоящему работающему образцу.
Адаптировать под запрос

TL;DR

Когда модель итерирует задачу и заходит в тупик — помогает не больше попыток и не вся история чужого опыта, а один конкретный пример лучшего результата. Показ модели полной истории всех предыдущих попыток (своих или чужих) часто не помогает или активно вредит — модель теряется в шуме. Показ единственного топового примера или даже простого сигнала "этот вариант набрал 9/10" работает лучше, чем весь контекст разом.

Главная находка: "Больше контекста = лучше" — неверное допущение. Когда ты итеративно улучшаешь текст/идею и вставляешь в чат все предыдущие версии, модель получает полный журнал — включая слабые варианты, тупики и повторения. Это не помогает отличить паттерн победителя от паттерна неудачника. Модель скользит по всему корпусу, а не концентрируется на лучшем.

Исследование сравнило пять форматов подачи "чужого опыта": полная история, только рейтинг/оценки, один лучший пример, сжатое резюме, и ничего. Один лучший пример (Top-1 trace) и сигнал рейтинга (только оценка без деталей) стабильно превосходили полную историю. Сжатое резюме проигрывало — слишком абстрактное, нет конкретики для действия.


📌

Схема принципа

(Это не промпт-техника с фиксированными шагами — это принцип подачи контекста при итерации)

КОГДА: задача требует нескольких раундов улучшений (текст, идеи, планы)

СТАНДАРТНЫЙ ПОДХОД — не работает эффективно:
[Попытка 1] → [Попытка 2] → [Попытка 3] → "улучши это" 
→ Модель получает весь шум, включая неудачи

ПРИНЦИП ИЗ SAGE — работает лучше:
Шаг 1: Найди ОДИН лучший внешний пример → вставь его целиком  
ИЛИ
Шаг 1: Дай сигнал качества без деталей → "вот лучший вариант, он набрал 9/10 по критериям X"
Шаг 2: Дай свою задачу → "сделай так же / лучше"

Оба шага — в одном сообщении.

🚀

Пример применения

Задача: Ты пишешь описание своего Telegram-канала для спонсоров — того, кто рекламирует у тебя. Три раза переделывал с Claude, выходит всё тот же унылый "контент-маркетинг для предпринимателей". Нужно выбиться из шаблона.

Промпт:

Вот пример описания канала, которое реально цепляет спонсоров — 
я видел его у [Александра Горного / Ильи Красинского / другого человека 
на слуху], оно набирало отклики в 3-4 раза выше среднего по рынку:

---
[Вставляешь ОДИН конкретный пример описания, который тебе нравится — 
из чужого медиа-кита, открытого питча, телеграм-поста]
---

Моя аудитория: [описание]. Моя тема: [описание]. 
Напиши описание для спонсорского медиа-кита в похожей логике — 
конкретно, без "экосистем" и "синергий".

Результат: Модель берёт структуру и тон конкретного примера и применяет к твоей теме. Ты не получаешь "улучшенный вариант попытки №3" — ты получаешь вариант, скалиброванный по настоящему работающему образцу. Разница как между "сделай лучше это" и "сделай как вот то, только про моё".


🧠

Почему это работает

Слабость LLM при итерации: Когда ты говоришь "улучши" и вставляешь все предыдущие версии, модель видит всю историю попыток разом. Она не знает, что из этого было хорошим шагом, а что — тупиком. Нет метки "это правильное направление". Модель усредняет.

Сильная сторона LLM: Модель отлично работает с явными примерами. Если ей показать один конкретный образец с пометкой "это работает" — она извлекает паттерн и переносит на новый контекст. Это то, что в исследовании называют абстракцией переносимого знания.

Как принцип использует это: Вместо "вот весь мой путь к хорошему результату" — "вот сам хороший результат". Модель не тратит ресурс на фильтрацию плохих примеров. Она сразу работает с эталоном. Один сильный образец даёт больше сигнала, чем десять средних.

Рычаги управления: - Качество примера → чем точнее пример твоей задачи, тем лучше перенос. Пример из смежной ниши — работает хуже, но всё равно лучше чем без примера - Пояснение почему пример хорош → добавь "особенно цепляет X" — модель усилит именно это - Сигнал без деталей → если нет хорошего примера, попробуй: "Критерий успеха — [конкретная метрика], лучший вариант из тех, что я видел, набирал 9/10. Ориентируйся на эту планку"


📋

Шаблон промпта

Вот пример {тип контента}, который работает отлично — 
{откуда/почему он хорош: набрал X, понравился Y, решил задачу Z}:

---
{Полный текст одного лучшего примера}
---

Моя задача: {что нужно создать}
Мой контекст: {аудитория, тема, ограничения}

Сделай по похожей логике, но под мой контекст.
Сохрани: {что именно из примера нужно сохранить — тон/структуру/подход}
Измени: {что точно не подходит — терминология, стиль, детали}

Плейсхолдеры: - {тип контента} — описание канала / питч / письмо / пост / оффер - {откуда/почему хорош} — источник и сигнал качества, даже если простой - {Полный текст} — вставляй целиком, не сжимай - {что сохранить/изменить} — чем точнее, тем лучше перенос

🚀 Быстрый старт — вставь в чат:

Помоги применить принцип из SAGE: вместо всех моих прошлых версий 
покажу тебе один хороший внешний пример и попрошу сделать так же.

Моя задача: [твоя задача]

[вставить шаблон выше]

LLM спросит про твой контекст, аудиторию и что именно из примера нужно перенести — потому что без этого перенос будет поверхностным.


⚠️

Ограничения

⚠️ Если ты уже делаешь хорошо: Принцип работает для тех, кто застрял. Если твои итерации и так улучшаются — внешний пример может увести в чужой стиль. Исследование показало: сильнейший агент от чужого опыта не выигрывал, иногда проигрывал.

⚠️ Слишком сжатое резюме не поможет: "Хороший пример — это лаконичный, живой, с конкретикой" — слишком абстрактно. Нужен сам текст, не описание его свойств. Резюме без деталей не даёт модели паттерна для копирования.

⚠️ Зависит от задачи: В открытых творческих задачах (исследование, нестандартный формат) чужой пример помогает меньше — там хорошая саморефлексия и итерация уже дают высокий результат. Лучший эффект — в задачах со стратегией и конкретными критериями (оферы, презентации, переговорные письма).

⚠️ Конкурентные задачи — отдельная история: В конкурентной среде (анализ конкурентов, переговоры) модель учится бороться с конкретным оппонентом, но если оппонент меняется — преимущество исчезает. Не переоценивай перенос.


🔗

Ресурсы

Название: SAGE: A Quantitative Evaluation of Socialized Evolution in Agent Ecosystems

Авторы: Linyue Pan (Tsinghua University), Yaoming Zhu, Lin Qiu, Xuezhi Cao, Xunliang Cai (Meituan, China)

Арены: MLR-Bench, DrugWars, Splendor — три среды для проверки кооперативного и конкурентного обучения агентов

Связанные работы: Reflexion (Shinn et al., 2023), Self-Refine (Madaan et al., 2023), Generative Agents (Park et al., 2023)


📋 Дайджест исследования

Ключевая суть

Парадокс: чем больше истории правок даёшь модели при итерации — тем хуже результат. LLM не умеет отделить паттерн победителя от паттерна неудачника в длинном журнале версий. Она просто усредняет всё подряд — включая тупики. Метод Top-1 trace позволяет вырваться из петли бесполезных улучшений — показываешь один лучший внешний пример вместо всей истории попыток. Модель извлекает паттерн из эталона и переносит на твою задачу — вместо двадцатой версии «улучшенного» шаблона получаешь что-то, скалиброванное по настоящему работающему образцу.

Принцип работы

Стандартный подход: вставить три предыдущих версии и написать «улучши». Модель видит весь путь — и хорошие шаги, и тупики, и повторения. Беда в том, что она не знает, какой из шагов был правильным, а какой — ошибкой. Метки нет. Нет метки — нет различия. Модель усредняет всё, что видит. Принцип SAGE работает иначе: один пример с пометкой «это хорошо» — и модель сразу работает от эталона. Примечательно, что даже просто сигнал без деталей — «этот вариант набрал 9/10» — работает лучше полной истории. Потому что хоть что-то маркирует направление. Главное — не сжатое резюме: оно слишком абстрактное, нет конкретики для переноса.

Почему работает

LLM отлично умеет одно: извлекать паттерн из конкретного примера и переносить на новый контекст. Плохо умеет другое: фильтровать сильный сигнал из толпы слабых. Один топовый пример даёт чистый сигнал — модель видит КАК выглядит успех, а не весь тернистый путь к нему с ошибками посередине. Поэтому «весь контекст» — это не подарок модели, а шум. Чем больше слабых версий в истории, тем сильнее они тянут результат к середине. Один эталон без балласта — и модель не тратит ресурс на фильтрацию мусора.

Когда применять

Итеративные задачи в чате — тексты, офферы, описания, питчи, письма, посты — особенно когда застрял на 3-4 версии и каждая следующая «улучшенная» всё равно ощущается как тот же шаблон другими словами. Хорошо работает для задач с конкретными критериями успеха: оффер, спонсорский питч, переговорное письмо. НЕ подходит: если твои итерации и так дают рост — внешний пример может увести в чужой стиль. Исследование показало: сильнейший агент от чужого опыта не выигрывал, иногда проигрывал.

Мини-рецепт

1. Найди один реально хороший пример. Конкретный, не абстрактный. Из реальной жизни: питч, пост, описание, оффер — то, что тебе самому нравится и, желательно, у кого-то работало.
2. Дай сигнал качества одной фразой: почему пример хорош или что он решил — 'набрал X откликов', 'цепляет потому что Y', 'человек подписался после первого прочтения'.
3. Вставь пример целиком. Не режь, не сжимай, не пересказывай — модели нужна конкретика, не описание её свойств.
4. Дай задачу и контекст: что нужно создать, для кого. Отдельно скажи что из примера сохранить (тон, структуру, подход) и что точно поменять (терминология, детали, стиль).

Примеры

[ПЛОХО] : Вот мои три предыдущие версии описания канала для спонсоров [версия 1][версия 2][версия 3]. Улучши.
[ХОРОШО] : Вот описание канала, которое реально цепляет — видел у [имя автора], оно получало отклики в 3-4 раза выше среднего: [вставляешь полный текст примера] Моя аудитория: предприниматели 30-45, тема: инструменты для роста. Сделай описание в похожей логике под мой контекст. Сохрани: живой тон и конкретные цифры. Убери: всё про 'синергию' и 'экосистему'.
Источник: SAGE: A Quantitative Evaluation of Socialized Evolution in Agent Ecosystems
ArXiv ID: 2606.03544 | Сгенерировано: 2026-06-03 07:27

Проблемы LLM

ПроблемаСутьКак обойти
Модель не различает удачные и неудачные шаги в истории попытокТы итерируешь задачу и вставляешь все предыдущие версии в контекст. Модель видит весь путь разом: удачные ходы, тупики, повторы. Она не знает, что из этого был правильный шаг, а что — ошибка. Нет метки "вот это работало". Модель усредняет всё подряд — и хорошее, и плохое. Результат: улучшение идёт медленнее, чем должноВместо полной истории дай один лучший внешний пример с пометкой "это работает". Или дай числовую оценку без деталей: "лучший вариант набрал 9/10 по критерию X"

Методы

МетодСуть
Один лучший пример вместо полной истории попытокКогда застрял на итерации — не вставляй все прошлые версии. Найди один внешний пример, который решает похожую задачу хорошо. Вставь его целиком. Добавь контекст: откуда пример и почему он хорош. Потом дай свою задачу. Шаблон: Вот пример {тип}, который работает — {почему хорош}: --- {полный текст примера} --- Моя задача: {задача}. Мой контекст: {аудитория, ограничения}. Сделай по похожей логике. Сохрани: {тон/структуру/подход}. Измени: {что не подходит}. Почему работает: Модель хорошо извлекает паттерн из конкретного образца. Плохо — фильтрует шум из большого корпуса. Один эталон = чистый сигнал без примесей. Когда применять: застрял, несколько неудачных итераций, есть хороший внешний пример. Когда не применять: итерации и так улучшаются — чужой пример уведёт в чужой стиль

Тезисы

ТезисКомментарий
Числовая оценка без деталей работает лучше полной истории попытокЕсли нет хорошего внешнего примера — дай просто число. "Лучший вариант набрал 9/10 по критерию X, ориентируйся на эту планку" работает лучше, чем весь журнал предыдущих версий. Почему: числовой сигнал даёт модели якорь качества без шума деталей. Она не тратит ресурс на разбор что было хорошим, а что плохим — она знает куда целиться. Применяй: Вместо "вот мои три попытки, улучши" пиши "критерий успеха — X, лучшее что я видел набирало 9/10. Сделай на ту же планку"
📖 Простыми словами

SAGE: A Quantitative Evaluation of Socialized Evolution inAgentEcosystems

arXiv: 2606.03544

Когда ты просишь нейронку переделать текст или код в пятый раз, она начинает топтаться на месте и выдавать одно и то же унылое мыло. Проблема в том, как устроена память модели: она воспринимает историю правок как единый поток данных, не понимая, где был прорыв, а где — полная лажа. Для неё твои предыдущие черновики — это не ступеньки к успеху, а информационный шум, который тянет её назад к среднему арифметическому. Модель просто не умеет сама отделять зерна от плевел, если ей не ткнуть пальцем в конкретный идеал.

Это как если бы ты учился кататься на скейте, и тебе вместо видео с идеальным прыжком показывали нарезку всех твоих падений за неделю. Вроде бы работа над ошибками, но на деле ты просто запоминаешь, как именно ты падал, и воспроизводишь этот опыт снова. Мозг (и LLM) перегружается мусором, вместо того чтобы сфокусироваться на эталонном движении. В итоге вместо прогресса ты получаешь бесконечный день сурка, где каждая новая итерация — это просто перестановка слов в старой ошибке.

Исследование SAGE четко показывает: чтобы модель реально поумнела, ей не нужна вся история переписки. Ей нужен социальный сигнал — один-единственный пример лучшего результата или хотя бы сухая оценка в духе «этот вариант набрал 9 из 10». Когда ты убираешь из контекста весь мусор и оставляешь только топовый кейс, у модели случается инсайт. Выяснилось, что показ полной истории попыток часто активно вредит результату, потому что нейронка начинает подражать собственным косякам, считая их частью контекста.

Этот принцип универсален: он работает и при написании кода, и при создании рекламных офферов, и в сложных агентских системах. Тестировали на итеративном улучшении задач, но суть одна — фильтрация опыта важнее его объема. Если ты мучаешь ChatGPT, пытаясь выжать из него креатив, не давай ему читать всю вашу переписку. Просто скопируй лучший кусок, скажи: «Вот это — эталон», и проси работать от него. SEO-подход «завалим данными» здесь не катит, здесь работает жесткий отбор.

Короче, хватит кормить модель историей её собственных неудач — это путь в тупик. Хочешь крутой результат — давай ей один лучший пример и четкую метрику успеха, а всё остальное безжалостно удаляй. Меньше контекста, больше качества — это единственный способ заставить AI выпрыгнуть из шаблона. Кто продолжает скармливать модели простыни правок, тот так и будет получать «контент-маркетинг для предпринимателей» вместо живого текста.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с