3,583 papers
arXiv:2603.24639 76 25 мар. 2026 г. FREE

ERL (Experiential Reflective Learning): личная библиотека уроков для прокачки работы с LLM

КЛЮЧЕВАЯ СУТЬ
Показывать модели прошлый успешный диалог как образец — на 23% хуже, чем дать ей выжатое правило из того же диалога. ERL позволяет накапливать личную библиотеку уроков из каждой завершённой задачи и применять их к следующим — без переобучения модели. Фишка: вместо «делай как тогда» ты даёшь принцип «когда встречаешь X — делай Y, избегай Z». Перед каждой новой задачей отбираешь релевантные правила и вставляешь в промпт — модель учитывает именно твой накопленный опыт, а не абстрактные советы.
Адаптировать под запрос

TL;DR

ERL — техника, которая превращает каждую завершённую задачу в урок для следующей. После задачи модель анализирует что сработало или провалилось → формирует эвристику (короткое правило с условием и действием) → сохраняет. Перед новой задачей — достаёт релевантные правила и вставляет в промпт.

Главный инсайт: показывать модели прошлый разговор целиком ("делай как тогда") работает хуже, чем давать дистиллированный урок ("если встречаешь X — делай Y"). Сырой диалог перегружает контекст и теряет суть. Сжатое правило — компактно и переносимо на новые ситуации. Разница в реальных тестах — до 23% в пользу эвристик.

Метод двухфазный. Фаза 1 — после каждой задачи: рефлексия → эвристика в личную базу. Фаза 2 — перед новой задачей: отбор релевантных правил → вставка в промпт. Можно делать вручную в обычном чате.


🔬

Схема метода

Два режима — после задачи и перед задачей. Каждый — отдельный запрос.

ФАЗА 1 — после завершения задачи (отдельный запрос):
  Вход: описание задачи + что делали + результат (успех/провал)
  Шаг 1: Анализ → что именно привело к результату
  Шаг 2: Формулировка → правило вида "Когда [условие] → делай [действие]"
  Выход: структурированная эвристика → сохранить в личный файл

ФАЗА 2 — перед новой задачей (отдельный запрос):
  Вход: новая задача + список накопленных эвристик
  Шаг 1: Оценка релевантности каждой эвристики к задаче
  Шаг 2: Отбор топ-5–10 подходящих
  Выход: эвристики → вставить в системный промпт новой задачи

🚀

Пример применения

Задача: Настя ведёт Telegram-канал про личные финансы. Каждую неделю просит ChatGPT помогать с постами. Часть постов заходит хорошо, часть — падает по охватам. Она хочет, чтобы Claude учился на этом опыте.

Промпт (Фаза 1 — после каждого поста):

Я только что завершила задачу. Помоги извлечь урок.

ЗАДАЧА: написала пост про составление подушки безопасности для аудитории 25–35 лет
РЕЗУЛЬТАТ: провал — охваты в 2 раза ниже среднего, мало репостов

ЧТО ДЕЛАЛИ:
- Начали с определения подушки безопасности
- Дали конкретные цифры (3–6 месячных расходов)
- Предложили открыть накопительный счёт в Сбере
- Закончили призывом "начни сегодня"

Сформируй эвристику по этой структуре:


  
    Что конкретно привело к [РЕЗУЛЬТАТ]? Назови 1–2 главные причины.
  
  
    Условие: Когда [триггер — тип задачи/ситуации]...
    Действие: ...делай [конкретный совет]
    Чего избегать: [антипаттерн из этого опыта]
  

Результат (Фаза 1): Модель выдаст структурированную эвристику. Например, анализ укажет на то, что пост начинался с определения (скучно) и не создавал эмоционального включения. Правило сформулирует: "Когда пост про финансовую дисциплину для молодой аудитории — начинай с боли ('у тебя нет подушки, и вот почему это страшно'), а не с термина. Избегай открывалок-определений."


Промпт (Фаза 2 — перед новым постом):

Я пишу новый пост. Прежде чем начать — оцени мои накопленные уроки.

НОВАЯ ЗАДАЧА: пост про то, как выбрать между ИИС и брокерским счётом

МОИ ЭВРИСТИКИ:
[вставить список сохранённых эвристик из фазы 1]

Шаг 1: Для каждой эвристики оцени релевантность к новой задаче (высокая / средняя / низкая).
Шаг 2: Выбери топ-3 самых релевантных.
Шаг 3: Напиши пост, явно опираясь на выбранные уроки.

Результат (Фаза 2): Сначала модель покажет оценку релевантности каждого правила и объяснит выбор топ-3. Потом напишет пост, в котором будут видны следы применённых уроков — структура, тон, способ открыть текст. Можно попросить явно пометить, какой урок где применился.


🧠

Почему это работает

Проблема: LLM каждый раз начинает с нуля. Даже если ты приложишь прошлый успешный диалог как пример — модель получает стену текста. Она обрабатывает контекст, но не извлекает из него принцип. Сырой диалог полон шума: промежуточные рассуждения, уточнения, итерации. Полезный сигнал тонет.

Сила LLM: Модель отлично следует чётким, компактным правилам "если — то". Такие инструкции она держит в голове и применяет к новой ситуации. Эвристика — это и есть такое правило: условие запуска + рекомендованное действие.

Как метод использует это: Вместо того чтобы пересказывать прошлое, ты дистиллируешь его в принципы. Модель получает не "посмотри что было" а "вот правила, которые работают в твоей области". Плюс — релевантность: не все уроки одинаково полезны для каждой новой задачи. Подсовываешь только те, что подходят к типу задачи сейчас.

Рычаги управления: - Структура эвристики ( + ) → можно упростить до одного предложения для быстрых задач, расширить до нескольких действий для сложных - Количество эвристик в промпте → исследование показало: оптимум 20 для автосистемы, вручную хватает 5–7 - Тип опыта → провалы лучше работают для поисковых/аналитических задач, успехи — для задач-исполнения (написать, сделать, оформить). Если знаешь тип задачи — фильтруй базу соответственно - Условие в эвристике → чем точнее триггер, тем лучше перенос. "Когда аудитория до 35 лет и тема пугает" лучше чем "когда пишу посты"


📋

Шаблон промпта

📌

Шаблон 1 — Генерация эвристики (после задачи)

Извлеки урок из завершённой задачи.

ЗАДАЧА: {описание_задачи}
РЕЗУЛЬТАТ: {успех или провал — и в чём конкретно}
ЧТО ДЕЛАЛИ: {краткое описание подхода, шагов, решений}

Сформируй эвристику:


  
    Что конкретно привело к {результат}? 1–2 причины.
  
  
    Условие: Когда {тип_задачи_или_ситуации}...
    Действие: ...{что делать}
    Избегать: {антипаттерн из этого опыта}
  

Плейсхолдеры: - {описание_задачи} — что хотел получить - {результат} — конкретно: "клиент отклонил КП", "пост набрал 0 репостов", "решение оказалось неверным" - {что делали} — подход, структура, ключевые решения (3–5 пунктов)


🚀

Шаблон 2 — Применение эвристик (перед задачей)

Прежде чем выполнить задачу — оцени накопленные уроки.

ЗАДАЧА: {новая_задача}

МОИ ЭВРИСТИКИ:
{список_эвристик_из_базы}

Шаг 1: Оцени релевантность каждой эвристики: высокая / средняя / низкая.
Укажи почему.

Шаг 2: Выбери топ-{число} самых применимых.

Шаг 3: Выполни задачу, явно опираясь на выбранные уроки.
Отметь в ответе: какой урок где применил.

Плейсхолдеры: - {новая_задача} — конкретно что нужно сделать - {список_эвристик} — скопировать из своего файла - {число} — начни с 3–5, увеличивай по мере роста базы


🚀 Быстрый старт — вставь в чат:

Вот два шаблона ERL для накопления и применения уроков из опыта.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о типе задачи, прошлых попытках и что сработало/нет — потому что без этого не сможет сформулировать точное условие триггера в эвристике.


⚠️

Ограничения

⚠️ Нужна база опыта: Метод не работает с нуля. Первые 5–10 задач ты только накапливаешь эвристики — пользы сразу нет. Чем больше аналогичных задач, тем ценнее библиотека.

⚠️ Слабо работает в непредсказуемых диалогах: Если задача зависит от действий третьей стороны (переговоры, поддержка пользователей с переменным поведением), эвристики помогают нестабильно — урок сработал при одном сценарии, провалился при другом.

⚠️ Релевантность важнее количества: Вставить все накопленные уроки в промпт — контрпродуктивно. В исследовании бездумное добавление большого числа эвристик снижало результат. Отбирай только подходящие к типу текущей задачи.

⚠️ Ручной режим требует дисциплины: Автоматическая система делает это после каждой задачи сама. Вручную нужно помнить запускать фазу 1. Без этой привычки библиотека не растёт.


🔗

Ресурсы

Название: Experiential Reflective Learning for Self-Improving LLM Agents Авторы: Marc-Antoine Allard, Arnaud Teinturier, Victor Xing, Gautier Viaud — Illuin Technology Конференция: ICLR 2026, MemAgents Workshop Связанные работы: ExpeL (Zhao et al., 2024), Reflexion (Shinn et al., 2023), AutoGuide (Fu et al., 2024)


📋 Дайджест исследования

Ключевая суть

Показывать модели прошлый успешный диалог как образец — на 23% хуже, чем дать ей выжатое правило из того же диалога. ERL позволяет накапливать личную библиотеку уроков из каждой завершённой задачи и применять их к следующим — без переобучения модели. Фишка: вместо «делай как тогда» ты даёшь принцип «когда встречаешь X — делай Y, избегай Z». Перед каждой новой задачей отбираешь релевантные правила и вставляешь в промпт — модель учитывает именно твой накопленный опыт, а не абстрактные советы.

Принцип работы

Два режима — два отдельных запроса. После задачи: скармливаешь модели описание задачи + что делал + каков результат → модель формулирует правило вида когда [триггер] → [действие], избегай [антипаттерн] → сохраняешь в файл. Перед новой задачей: вставляешь накопленные правила → модель оценивает релевантность каждого → отбирает топ-3–5 подходящих и выполняет задачу, опираясь именно на них. Важный момент: вставлять все правила подряд — контрпродуктивно. В исследовании бездумная загрузка большого числа уроков снижала результат. Работает только точный отбор.

Почему работает

LLM хорошо следует компактным правилам «если — то». Это её родная стихия. Полный прошлый диалог — не правило, а шум. Промежуточные рассуждения, уточнения, итерации — всё это занимает место в контексте, но ни один из них не является принципом. Эвристика убирает контекст и оставляет только суть: условие запуска и рекомендованное действие. Плюс перенос: правило «когда аудитория до 35 лет и тема пугает — начинай с боли, не с определения» применимо к десяткам похожих задач. Сырой диалог — только к одной.

Когда применять

Повторяющиеся задачи одного типа → особенно для написания текстов, анализа данных, подготовки коммерческих предложений, разбора кода — когда задачи похожи друг на друга и хочется, чтобы каждая следующая шла лучше предыдущей. Провалы лучше конвертируются в уроки для поисковых и аналитических задач. Успехи — для задач исполнения: написать, оформить, сделать. Не подходит для: переговоров и поддержки пользователей с непредсказуемым поведением — урок из одного сценария плохо переносится на другой, когда всё зависит от третьей стороны.

Мини-рецепт

1. Сразу после задачи — фаза рефлексии: вставь шаблон с описанием задачи, что делал и каков результат. Модель вернёт структурированное правило в формате когда [триггер] → [действие], избегай [антипаттерн]. Это и есть урок.

2. Сохраняй в файл: Notion, Google Doc или обычный текстовый файл. Один урок — одна запись. Нумеруй. Без этой привычки библиотека не растёт — метод не заработает.

3. Перед новой задачей — фаза применения: вставь список накопленных уроков и попроси модель выбрать топ-3–5 релевантных к текущей задаче. Пусть объяснит почему выбрала именно их.

4. Выполняй задачу с выбранными уроками: попроси явно отметить в ответе, какой урок где применила. Так видишь что сработало — и это станет материалом для следующего урока.

Примеры

[ПЛОХО] : Напиши пост про выбор между ИИС и брокерским счётом
[ХОРОШО] : Прежде чем писать пост — оцени мои уроки из прошлых постов: Урок 1: Когда аудитория 25–35 лет и тема пугает — начинай с боли читателя, не с термина. Избегай открывалок-определений. Урок 2: Когда даёшь цифры — сразу объясни что они значат лично для читателя. Избегай голых процентов и сумм без контекста. Задача: пост про выбор между ИИС (индивидуальный инвестиционный счёт) и брокерским счётом для начинающих. Шаг 1: оцени релевантность каждого урока к этой задаче. Шаг 2: выбери топ-2 подходящих. Шаг 3: напиши пост, опираясь на них — и отметь в тексте где применил какой урок.
Источник: Experiential Reflective Learning for Self-Improving LLM Agents
ArXiv ID: 2603.24639 | Сгенерировано: 2026-03-27 04:32

Проблемы LLM

ПроблемаСутьКак обойти
Прошлый удачный диалог как пример не учит модель принципуВставляешь в промпт прошлый разговор: "делай как тогда". Модель получает стену текста. В ней — промежуточные итерации, уточнения, шум. Принцип тонет. Модель обрабатывает контекст, но не извлекает правило. Следующая похожая задача снова решается с нуляДистиллируй прошлый опыт в короткое правило вида "когда X — делай Y, избегай Z". Вставляй правило, не диалог

Методы

МетодСуть
Два запроса для накопления опыта: рефлексия после и применение доПосле задачи — отдельным запросом: опиши задачу, подход и результат. Попроси сформировать правило в структуре: Условие: Когда [триггер]... Действие: ...делай [что] Избегать: [антипаттерн]. Сохрани в файл. Перед новой задачей — вставь список правил из файла. Попроси оценить релевантность каждого (высокая / средняя / низкая) и выбрать топ-3–5. Выполни задачу с опорой на выбранные правила. Почему работает: Модель хорошо следует компактным правилам "если — то". Они держатся в контексте и переносятся на новую ситуацию. Сырой диалог этого не даёт. Когда применять: Повторяющиеся задачи одного типа — тексты, анализ, код, коммуникации. Не работает: С нуля нет базы. Первые 5–10 задач только накапливаешь

Тезисы

ТезисКомментарий
Дистиллированное правило работает лучше сырого примераКогда показываешь модели прошлый удачный диалог — она видит контекст, не принцип. Когда даёшь правило — она видит принцип, не контекст. Правило компактно, переносимо, без шума. Разрыв в качестве — до 23%. Применяй: вместо "вот прошлый ответ, делай так же" пиши "правило: когда [тип задачи] — делай [действие]"
📖 Простыми словами

Experiential Reflective Learning for Self-ImprovingLLMAgents

arXiv: 2603.24639

Суть ERL в том, что нейронки наконец-то перестают быть золотыми рыбками с памятью в три секунды. Обычно модель каждый раз заходит в чат как с чистого листа: даже если ты вчера объяснял ей, что не любишь канцелярит, сегодня она снова выдаст «уникальное торговое предложение». Метод превращает сырой опыт в сжатые эвристики — короткие правила в духе «если ситуация А, делай Б». Вместо того чтобы хранить тонны бесполезных логов, система выжимает из них сухой остаток и подсовывает его модели в нужный момент.

Это как если бы ты учил друга водить машину. Можно каждый раз пересказывать ему учебник ПДД целиком — это то, как работают обычные длинные промпты, где модель просто тонет в шуме. А можно один раз сказать: «видишь эту яму у дома — притормаживай». ERL — это и есть набор таких точечных советов, которые модель сама пишет себе в блокнот после каждой поездки. Формально она не умнеет, но за счет правильных шпаргалок ведет себя как опытный водитель, а не как перепуганный новичок.

Внутри метода работают два режима: рефлексия после задачи и извлечение перед новой. Когда задача закончена, модель анализирует, где она накосячила или в чем красавчик, и формулирует правило. Например, если пост в Telegram про налоги собрал охваты, она запишет: «используй иронию, когда пишешь про ФНС». Перед следующим постом система лезет в базу, находит это правило по ключевым словам и вставляет его прямо в промпт. В итоге модель получает не «стену текста» с примерами, а конкретный алгоритм действий, проверенный на практике.

Тестировали это на агентах, но принцип универсального обучения применим везде: от написания кода до ведения каналов. Если Настя из примера будет просто кидать Claude старые посты, он быстро запутается в контексте. Но если заставить его после каждого поста выводить «правило успеха», то через месяц у нее будет персонализированная инструкция, заточенная именно под ее стиль и аудиторию. SEO для мозгов уходит в прошлое, наступает эра самооптимизации, где модель сама строит свои рельсы.

Короче, хватит надеяться, что нейронка «сама поймет» твой стиль из контекста — она в нем захлебнется. Нужно внедрять цикл обратной связи: сделал — проанализировал — сохранил правило. ERL доказывает, что короткая эвристика бьет огромный пример в 10 случаях из 10. Либо ты учишь свою модель на ее же ошибках, либо каждый день тратишь время на правки одного и того же унылого контента.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с