TL;DR
AUTO — метод итеративной оптимизации через два агента с разными ролями: Стратег выбирает подход из трёх стратегий (улучшить лучшее, скомбинировать удачное, придумать новое), Исполнитель реализует конкретные инструкции. После каждой итерации результат оценивается по метрике и записывается в базу. На следующем раунде Стратегу показывают выборку из истории: P лучших + Q худших + R недавних попыток — и цикл повторяется N раз.
Проблема: LLM при множественных итерациях теряет понимание что уже пробовали, что сработало, что провалилось. Без структурированной памяти агент топчется на месте — повторяет одни и те же ошибки, генерирует похожие варианты, не учится на провалах. В длинных диалогах ранний контекст вымывается, связь между попытками рвётся.
Решение: Метод вводит кураторство контекста — перед каждой итерацией формируется сжатая выборка из истории (лучшее + худшее + свежее). Стратег видит паттерны успеха и провала, принимает стратегическое решение (одна из трёх стратегий), даёт конкретные инструкции Исполнителю. Разделение ролей обходит лимиты контекста — после каждой итерации чаты сбрасываются, но база результатов растёт и структурирует следующий раунд.
Схема метода
ЦИКЛ (повторяется N итераций):
ШАГ 0: Кураторство контекста
Из базы результатов отобрать:
- P лучших решений (по метрике)
- Q худших решений
- R недавних решений
→ Сформировать контекст для Стратега
ШАГ 1: Стратег
Анализирует контекст + задачу + подсказки
→ Выбирает одну из трёх стратегий:
• refine — улучшить конкретное решение
• combine — скомбинировать паттерны из нескольких
• innovate — придумать принципиально новое
→ Даёт детальные инструкции Исполнителю
ШАГ 2: Исполнитель
Генерирует решение по инструкциям Стратега
ШАГ 3: Проверка ограничений
Валидация решения (соответствие критериям, корректность)
Если не прошло — до K попыток исправить
→ Годное решение идёт на оценку / брак записывается как есть
ШАГ 4: Оценка
Решение тестируется на наборе условий
→ Рассчитывается единая метрика (скор)
ШАГ 5: Запись
Решение + метрика + детали → в базу результатов
Сброс контекста обоих агентов
→ Переход к следующей итерации
Важно: Каждая итерация — изолированная. Чаты агентов сбрасываются, но база результатов накапливает знания. Следующий раунд учитывает всю историю через кураторство контекста.
Пример применения
⚠️ Метод для задач с объективной метрикой. Плохо работает для субъективных оценок (креатив, эмоциональность). Хорошо — для задач где есть измеримый результат: конверсия, время, клики, вовлечённость, техническая корректность.
Задача: Придумать концепцию EdTech стартапа для российского рынка с фокусом на монетизацию. Критерий успеха — потенциал окупаемости в первые 6 месяцев (оценка экспертов по 10-балльной шкале).
Промпт:
=== РОЛЬ СТРАТЕГА ===
Я работаю над концепцией EdTech стартапа для России.
Вот результаты предыдущих итераций:
ЛУЧШИЕ (скор 7-8/10):
- Идея №5: "Курсы по Excel для бухгалтеров малого бизнеса". Скор 8. Узкая ниша, понятная боль, готовность платить.
- Идея №12: "Тренажёр собеседований с ИИ для IT-специалистов". Скор 7. Спрос есть, но монетизация неясна.
ХУДШИЕ (скор 2-4/10):
- Идея №3: "Платформа для обмена знаниями в формате peer-to-peer". Скор 2. Нет готовности платить, сложная модерация.
- Идея №18: "Геймифицированное обучение истории для школьников". Скор 3. B2C с длинным циклом продаж, родители не видят срочности.
НЕДАВНИЕ:
- Идея №22: "Микрокурсы по нейросетям для маркетологов". Скор 6. Хайповая тема, но рынок перенасыщен.
Твоя задача — выбрать стратегию:
1. **refine** — улучши конкретную идею (укажи номер, что именно доработать)
2. **combine** — скомбинируй паттерны из нескольких идей
3. **innovate** — предложи новое направление
Дай КОНКРЕТНЫЕ инструкции для Исполнителя: целевая аудитория, модель монетизации, ключевое отличие.
---
=== РОЛЬ ИСПОЛНИТЕЛЯ ===
Получил от Стратега:
"Стратегия: combine. Возьми узость ниши и готовность платить из идеи №5 + технологичность и автоматизацию из идеи №12. Целевая аудитория: HR-специалисты малого бизнеса (50-200 человек). Монетизация: B2B подписка. Продукт: ИИ-помощник для составления вакансий и первичного скрининга резюме."
Теперь распиши концепцию:
- Название
- Описание продукта (3-4 предложения)
- Ключевая боль клиента
- Модель монетизации (цена, формат)
- Уникальное отличие от конкурентов
Результат:
Модель выдаст конкретную концепцию с проработанными деталями. На следующей итерации эта идея пойдёт на оценку экспертов, получит скор, попадёт в базу. Стратег увидит расширенную выборку (теперь уже из 23 идей), заметит паттерны (B2B работает лучше B2C, автоматизация + узкая ниша = высокий скор), выберет следующую стратегию.
Через 20-30 итераций выкристаллизуется сильная концепция — Стратег научится избегать провальных направлений, комбинировать удачные элементы, уточнять детали.
Почему это работает
Слабость LLM: Модель не помнит что пробовала 10 сообщений назад. В длинных диалогах ранние попытки вымываются из контекста. Без явной структуры агент повторяет ошибки — генерирует концептуально похожие варианты, не учится на провалах, не замечает паттерны успеха. "Давай ещё 10 вариантов" даёт хаотичный перебор, не направленный поиск.
Сила LLM: Модель отлично анализирует структурированные данные и делает выводы. Если показать таблицу "вариант → результат", модель выделит закономерности: "короткие заголовки работают лучше", "конкретные цифры повышают доверие". Модель следует чётким инструкциям: "возьми структуру из варианта А, тон из варианта Б, добавь конкретику как в варианте С" — выполнит точно.
Как метод использует силу: AUTO превращает хаос в систему. Кураторство контекста (P лучших + Q худших + R недавних) даёт Стратегу сжатую картину поискового пространства без перегрузки контекста. Стратег видит: что работает (топ-3), что проваливается (худшие 2), что пробовали недавно (последние 3) — и принимает информированное решение. Три стратегии (refine/combine/innovate) структурируют выбор: не абстрактное "придумай лучше", а конкретное "доработай идею №5, усиль монетизацию". Разделение ролей обходит лимиты контекста — Стратег мыслит стратегически на сжатых данных, Исполнитель фокусируется на деталях реализации. База результатов накапливает знания между итерациями — каждый раунд использует всю историю, не только последние N сообщений.
Рычаги управления:
P/Q/R (размер выборки) → Увеличь P для фокуса на успехе, увеличь Q чтобы учиться на ошибках, увеличь R для разнообразия. Уменьши все три для экономии токенов на простых задачах.
Стратегия первых 10 итераций → В исследовании первые 10 раундов = "только innovate" для разведки пространства. Можешь изменить: если задача знакомая, начни с refine сразу.
Критерии выбора стратегий → В исследовании заданы чёткие условия когда выбирать каждую стратегию. Адаптируй под свою задачу: например, "innovate если последние 5 скоров ниже 6" вместо "если все похожи".
K (попыток исправления) → В исследовании K=4. Уменьши если итерации дешёвые, увеличь если каждая попытка ценна.
Метрика оценки → В исследовании это время выполнения кода. Для твоих задач: конверсия лендинга, читаемость текста (Flesch), вовлечённость (клики), оценка эксперта. Объективная метрика критична — субъективные критерии размывают обучение.
Шаблон промпта
=== НАСТРОЙКА ===
Задача: {описание задачи}
Метрика успеха: {как измеряем результат}
Параметры контекста: P={число_лучших}, Q={число_худших}, R={число_недавних}
Итераций: N={общее_число}
=== ИТЕРАЦИЯ {номер} ===
ШАГ 1: СТРАТЕГ
Контекст из базы результатов:
ЛУЧШИЕ (топ-{P}):
{вариант_1}: {описание}, скор {значение}, почему сработало: {инсайт}
{вариант_2}: {описание}, скор {значение}, почему сработало: {инсайт}
...
ХУДШИЕ (низ-{Q}):
{вариант_X}: {описание}, скор {значение}, почему провалилось: {инсайт}
{вариант_Y}: {описание}, скор {значение}, почему провалилось: {инсайт}
...
НЕДАВНИЕ ({R} последних):
{вариант_A}: {описание}, скор {значение}
{вариант_B}: {описание}, скор {значение}
...
Проанализируй паттерны успеха и провала.
Выбери стратегию:
1. **refine** — улучши {конкретный_вариант}, доработай {конкретный_аспект}
2. **combine** — скомбинируй {элемент_из_А} + {элемент_из_Б} + {элемент_из_В}
3. **innovate** — предложи новое направление, отличное от {что_уже_пробовали}
Критерии выбора:
- refine: если есть вариант близкий к прорыву, видны конкретные улучшения
- combine: если разные варианты сильны в разных аспектах
- innovate: если все варианты концептуально похожи или последние 5 итераций без роста
Дай КОНКРЕТНЫЕ инструкции для Исполнителя (не общие слова).
---
ШАГ 2: ИСПОЛНИТЕЛЬ
Получил инструкции от Стратега:
"{инструкции_стратега}"
Создай решение:
{формат_вывода}
---
ШАГ 3: ПРОВЕРКА
Решение соответствует ограничениям: {список_критериев}
Если нет — исправь (до {K} попыток).
---
ШАГ 4: ОЦЕНКА
Тестируем решение:
{описание_процесса_оценки}
Скор: {результат_по_метрике}
---
ШАГ 5: ЗАПИСЬ
Добавить в базу результатов:
- Вариант №{номер}
- Стратегия: {refine/combine/innovate}
- Скор: {значение}
- Детали: {ключевые_характеристики}
- Инсайт: {почему_сработало_или_нет}
Сброс контекста агентов.
Переход к итерации {номер+1}.
Что подставлять:
{описание задачи}— конкретная задача оптимизации (концепция продукта, структура статьи, заголовок лендинга){как измеряем результат}— объективная метрика (конверсия, читаемость, оценка эксперта по шкале, время выполнения){P/Q/R}— размер выборки из базы (начни с P=3-5, Q=2-3, R=2-3){N}— число итераций (в исследовании 50-100, для ручной работы 10-20){формат_вывода}— как должен выглядеть результат (структура, поля, формат){список_критериев}— обязательные требования (длина текста, наличие цены, формат данных){K}— попыток исправления при провале проверки (обычно 3-4)
🚀 Быстрый старт — вставь в чат:
Вот шаблон AUTO Framework для стратегического поиска. Адаптируй под мою задачу: {твоя задача}.
Задай вопросы чтобы заполнить:
- Какую метрику использовать для оценки вариантов?
- Сколько лучших/худших/недавних показывать на каждой итерации?
- Какие обязательные ограничения должны соблюдаться?
- В каком формате выводить результат?
[вставить шаблон выше]
LLM спросит конкретные детали твоей задачи — метрику успеха (что измеряем), критерии валидации (что обязательно), формат вывода. Она возьмёт структуру AUTO (кураторство контекста + стратегии + разделение ролей) и адаптирует под твой случай.
Ты получишь готовый процесс с чёткими шагами. Первые 3-5 итераций проведи вручную, чтобы понять механику. Потом можешь автоматизировать через API если задача повторяется.
Ограничения
⚠️ Требует объективную метрику: Метод ломается на субъективных критериях ("красиво", "убедительно", "креативно"). Стратег учится на скорах — если оценки шумные или непоследовательные, паттерны не выделяются, решения хаотичны. Работает для измеримого: конверсия, время, клики, оценка по шкале от внешнего эксперта.
⚠️ Много итераций: В исследовании прорывы происходили после 20-80 итераций. Для ручного применения в чате это утомительно — каждая итерация = отдельный запрос + ручная оценка + запись результата. Метод для серьёзных задач, не для быстрого брейншторма.
⚠️ Высокий расход токенов: Стратег на каждой итерации получает контекст (P+Q+R вариантов с деталями). При P=5, Q=5, R=5 и 50 итерациях контекст разрастается. Плюс два агента (Стратег + Исполнитель) = двойные запросы. В исследовании одна оптимизация стоила до $159.
⚠️ Стратег может ошибаться: Выбор стратегии (refine/combine/innovate) зависит от интерпретации паттернов. Если контекст составлен плохо (например, только недавние варианты без истории успехов) — Стратег принимает слабые решения. Если метрика зашумлена — видит ложные паттерны.
⚠️ Барьер управления итерациями: Метод предполагает управление циклом вручную или через код. В обычном чате нужна дисциплина: записывать результаты, формировать выборку P/Q/R, не сбиваться. Или писать скрипт для API. Для новичков ChatGPT/Claude это высокий порог.
Ресурсы
Automated Design Optimization via Strategic Search with Large Language Models Anthony Carreon, Vansh Sharma, Venkat Raman University of Michigan, Department of Aerospace Engineering Декабрь 2025
