3,583 papers
arXiv:2511.22651 74 27 нояб. 2025 г. FREE

AUTO Framework: стратегический поиск через разделение ролей для итеративной оптимизации

КЛЮЧЕВАЯ СУТЬ
Просишь LLM 'ещё 10 вариантов' - получаешь топтание на месте. Модель повторяет одни и те же идеи, не видит что провалилось, не учится на лучших попытках. Причина: без структуры агент не помнит что пробовал 15 сообщений назад, ранний контекст вымывается. Метод AUTO превращает хаотичный перебор в направленный поиск через накопление знаний. Модель учится на истории: видит лучшие попытки, анализирует провалы, стратегически выбирает следующий ход. Фишка: два агента с разными ролями + база результатов. Стратег смотрит на сжатую выборку из истории (топ-5 + низ-3 + недавние-3), выбирает одну из трёх стратегий: улучшить конкретное решение (refine), скомбинировать удачные элементы (combine), придумать принципиально новое (innovate). Даёт конкретные инструкции Исполнителю. Исполнитель реализует. После каждой итерации чаты сбрасываются, но результаты записываются в базу - следующий раунд видит всю историю, не только последние N сообщений.
Адаптировать под запрос

TL;DR

AUTO — метод итеративной оптимизации через два агента с разными ролями: Стратег выбирает подход из трёх стратегий (улучшить лучшее, скомбинировать удачное, придумать новое), Исполнитель реализует конкретные инструкции. После каждой итерации результат оценивается по метрике и записывается в базу. На следующем раунде Стратегу показывают выборку из истории: P лучших + Q худших + R недавних попыток — и цикл повторяется N раз.

Проблема: LLM при множественных итерациях теряет понимание что уже пробовали, что сработало, что провалилось. Без структурированной памяти агент топчется на месте — повторяет одни и те же ошибки, генерирует похожие варианты, не учится на провалах. В длинных диалогах ранний контекст вымывается, связь между попытками рвётся.

Решение: Метод вводит кураторство контекста — перед каждой итерацией формируется сжатая выборка из истории (лучшее + худшее + свежее). Стратег видит паттерны успеха и провала, принимает стратегическое решение (одна из трёх стратегий), даёт конкретные инструкции Исполнителю. Разделение ролей обходит лимиты контекста — после каждой итерации чаты сбрасываются, но база результатов растёт и структурирует следующий раунд.


🔬

Схема метода

ЦИКЛ (повторяется N итераций):

ШАГ 0: Кураторство контекста
  Из базы результатов отобрать:
  - P лучших решений (по метрике)
  - Q худших решений  
  - R недавних решений
  → Сформировать контекст для Стратега

ШАГ 1: Стратег
  Анализирует контекст + задачу + подсказки
  → Выбирает одну из трёх стратегий:
    • refine — улучшить конкретное решение
    • combine — скомбинировать паттерны из нескольких
    • innovate — придумать принципиально новое
  → Даёт детальные инструкции Исполнителю

ШАГ 2: Исполнитель  
  Генерирует решение по инструкциям Стратега

ШАГ 3: Проверка ограничений
  Валидация решения (соответствие критериям, корректность)
  Если не прошло — до K попыток исправить
  → Годное решение идёт на оценку / брак записывается как есть

ШАГ 4: Оценка
  Решение тестируется на наборе условий
  → Рассчитывается единая метрика (скор)

ШАГ 5: Запись
  Решение + метрика + детали → в базу результатов
  Сброс контекста обоих агентов
  → Переход к следующей итерации

Важно: Каждая итерация — изолированная. Чаты агентов сбрасываются, но база результатов накапливает знания. Следующий раунд учитывает всю историю через кураторство контекста.


🚀

Пример применения

⚠️ Метод для задач с объективной метрикой. Плохо работает для субъективных оценок (креатив, эмоциональность). Хорошо — для задач где есть измеримый результат: конверсия, время, клики, вовлечённость, техническая корректность.

Задача: Придумать концепцию EdTech стартапа для российского рынка с фокусом на монетизацию. Критерий успеха — потенциал окупаемости в первые 6 месяцев (оценка экспертов по 10-балльной шкале).

Промпт:

=== РОЛЬ СТРАТЕГА ===

Я работаю над концепцией EdTech стартапа для России.

Вот результаты предыдущих итераций:

ЛУЧШИЕ (скор 7-8/10):
- Идея №5: "Курсы по Excel для бухгалтеров малого бизнеса". Скор 8. Узкая ниша, понятная боль, готовность платить.
- Идея №12: "Тренажёр собеседований с ИИ для IT-специалистов". Скор 7. Спрос есть, но монетизация неясна.

ХУДШИЕ (скор 2-4/10):
- Идея №3: "Платформа для обмена знаниями в формате peer-to-peer". Скор 2. Нет готовности платить, сложная модерация.
- Идея №18: "Геймифицированное обучение истории для школьников". Скор 3. B2C с длинным циклом продаж, родители не видят срочности.

НЕДАВНИЕ:
- Идея №22: "Микрокурсы по нейросетям для маркетологов". Скор 6. Хайповая тема, но рынок перенасыщен.

Твоя задача — выбрать стратегию:
1. **refine** — улучши конкретную идею (укажи номер, что именно доработать)
2. **combine** — скомбинируй паттерны из нескольких идей  
3. **innovate** — предложи новое направление

Дай КОНКРЕТНЫЕ инструкции для Исполнителя: целевая аудитория, модель монетизации, ключевое отличие.

---

=== РОЛЬ ИСПОЛНИТЕЛЯ ===

Получил от Стратега:
"Стратегия: combine. Возьми узость ниши и готовность платить из идеи №5 + технологичность и автоматизацию из идеи №12. Целевая аудитория: HR-специалисты малого бизнеса (50-200 человек). Монетизация: B2B подписка. Продукт: ИИ-помощник для составления вакансий и первичного скрининга резюме."

Теперь распиши концепцию:
- Название  
- Описание продукта (3-4 предложения)
- Ключевая боль клиента
- Модель монетизации (цена, формат)
- Уникальное отличие от конкурентов

Результат:

Модель выдаст конкретную концепцию с проработанными деталями. На следующей итерации эта идея пойдёт на оценку экспертов, получит скор, попадёт в базу. Стратег увидит расширенную выборку (теперь уже из 23 идей), заметит паттерны (B2B работает лучше B2C, автоматизация + узкая ниша = высокий скор), выберет следующую стратегию.

Через 20-30 итераций выкристаллизуется сильная концепция — Стратег научится избегать провальных направлений, комбинировать удачные элементы, уточнять детали.


🧠

Почему это работает

Слабость LLM: Модель не помнит что пробовала 10 сообщений назад. В длинных диалогах ранние попытки вымываются из контекста. Без явной структуры агент повторяет ошибки — генерирует концептуально похожие варианты, не учится на провалах, не замечает паттерны успеха. "Давай ещё 10 вариантов" даёт хаотичный перебор, не направленный поиск.

Сила LLM: Модель отлично анализирует структурированные данные и делает выводы. Если показать таблицу "вариант → результат", модель выделит закономерности: "короткие заголовки работают лучше", "конкретные цифры повышают доверие". Модель следует чётким инструкциям: "возьми структуру из варианта А, тон из варианта Б, добавь конкретику как в варианте С" — выполнит точно.

Как метод использует силу: AUTO превращает хаос в систему. Кураторство контекста (P лучших + Q худших + R недавних) даёт Стратегу сжатую картину поискового пространства без перегрузки контекста. Стратег видит: что работает (топ-3), что проваливается (худшие 2), что пробовали недавно (последние 3) — и принимает информированное решение. Три стратегии (refine/combine/innovate) структурируют выбор: не абстрактное "придумай лучше", а конкретное "доработай идею №5, усиль монетизацию". Разделение ролей обходит лимиты контекста — Стратег мыслит стратегически на сжатых данных, Исполнитель фокусируется на деталях реализации. База результатов накапливает знания между итерациями — каждый раунд использует всю историю, не только последние N сообщений.

Рычаги управления:

  • P/Q/R (размер выборки) → Увеличь P для фокуса на успехе, увеличь Q чтобы учиться на ошибках, увеличь R для разнообразия. Уменьши все три для экономии токенов на простых задачах.

  • Стратегия первых 10 итераций → В исследовании первые 10 раундов = "только innovate" для разведки пространства. Можешь изменить: если задача знакомая, начни с refine сразу.

  • Критерии выбора стратегий → В исследовании заданы чёткие условия когда выбирать каждую стратегию. Адаптируй под свою задачу: например, "innovate если последние 5 скоров ниже 6" вместо "если все похожи".

  • K (попыток исправления) → В исследовании K=4. Уменьши если итерации дешёвые, увеличь если каждая попытка ценна.

  • Метрика оценки → В исследовании это время выполнения кода. Для твоих задач: конверсия лендинга, читаемость текста (Flesch), вовлечённость (клики), оценка эксперта. Объективная метрика критична — субъективные критерии размывают обучение.


📋

Шаблон промпта

=== НАСТРОЙКА ===
Задача: {описание задачи}
Метрика успеха: {как измеряем результат}
Параметры контекста: P={число_лучших}, Q={число_худших}, R={число_недавних}
Итераций: N={общее_число}

=== ИТЕРАЦИЯ {номер} ===

ШАГ 1: СТРАТЕГ

Контекст из базы результатов:

ЛУЧШИЕ (топ-{P}):
{вариант_1}: {описание}, скор {значение}, почему сработало: {инсайт}
{вариант_2}: {описание}, скор {значение}, почему сработало: {инсайт}
...

ХУДШИЕ (низ-{Q}):
{вариант_X}: {описание}, скор {значение}, почему провалилось: {инсайт}
{вариант_Y}: {описание}, скор {значение}, почему провалилось: {инсайт}
...

НЕДАВНИЕ ({R} последних):
{вариант_A}: {описание}, скор {значение}
{вариант_B}: {описание}, скор {значение}
...

Проанализируй паттерны успеха и провала.

Выбери стратегию:
1. **refine** — улучши {конкретный_вариант}, доработай {конкретный_аспект}
2. **combine** — скомбинируй {элемент_из_А} + {элемент_из_Б} + {элемент_из_В}  
3. **innovate** — предложи новое направление, отличное от {что_уже_пробовали}

Критерии выбора:
- refine: если есть вариант близкий к прорыву, видны конкретные улучшения
- combine: если разные варианты сильны в разных аспектах  
- innovate: если все варианты концептуально похожи или последние 5 итераций без роста

Дай КОНКРЕТНЫЕ инструкции для Исполнителя (не общие слова).

---

ШАГ 2: ИСПОЛНИТЕЛЬ

Получил инструкции от Стратега:
"{инструкции_стратега}"

Создай решение:
{формат_вывода}

---

ШАГ 3: ПРОВЕРКА

Решение соответствует ограничениям: {список_критериев}
Если нет — исправь (до {K} попыток).

---

ШАГ 4: ОЦЕНКА

Тестируем решение:
{описание_процесса_оценки}
Скор: {результат_по_метрике}

---

ШАГ 5: ЗАПИСЬ

Добавить в базу результатов:
- Вариант №{номер}  
- Стратегия: {refine/combine/innovate}
- Скор: {значение}
- Детали: {ключевые_характеристики}
- Инсайт: {почему_сработало_или_нет}

Сброс контекста агентов.
Переход к итерации {номер+1}.

Что подставлять:

  • {описание задачи} — конкретная задача оптимизации (концепция продукта, структура статьи, заголовок лендинга)
  • {как измеряем результат} — объективная метрика (конверсия, читаемость, оценка эксперта по шкале, время выполнения)
  • {P/Q/R} — размер выборки из базы (начни с P=3-5, Q=2-3, R=2-3)
  • {N} — число итераций (в исследовании 50-100, для ручной работы 10-20)
  • {формат_вывода} — как должен выглядеть результат (структура, поля, формат)
  • {список_критериев} — обязательные требования (длина текста, наличие цены, формат данных)
  • {K} — попыток исправления при провале проверки (обычно 3-4)

🚀 Быстрый старт — вставь в чат:

Вот шаблон AUTO Framework для стратегического поиска. Адаптируй под мою задачу: {твоя задача}.

Задай вопросы чтобы заполнить:
- Какую метрику использовать для оценки вариантов?
- Сколько лучших/худших/недавних показывать на каждой итерации?
- Какие обязательные ограничения должны соблюдаться?
- В каком формате выводить результат?

[вставить шаблон выше]

LLM спросит конкретные детали твоей задачи — метрику успеха (что измеряем), критерии валидации (что обязательно), формат вывода. Она возьмёт структуру AUTO (кураторство контекста + стратегии + разделение ролей) и адаптирует под твой случай.

Ты получишь готовый процесс с чёткими шагами. Первые 3-5 итераций проведи вручную, чтобы понять механику. Потом можешь автоматизировать через API если задача повторяется.


⚠️

Ограничения

⚠️ Требует объективную метрику: Метод ломается на субъективных критериях ("красиво", "убедительно", "креативно"). Стратег учится на скорах — если оценки шумные или непоследовательные, паттерны не выделяются, решения хаотичны. Работает для измеримого: конверсия, время, клики, оценка по шкале от внешнего эксперта.

⚠️ Много итераций: В исследовании прорывы происходили после 20-80 итераций. Для ручного применения в чате это утомительно — каждая итерация = отдельный запрос + ручная оценка + запись результата. Метод для серьёзных задач, не для быстрого брейншторма.

⚠️ Высокий расход токенов: Стратег на каждой итерации получает контекст (P+Q+R вариантов с деталями). При P=5, Q=5, R=5 и 50 итерациях контекст разрастается. Плюс два агента (Стратег + Исполнитель) = двойные запросы. В исследовании одна оптимизация стоила до $159.

⚠️ Стратег может ошибаться: Выбор стратегии (refine/combine/innovate) зависит от интерпретации паттернов. Если контекст составлен плохо (например, только недавние варианты без истории успехов) — Стратег принимает слабые решения. Если метрика зашумлена — видит ложные паттерны.

⚠️ Барьер управления итерациями: Метод предполагает управление циклом вручную или через код. В обычном чате нужна дисциплина: записывать результаты, формировать выборку P/Q/R, не сбиваться. Или писать скрипт для API. Для новичков ChatGPT/Claude это высокий порог.


🔗

Ресурсы

Automated Design Optimization via Strategic Search with Large Language Models Anthony Carreon, Vansh Sharma, Venkat Raman University of Michigan, Department of Aerospace Engineering Декабрь 2025


📋 Дайджест исследования

Ключевая суть

Просишь LLM 'ещё 10 вариантов' - получаешь топтание на месте. Модель повторяет одни и те же идеи, не видит что провалилось, не учится на лучших попытках. Причина: без структуры агент не помнит что пробовал 15 сообщений назад, ранний контекст вымывается. Метод AUTO превращает хаотичный перебор в направленный поиск через накопление знаний. Модель учится на истории: видит лучшие попытки, анализирует провалы, стратегически выбирает следующий ход. Фишка: два агента с разными ролями + база результатов. Стратег смотрит на сжатую выборку из истории (топ-5 + низ-3 + недавние-3), выбирает одну из трёх стратегий: улучшить конкретное решение (refine), скомбинировать удачные элементы (combine), придумать принципиально новое (innovate). Даёт конкретные инструкции Исполнителю. Исполнитель реализует. После каждой итерации чаты сбрасываются, но результаты записываются в базу - следующий раунд видит всю историю, не только последние N сообщений.

Принцип работы

Не держи всю историю в контексте - кураторуй выборку. Перед каждой итерацией формируешь сжатый срез из базы результатов: P лучших (по метрике) + Q худших + R недавних. Стратег анализирует эту выборку, замечает паттерны (короткие заголовки работают, B2C проваливается, конкретные цифры повышают скор), выбирает стратегию: • refine - если есть решение близкое к прорыву, видны конкретные улучшения • combine - если разные варианты сильны в разных аспектах • innovate - если все попытки концептуально похожи или последние 5 итераций без роста Даёт детальные инструкции Исполнителю - не 'придумай лучше', а 'возьми структуру из варианта А, тон из варианта Б, добавь конкретику как в варианте С'. Исполнитель генерирует решение, оно идёт на оценку по метрике, записывается в базу. Контексты обоих агентов сбрасываются - следующая итерация изолирована, но использует расширенную базу знаний.

Почему работает

LLM плохо помнит длинные диалоги - ранние попытки вымываются из контекста. Модель топчется: повторяет похожие варианты, не замечает что провалилось три раунда назад, не видит связи между попытками. Но модель отлично анализирует структурированные данные. Покажи таблицу 'вариант → скор' - выделит закономерности: 'короткие заголовки дают +12% скора', 'абстрактные формулировки проваливаются'. Дай конкретные инструкции - выполнит точно. Кураторство контекста обходит лимиты памяти. Вместо 50 сообщений в контексте - сжатая выборка из 10-15 ключевых примеров (лучшее + худшее + свежее). Стратег видит паттерны успеха и провала без перегрузки токенами. База результатов растёт с каждой итерацией - через 20 раундов у Стратега в 20 раз больше данных для принятия решений, чем в обычном чате. Разделение ролей усиливает фокус: Стратег мыслит стратегически на высоком уровне (какой подход выбрать), Исполнитель концентрируется на деталях реализации. Два специализированных агента эффективнее одного универсального.

Когда применять

Итеративная оптимизация с объективной метрикой → концепции продуктов (скор от экспертов), заголовки лендингов (конверсия), структуры статей (читаемость по Flesch), email-рассылки (open rate), особенно когда простой перебор даёт застой. НЕ подходит для субъективных критериев ('красиво', 'креативно') - шумные оценки размывают паттерны, Стратег принимает слабые решения. НЕ подходит для быстрого брейншторма - метод требует 20-80 итераций для прорыва, это утомительно для ручного применения.

Мини-рецепт

1. Определи метрику: Объективный показатель успеха (конверсия, скор эксперта 1-10, время выполнения). Без чёткой метрики метод ломается.

2. Настрой параметры: P (сколько лучших показывать), Q (сколько худших), R (сколько недавних). Начни с P=3-5, Q=2-3, R=2-3.

3. Первые 5-10 итераций - разведка: Стратегия 'innovate' для исследования пространства. Создай разнообразные варианты, оцени по метрике, запиши в базу.

4. Сформируй контекст для Стратега: Из базы отбери P лучших + Q худших + R недавних. Для каждого укажи: описание, скор, почему сработало/провалилось.

5. Запрос Стратегу: Вот результаты предыдущих попыток: [контекст]. Проанализируй паттерны. Выбери стратегию (refine/combine/innovate) и дай КОНКРЕТНЫЕ инструкции для Исполнителя.

6. Запрос Исполнителю: Получил от Стратега: [инструкции]. Создай решение в формате: [структура вывода].

7. Оцени результат: Примени метрику, запиши в базу с деталями. Сброс контекста агентов.

8. Повтори 20-50 раз: Прорывы происходят после множества итераций. Если после 10 раундов скоры не растут - пересмотри метрику или критерии стратегий.

Примеры

[ПЛОХО] : Придумай мне ещё 10 концепций EdTech стартапов для России (Хаотичный перебор. Модель не знает что уже пробовали, повторяет похожие идеи, не учится на провалах. Через 5 итераций застой.)
[ХОРОШО] : Итерация №23. ЛУЧШИЕ (скор 7-8): №5 'Курсы Excel для бухгалтеров МСБ' - узкая ниша, готовность платить; №12 'ИИ-тренажёр собеседований для IT' - спрос есть, монетизация неясна. ХУДШИЕ (скор 2-3): №3 'Peer-to-peer платформа' - нет готовности платить; №18 'Геймификация истории' - длинный цикл B2C. НЕДАВНИЕ: №22 'Микрокурсы по нейросетям' - скор 6, рынок перенасыщен. Стратег, выбери стратегию (refine/combine/innovate) и дай инструкции Исполнителю. (Стратег видит: B2B работает лучше B2C, узость ниши + автоматизация = высокий скор, хайповые темы перенасыщены. Выбирает: 'combine - возьми узость из №5 + технологичность из №12, целевая аудитория HR МСБ, продукт ИИ-помощник для вакансий'. Исполнитель создаёт проработанную концепцию. Через 30 итераций выкристаллизуется сильная идея.)
Источник: Automated Design Optimization via Strategic Search with Large Language Models
ArXiv ID: 2511.22651 | Сгенерировано: 2026-01-12 19:05

Проблемы LLM

ПроблемаСутьКак обойти
Модель топчется на месте в длинных итерацияхПросишь модель улучшить что-то много раз подряд. Она теряет нить: что уже пробовали, что сработало, что провалилось. Ранние попытки вымываются из контекста. Модель повторяет одни и те же ошибки. Генерирует похожие варианты. Не видит паттерны успеха. Это проблема для любых задач где нужно 10+ раундов улучшенияВеди базу результатов вне чата. Каждую попытку записывай: вариант + оценка + почему сработало/провалилось. Перед новой итерацией показывай модели выборку из истории: 3-5 лучших + 2-3 худших + 2-3 недавних. Модель увидит что работает, что не работает, примет решение на основе всей истории

Методы

МетодСуть
Кураторство контекста — управляемая память для итерацийЧто делать: Создай таблицу результатов (вариант, оценка, детали). После каждой попытки записывай туда результат. Перед следующей итерацией формируй выборку: возьми P лучших (по оценке) + Q худших + R недавних. Покажи модели эту выборку и попроси проанализировать паттерны. Синтаксис: Вот история попыток: ЛУЧШИЕ (топ-3): [варианты]. ХУДШИЕ (низ-2): [варианты]. НЕДАВНИЕ (последние 2): [варианты]. Что общего у успешных? Чего избегать? Почему работает: Модель отлично анализирует структурированные данные но плохо помнит длинные диалоги. Выборка даёт сжатую картину без перегрузки контекста. Модель видит закономерности: "короткие заголовки работают лучше", "конкретные цифры повышают доверие". Когда применять: итеративная оптимизация с объективной метрикой (конверсия, вовлечённость, оценка эксперта). Нужно 10+ раундов для прорыва. Когда не работает: субъективные критерии ("красиво", "креативно") — паттерны размыты. Быстрый брейншторм на 3-5 вариантов — overhead
Разделение ролей Стратег/ИсполнительЧто делать: Раздели задачу на два запроса. Запрос 1 (Стратег): Покажи модели выборку из истории + задачу. Попроси выбрать стратегию: (1) улучшить конкретный вариант — укажи что именно; (2) скомбинировать элементы из нескольких вариантов; (3) придумать принципиально новое направление. Получи детальные инструкции. Запрос 2 (Исполнитель): Дай другому запросу (или новому чату) эти инструкции. Попроси создать конкретное решение. Синтаксис: [Стратег] Вот история: [выборка]. Выбери стратегию и дай инструкции. [Исполнитель] Получил инструкции: "[текст]". Создай решение в формате: [формат] Почему работает: Стратег мыслит на высоком уровне — анализирует паттерны, принимает решение. Исполнитель фокусируется на деталях реализации. Каждый агент получает только нужный контекст — нет перегрузки. После итерации чаты сбрасываются, но база результатов накапливает знания. Когда применять: сложная задача где нужно и стратегическое мышление и детальная проработка. Много итераций. Когда не работает: простая задача — overhead от двух запросов

Тезисы

ТезисКомментарий
Сжатая выборка из истории работает лучше чем полный контекстПоказать модели все 50 попыток = перегрузка. Показать только последние 5 = потеря ранних инсайтов. Выборка "лучшие + худшие + недавние" даёт баланс: модель видит что работает (топ), чего избегать (провалы), что пробовали недавно (свежесть). Размер выборки — рычаг: увеличь лучших для фокуса на успехе, увеличь худших чтобы учиться на ошибках, увеличь недавних для разнообразия. Применяй: Вместо "вот вся история на 5000 токенов" делай Топ-3 (скор 8-9): [варианты]. Худшие-2 (скор 2-3): [варианты]. Последние-2: [варианты]
📖 Простыми словами

Оптимизация сложного кода — это всегда головная боль, где даже топовые эксперты тратят недели, чтобы выжать лишние 5% производительности. Традиционная математика тут пасует: нельзя просто подкрутить ползунок, чтобы код стал быстрее, нужно менять саму структуру алгоритма. Исследователи создали AUTO — систему из двух AI-агентов, которая превращает оптимизацию в стратегический поиск. Вместо того чтобы гадать, нейронка работает как связка «начальник + подчиненный»: один придумывает глобальный план, а второй кодит, пока не получится конфетка.

Это как если бы ты пытался собрать идеальный гоночный болид, не имея чертежей. Обычный алгоритм просто менял бы давление в шинах, а AUTO действует иначе: он смотрит на прошлые заезды и решает — «так, подвеска отстой, давайте попробуем вообще другую схему» или «двигатель почти идеален, надо просто подшлифовать клапаны». Это не тупой перебор вариантов, а осознанный выбор стратегии на основе предыдущих факапов и побед. Формально это поиск без градиентов, а по факту — имитация работы опытного инженера.

Внутри системы крутятся два ключевых метода. Первый — это разделение ролей: Стратег анализирует историю (берет 4-5 лучших и 3-5 худших попыток) и выдает команду: innovate (придумай что-то радикально новое), combine (скрести два рабочих метода) или refine (допили текущий вариант). Второй метод — автоматическая петля обратной связи. Код не просто пишется, он тут же летит на компиляцию и проверку на реальном железе. Если код — херня и не запускается, у агента есть 4 попытки, чтобы исправить баги, прежде чем Стратег признает итерацию провальной.

Хотя систему гоняли на суровых GPU-задачах типа матричного умножения, принцип универсален. Эту логику можно натянуть на любую сложную задачу, где результат можно проверить автоматически: от написания сложных SQL-запросов до проектирования архитектуры облачных сервисов. SEO умирает, GEO рождается, а в мире разработки софта на смену ручному кодингу приходит агентная оптимизация. Если у тебя есть метрика, которую можно измерить (скорость, память, конверсия), значит, этот подход сработает.

Короче: забудь про попытки написать идеальный промпт «сделай мне быстро». Будущее за архитектурами типа AUTO, где AI сам анализирует свои ошибки и итеративно доходит до уровня эксперта за $20 вместо $500. Главный облом в том, что «из коробки» это не работает — тебе нужна целая инфраструктура с базой данных и автотестами. Но те, кто заморочится и соберет такой конвейер, оставят конкурентов далеко позади, пока те будут вручную ковыряться в коде, как в прошлом веке.

Сгенерировано: 21.12.2025 17:02 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с