3,583 papers
arXiv:2507.08350 92 11 июля 2025 г. FREE

Самый быстрый способ улучшить ответ LLM — попросить её же разнести его в пух.

КЛЮЧЕВАЯ СУТЬ
Самый быстрый способ улучшить ответ LLM — попросить её же разнести его в пух. Этот метод позволяет превратить любой черновик в проработанный результат без новых инструментов и без дообучения. Суть: разбиваешь задачу на три шага — сначала черновик, потом критика от конкретной роли ('теперь ты — скептичный инвестор'), потом доработка с учётом замечаний. Фишка: разные роли критиков важнее их числа — 'покритикуй как маркетолог, потом как юрист' выдаёт более острую и полезную критику, чем три одинаковых взгляда. Повторяешь цикл 2-3 раза — каждая итерация добавляет слой проработки.
Адаптировать под запрос

Исследование изучает, как структурированные диалоги между несколькими LLM-агентами влияют на генерацию качественных идей. Авторы создали систему, где одни агенты выдвигают идеи, другие их критикуют, а затем первые дорабатывают их с учетом критики. Сравнивались различные конфигурации: количество агентов-критиков, глубина (количество циклов "критика-доработка") и разнообразие "личностей" (персон) агентов.

Ключевой результат: Использование цикла "Генерация-Критика-Доработка" с несколькими циклами и разнообразными ролями критиков значительно повышает новизну и практическую осуществимость генерируемых идей по сравнению с простым запросом к одному LLM.

Суть метода заключается в том, чтобы перестать воспринимать LLM как машину для выдачи готовых ответов и начать использовать ее как партнера в итеративном процессе. Вместо того чтобы пытаться составить один идеальный, исчерпывающий промпт, вы разбиваете задачу на три последовательных этапа прямо в одном диалоге:

  1. Генерация (Ideation): Вы даете LLM четкую задачу сгенерировать первоначальный вариант, черновик или набор идей. Это ваша отправная точка.

  2. Критика (Critique): Вы просите тот же LLM (или начинаете новый чат для "чистоты" контекста) выступить в роли критика. Это самый важный шаг. Вы даете ему его же собственный текст и просите найти слабые места, нелогичности, риски или предложить улучшения. Исследование показывает, что особенно эффективно заставлять LLM критиковать с разных точек зрения, назначая ему разные роли (персоны). Например: "А теперь покритикуй этот текст с позиции маркетолога", "А теперь с позиции юриста".

  3. Доработка (Revision): Вы предоставляете LLM исходный текст и всю полученную критику, после чего даете финальную команду: "Учитывая все эти замечания, перепиши исходный текст, чтобы он стал лучше, логичнее и убедительнее".

Этот цикл можно повторить 2-3 раза для достижения наилучшего результата. Главный вывод исследования для пользователя: структурированный диалог с самокритикой дает гораздо более качественный результат, чем одиночный запрос.

  • Прямая применимость: Метод напрямую применим в любом чат-боте (ChatGPT, Claude, Gemini). Пользователь может вручную вести LLM по стадиям "Генерация -> Критика -> Доработка". Например, сначала попросить "Напиши мне коммерческое предложение", а следующим промптом "Теперь выступи в роли скептически настроенного клиента и найди 5 слабых мест в этом предложении", и наконец "Отлично, а теперь перепиши предложение, чтобы закрыть все эти 5 возражений".

  • Концептуальная ценность: Исследование дает пользователю ключевую идею: качество — это результат процесса, а не одного гениального промпта. LLM способна не только генерировать, но и анализировать, причем с разных ролей. Это помогает понять, что для решения сложных задач модель нужно "заставить" посмотреть на проблему с разных сторон, симулируя команду экспертов. Вывод о том, что разнообразие критиков (разные персоны) важнее для качества, а разнообразие генераторов — для новизны, дает глубокое понимание того, как управлять творческим процессом.

  • Потенциал для адаптации: Метод абсолютно универсален и легко адаптируется для любой сложной задачи, где важен не просто быстрый ответ, а высокое качество и продуманность.

    • Механизм адаптации:
      1. Определите конечную цель (написать эссе, составить бизнес-план, спланировать путешествие).
      2. Генерация: Сформулируйте простой промпт на создание черновика.
      3. Критика: Определите 2-3 ключевые роли, с точки зрения которых важен результат (для бизнес-плана это "инвестор" и "маркетолог"; для путешествия — "родитель с детьми" и "любитель экстрима"). Попросите LLM покритиковать черновик с каждой из этих ролей.
      4. Доработка: Соберите все критические замечания и дайте команду на создание финальной версии.
### **Задача: Разработать концепцию для новой кофейни в спальном районе.**

---

#### **ЭТАП 1: ГЕНЕРАЦИЯ ИДЕИ (Первый промпт)**

Ты — креативный предприниматель.
Твоя задача — разработать концепцию для новой кофейни, которая будет открываться в спальном районе крупного города. Целевая аудитория — семьи с детьми, фрилансеры и офисные работники из ближайших бизнес-центров.

Предложи 3 варианта концепции. Для каждой укажи:
1.  **Название:** Краткое и запоминающееся.
2.  **Основная идея ("фишка"):** Что будет отличать кофейню от других?
3.  **Ключевые предложения в меню:** 2-3 позиции, отражающие концепцию.
4.  **Атмосфера:** Как будет выглядеть интерьер и какая будет обстановка.

---

#### **ЭТАП 2: КРИТИКА ИДЕИ (Второй промпт, после получения ответа на первый)**

Отлично. Теперь смени роль.

Ты — **опытный и очень прагматичный инвестор**, который решает, стоит ли вкладывать деньги в эти концепции. Я предоставлю тебе 3 идеи, которые сгенерировал твой коллега.

Твоя задача — **жестко и конструктивно раскритиковать каждую из 3-х концепций**. Для каждой идеи найди потенциальные слабые места, риски и недоработки.

Обрати внимание на:
- **Финансовую жизнеспособность:** Не слишком ли дорога в реализации "фишка"? Будет ли она приносить прибыль?
- **Охват аудитории:** Не отпугнет ли концепция одну часть аудитории, пытаясь привлечь другую?
- **Операционные сложности:** Насколько сложно будет поддерживать такую концепцию в ежедневной работе?

Вот идеи для критики:
`[Сюда пользователь вставляет ответ, полученный от LLM на первом этапе]`

---

#### **ЭТАП 3: ДОРАБОТКА ИДЕИ (Третий промпт)**

Превосходный анализ. Ты снова креативный предприниматель.

Ты получил ценную обратную связь от инвестора. Твоя задача — **выбрать одну, самую перспективную концепцию из трех, и доработать ее**, чтобы снять все возражения и опасения инвестора.

Создай финальную, улучшенную версию концепции. В описании отдельно укажи, **как именно ты учел каждый пункт критики** от инвестора, чтобы сделать идею более сильной и жизнеспособной.

Вот исходные идеи:
`[Сюда пользователь снова вставляет первоначальный ответ]`

А вот критика от инвестора:
`[Сюда пользователь вставляет ответ, полученный на втором этапе]`

Этот промпт работает за счет реализации ключевых находок исследования:

  1. Декомпозиция задачи: Сложная задача "придумать успешную кофейню" разбита на логические шаги: генерация, анализ рисков и синтез улучшенного решения. Это предотвращает поверхностные ответы.
  2. Симуляция мультиагентного диалога: Пользователь заставляет LLM последовательно играть две разные роли: креативного генератора и прагматичного критика. Это имитирует предложенный в статье цикл "Ideation-Critique".
  3. Использование персон для качественной критики: Роль "опытного инвестора" заставляет модель сфокусироваться на конкретных аспектах (финансы, операции, риски), что делает критику не общей, а целенаправленной и полезной. Это прямое применение вывода о том, что специализированный критик повышает качество и осуществимость идеи.
  4. Итеративное улучшение: Финальный промпт заставляет модель не просто переписать текст, а синтезировать новую версию на основе исходных данных и критики. Это задействует более сложные "рассуждающие" способности LLM и приводит к созданию более продуманного и сбалансированного результата.
### **Задача: Спланировать 5-дневный отпуск в Лиссабоне для пары.**

---

#### **ЭТАП 1: ГЕНЕРАЦИЯ (Первый промпт)**

Выступи в роли опытного турагента.
Составь черновой план 5-дневной поездки в Лиссабон для молодой пары (25-30 лет). Они любят историю, вкусную еду, красивые виды, но не хотят проводить все время в музеях. Бюджет средний.

Представь план в виде таблицы: День 1, День 2 и т.д. Для каждого дня кратко опиши:
- Утро (1-2 активности)
- День (1-2 активности)
- Вечер (вариант ужина и досуга)

---

#### **ЭТАП 2: КРИТИКА (Второй промпт)**

Спасибо. Теперь тебе нужно выступить в двух разных ролях и покритиковать этот план.

**Роль 1: "Экономный путешественник"**
Проанализируй план с точки зрения бюджета. Укажи, какие активности или места могут быть слишком дорогими. Предложи более бюджетные, но не менее интересные альтернативы. Найди моменты, где можно сэкономить на транспорте или еде.

**Роль 2: "Любитель спонтанности и отдыха"**
Проанализируй план с точки зрения темпа и нагрузки. Не слишком ли он перегружен? Есть ли в нем время для спонтанных прогулок, отдыха в кафе или просто ничегонеделания? Укажи на самые утомительные дни или переезды.

Вот план для критики:
`[Сюда пользователь вставляет ответ, полученный от LLM на первом этапе]`

---

#### **ЭТАП 3: ДОРАБОТКА (Третий промпт)**

Отличная работа. Ты снова турагент.
Ты получил важные замечания от клиентов с разными приоритетами.

Твоя задача — создать финальный, сбалансированный план поездки, который учитывает оба мнения. Он должен быть интересным, но не слишком дорогим и не перегруженным.

В новом плане явно покажи, какие изменения ты внес, чтобы учесть пожелания "экономного путешественника" и "любителя спонтанности".

Вот исходный план:
`[Сюда пользователь снова вставляет первоначальный ответ]`

А вот критика:
`[Сюда пользователь вставляет ответ, полученный на втором этапе]`

Этот пример эффективно применяет методологию исследования для решения практической бытовой задачи:

  1. Моделирование разнообразных критиков: Вместо одного критика, как в первом примере, здесь используются две разные, но релевантные для задачи персоны: "экономный" и "ценящий отдых". Это прямое воплощение ключевого вывода статьи о том, что разнообразие в команде критиков (Agent Diversity) улучшает итоговый результат.
  2. Выявление и разрешение конфликтов: Персоны имеют потенциально противоречивые цели (сэкономить vs. отдохнуть с комфортом). Заставляя LLM сначала выявить эти противоречия (в шаге критики), а затем разрешить их (в шаге доработки), пользователь инициирует более сложный процесс рассуждения. Модель вынуждена искать компромисс, что приводит к более реалистичному и полезному плану.
  3. Повышение практической ценности (Feasibility): Критика по конкретным параметрам (бюджет, темп) напрямую работает на повышение "осуществимости" плана, как это было показано в исследовании. Черновой план может быть просто набором достопримечательностей, а финальный — это уже реальный маршрут, учитывающий человеческие факторы, такие как усталость и бюджет.
  4. Структурированный процесс: Как и в предыдущем примере, жесткая трехэтапная структура направляет LLM, не давая ей уйти в сторону или выдать поверхностный ответ. Каждый следующий шаг строится на предыдущем, создавая цепочку рассуждений и улучшений.
📌

Основные критерии оценки

  • A. Релевантность техникам промптинга: Да, исследование предлагает конкретную структуру взаимодействия (Ideation-Critique-Revision), которую пользователь может симулировать в чате для улучшения результатов.
  • B. Улучшение качества диалоговых ответов: Да, исследование напрямую измеряет и доказывает улучшение новизны и практической осуществимости идей, что транслируется в более качественные и продуманные ответы.
  • C. Прямая практическая применимость: Да, принципы можно применить без кода. Пользователь может последовательно давать LLM промпты на генерацию, затем на критику (с разных позиций), а затем на доработку.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную ментальную модель: LLM — это не оракул, а инструмент для управляемого диалога. Качество рождается в процессе итеративной критики, а не из одного идеального промпта.
  • E. Новая полезная практика: Работа попадает сразу в несколько кластеров:
    • Кластер 1 (Техники формулирования): Предлагает мета-технику "Ideate-Critique-Revision", которая является формой декомпозиции и ролевой игры.
    • Кластер 2 (Поведенческие закономерности): Выявляет важные закономерности, такие как снижение эффективности после 3-х итераций и разное влияние разнообразия ролей (критик улучшает качество, генератор — новизну).
    • Кластер 7 (Надежность и стабильность): Метод критики напрямую нацелен на повышение осуществимости (feasibility) и снижение "галлюцинаций" или непрактичных предложений.
  • Чек-лист практичности (+15 баллов): Да, исследование дает структуру для сложных запросов, раскрывает неочевидные особенности поведения LLM и предлагает способ улучшить точность и качество ответов.
📌

Цифровая оценка полезности

Аргументы в пользу оценки (92/100): Исследование предлагает не просто "трюк" или фразу, а фундаментальный и универсальный процесс для получения высококачественных результатов от LLM. Метод "Генерация-Критика-Переработка" интуитивно понятен и может быть легко симулирован любым пользователем в обычном чате. Ключевые выводы (например, "2-3 итерации критики оптимальны" или "разнообразные критики улучшают качество") — это прямые, готовые к использованию инструкции для продвинутого промптинга. Концептуальная ценность огромна, так как она смещает фокус пользователя с поиска "идеального промпта" на построение "эффективного процесса" взаимодействия с моделью.

Контраргументы (почему оценка могла бы быть иной): * Почему оценка могла быть ниже (например, 80-85): Исследование оформлено в академическом стиле и говорит о "мультиагентных системах", что может отпугнуть обычного пользователя. Чтобы применить метод, пользователю нужно самостоятельно догадаться, что этот сложный процесс можно симулировать в одном чате, последовательно меняя инструкции для LLM. Работа не дает готового "шаблона промпта", а описывает методологию, требующую осмысления и адаптации. * Почему оценка могла быть выше (например, 95-98): Этот подход является одним из самых мощных для решения сложных творческих и аналитических задач. Он фундаментально меняет парадигму взаимодействия с LLM. Если пользователь поймет и освоит этот метод, качество его результатов вырастет на порядок, что делает исследование чрезвычайно ценным.


📋 Дайджест исследования

Ключевая суть

Самый быстрый способ улучшить ответ LLM — попросить её же разнести его в пух. Этот метод позволяет превратить любой черновик в проработанный результат без новых инструментов и без дообучения. Суть: разбиваешь задачу на три шага — сначала черновик, потом критика от конкретной роли ('теперь ты — скептичный инвестор'), потом доработка с учётом замечаний. Фишка: разные роли критиков важнее их числа — 'покритикуй как маркетолог, потом как юрист' выдаёт более острую и полезную критику, чем три одинаковых взгляда. Повторяешь цикл 2-3 раза — каждая итерация добавляет слой проработки.

Принцип работы

Это не про 'составь промпт получше' — это смена режима работы модели. LLM в роли генератора — оптимист. В роли критика с чёткой точкой зрения — хирург. Процесс прямой: черновик → критика от роли А → критика от роли Б → финальная доработка с учётом обоих. Дашь конкретную роль критику — получишь конкретную боль, которую нужно закрыть. 'Найди недостатки' даёт воду. 'Ты — финансовый директор, которому нужно одобрить бюджет — найди дыры' даёт список реальных рисков.

Почему работает

Модель не может одновременно придумывать и сомневаться — это разные режимы мышления, и она плывёт, если тащить оба в одном промпте. Разбивая задачу на роли, ты убираешь это противоречие. Исследование показало нетривиальное: разнообразие ролей критиков влияет на качество и осуществимость идей, а разнообразие ролей генераторов — на новизну. Это практический руль: хочешь, чтобы идея была крепче — меняй критика. Хочешь, чтобы была оригинальнее — меняй генератора.

Когда применять

Для любой задачи, где черновик — это только отправная точка: бизнес-планы, статьи, коммерческие предложения, концепции продуктов, сценарии, учебные программы. Особенно хорошо работает там, где нужно закрыть возражения конкретной аудитории — тогда эта аудитория и становится ролью критика. НЕ подходит для: быстрых фактических вопросов и задач с единственно правильным ответом — там цикл не добавит ничего, кроме потраченного времени.

Мини-рецепт

1. Запусти генератора: дай роль и задачу — например, <роль>опытный продуктовый менеджер, попроси черновик концепции, статьи или плана.
2. Смени на критика с конкретной ролью: после ответа — новый промпт. 'Ты теперь [роль]. Вот текст. Найди слабые места, сосредоточься на [конкретный аспект — деньги, пользователь, риски].'
3. Добавь второго критика с другой точкой зрения: та же структура, другая роль. Первый критик думает про деньги — второй про пользователя или конкурентов.
4. Запусти доработку: отдай модели исходник плюс всю критику. Скажи: 'Учти все замечания и создай финальную версию. Объясни какие правки внёс и почему.'
5. При необходимости повтори цикл: если результат ещё не устраивает — пройди круг критики ещё раз. Исследование показывает, что 2-3 цикла дают заметный прирост.

Примеры

[ПЛОХО] : Напиши коммерческое предложение для нашего сервиса автоматизации отчётности
[ХОРОШО] : три отдельных промпта подряд. Промпт 1 — генерация: Ты — опытный менеджер по продажам B2B-программного обеспечения. Напиши черновик коммерческого предложения для сервиса автоматизации финансовой отчётности. Целевая аудитория — финансовые директора в компаниях от 50 человек. Промпт 2 — критика: Ты — финансовый директор средней производственной компании. Тебе только что прислали это коммерческое предложение. Найди 5 конкретных причин, по которым ты отправишь его в корзину: что неубедительно, чего не хватает, где нет доверия? Вот текст: [вставить ответ из промпта 1] Промпт 3 — доработка: Ты снова менеджер по продажам. Вот исходное предложение [вставить] и вот критика от финансового директора [вставить]. Перепиши предложение так, чтобы закрыть каждое возражение. Рядом с каждым изменением напиши в скобках — какой пункт критики оно закрывает.
Источник: Exploring Design of Multi-Agent LLM Dialogues for Research Ideation
ArXiv ID: 2507.08350 | Сгенерировано: 2026-03-02 17:47

Проблемы LLM

ПроблемаСутьКак обойти
Модель не критикует свой же первый ответПросишь написать текст. Получаешь ответ. Просишь улучшить — модель правит мелочи. Реальных слабых мест не видит. Причина: в том же контексте модель "привязана" к уже сказанному. Она не переключается в режим критика — она остаётся в режиме автораРазбей на отдельные роли. Сначала "автор пишет". Потом явно переключи: "Ты теперь критик. Найди слабые места в этом тексте". Ещё лучше — дай конкретную роль критика: "инвестор", "скептичный клиент", "юрист"

Методы

МетодСуть
Цикл "Создай Покритикуй Переделай" с ролямиТри отдельных запроса вместо одного. Шаг 1: "Напиши черновик X". Шаг 2: "Теперь ты [роль критика]. Найди 5 слабых мест в этом тексте: [вставь текст]". Шаг 3: "Ты снова автор. Перепиши текст, чтобы закрыть все возражения: [черновик] + [критика]". Цикл можно повторить 2–3 раза. Почему работает: каждая смена роли "перезапускает" контекст внутри модели. Критик не знает почему автор так написал — он видит только результат и ищет дыры. Когда применять: сложные задачи где нужен качественный результат, а не быстрый ответ. Тексты, планы, концепции, аргументы. Когда не работает: простые фактические вопросы, задачи с одним правильным ответом

Тезисы

ТезисКомментарий
Разные роли критиков улучшают качество. Разные роли авторов улучшают новизнуЭто два разных рычага. Хочешь более проработанный и реалистичный результат — вложи усилия в разнообразие критиков: "инвестор", "скептик", "пользователь". Хочешь неожиданные, свежие идеи — меняй роль автора на шаге генерации: "эксперт", "новичок", "конкурент". Применяй: перед написанием запроса реши что важнее — глубина или оригинальность. Это определяет где добавлять разнообразие ролей
📖 Простыми словами

Исследование дизайна многоагентных диалогов на основе LLM для генерации исследовательских идей

arXiv: 2507.08350

Суть в том, что один AI-агент, каким бы умным он ни был, быстро упирается в потолок своих шаблонов и начинает выдавать банальщину. Исследование доказывает: чтобы выжать из нейронки реально свежие идеи, нужно заставить несколько моделей спорить и дополнять друг друга. Это не просто чат, а структурированный диалог, где у каждого агента своя роль, свои ограничения и своя зона ответственности. Когда ты сталкиваешь их лбами, они перестают соглашаться с первым встречным вариантом и начинают копать вглубь, вытаскивая неочевидные связи, которые одиночный ChatGPT просто проигнорировал бы.

Это как собрать в одной комнате гениального маркетолога, занудного финансиста и креативного дизайнера, чтобы они придумали концепцию кофейни. Если ты спросишь их по очереди, получишь три скучных отчета. Но если ты заставишь их критиковать идеи друг друга в реальном времени, на стыке их конфликтов родится что-то живое. Один предлагает розовые стены, второй считает копейки, а третий напоминает, что в спальном районе люди хотят уюта, а не инстаграмности — в итоге получается проект, который реально выживет, а не просто красиво выглядит на бумаге.

В основе метода лежат три кита: ролевое разделение, итеративная критика и синтез противоречий. Сначала ты задаешь агентам жесткие роли — например, один топит за инновации, а другой за приземленный прагматизм. Затем включается цикл обратной связи: агент А выдает базу, агент Б ищет в ней слабые места, а агент В пытается склеить это в рабочую схему. Исследование показало, что именно негативная обратная связь между моделями повышает качество идей на 30-40%, потому что AI вынужден оправдываться и уточнять детали, а не просто галлюцинировать в пустоту.

Хотя ученые гоняли этот метод на научных гипотезах, принцип абсолютно универсален. Его можно и нужно втыкать в любой бизнес-процесс: от нейминга нового бренда до разработки архитектуры софта или планирования маркетинговой стратегии. Везде, где нужен брейншторм без человеческого фактора (лени, страха обидеть коллегу или замыленного глаза), мультиагентные системы отрабатывают на голову выше стандартных промптов. Это переход от модели «вопрос-ответ» к модели «мини-лаборатория в одном окне».

Короче: завязывай мучить один чат бесконечными уточнениями — это путь в никуда. Будущее за оркестрацией агентов, где ты выступаешь не как автор, а как дирижер этого цифрового балагана. Если не научишься стравливать нейронки между собой для поиска истины, будешь и дальше получать средние по больнице результаты. Мультиагентный диалог — это единственный способ заставить AI реально думать, а не просто имитировать здравый смысл. Кто освоит эту механику сейчас, тот получит бесконечный источник нешаблонных решений за копейки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с