3,583 papers
arXiv:2507.17753 93 2 мая 2025 г. FREE

Та же модель, тот же чат — но второй запрос написан от лица равного коллеги, а не начальника.

КЛЮЧЕВАЯ СУТЬ
Та же модель, тот же чат — но второй запрос написан от лица равного коллеги, а не начальника. Звучит как мелочь. Но именно это работает лучше всего. Метод позволяет симулировать в обычном чате работу двух независимых экспертов — без дополнительных инструментов и дообучения. Фишка в балансе сил: схема «учитель → ученик» проигрывает схеме «коллега ↔ коллега». Равному не нужно соглашаться из вежливости — и модель начинает реально критиковать, а не формально одобрять.
Адаптировать под запрос

Исследователи сравнили, как две LLM (GPT-4o), общающиеся между собой в разных ролях, решают сложные математические задачи. Они обнаружили, что любая совместная работа двух "агентов" превосходит работу одного, а наиболее точные результаты достигаются, когда агенты взаимодействуют как равные партнеры ("коллега-коллега"), проверяя и дополняя работу друг друга.

Ключевой результат: Сотрудничество двух LLM-агентов в роли равных партнеров (peer-to-peer) наиболее эффективно для решения сложных задач.

Суть метода заключается в том, чтобы перестать рассматривать LLM как единый "монолитный" разум и начать использовать его как команду из нескольких "виртуальных специалистов" с разными ролями. Исследование доказывает, что заставив модель сначала сгенерировать ответ в одной роли, а затем покритиковать или дополнить его в другой, можно значительно повысить качество и точность итогового результата.

Практическая методика для пользователя выглядит так:

  1. Шаг 1: Генерация (Роль 1 - "Исполнитель"). Вы даете LLM первую роль (например, "Маркетолог", "Сценарист", "Аналитик") и просите выполнить основную часть задачи — написать текст, составить план, проанализировать данные.
  2. Шаг 2: Критика и Улучшение (Роль 2 - "Партнер-Критик"). Вы берете полученный ответ и в следующем промте даете LLM новую роль. Согласно исследованию, самой эффективной является роль "равного партнера" или "коллеги". Вы просите "второго агента" проанализировать работу "первого", найти слабые места, упущенные возможности, логические ошибки и предложить конкретные улучшения для достижения общей цели.
  3. Шаг 3: Синтез. При необходимости вы просите модель объединить лучшее из первоначального варианта и предложений критика в финальный, улучшенный ответ.

Этот подход заставляет модель задействовать разные паттерны рассуждений, что помогает выявлять и исправлять ошибки, от которых не застрахован "одиночный" проход.

  • Прямая применимость: Очень высокая. Пользователь может симулировать этот процесс в любом чат-боте. Для этого нужно в одном и том же диалоге последовательно формулировать промты, назначая LLM разные роли. Например: "Сначала выступи как креативный копирайтер и напиши рекламу. ... [получаем ответ] ... Теперь ты — прагматичный редактор. Проверь этот текст на соответствие брифу и найди слабые места".

  • Концептуальная ценность: Огромная. Исследование дает понимание, что LLM подвержена "когнитивным искажениям" и "туннельному зрению", как и человек. Заставляя ее сменить роль, мы заставляем ее посмотреть на проблему под новым углом, что является мощным механизмом для самокоррекции. Пользователь начинает мыслить не как "задающий вопросы", а как "менеджер команды виртуальных экспертов".

  • Потенциал для адаптации: Метод универсален и легко адаптируется для любой сложной задачи, где важна точность и полнота.

    • Написание текста: Роли "Креативный автор" и "Строгий редактор".
    • Бизнес-планирование: Роли "Оптимистичный стратег" и "Пессимистичный финансовый аналитик (адвокат дьявола)".
    • Программирование: Роли "Разработчик, пишущий код" и "Тестировщик, ищущий баги и крайние случаи". Механизм адаптации прост: определите два взаимодополняющих или конфликтующих взгляда на вашу задачу и назначьте их LLM в качестве последовательных ролей.
### **Промпт 1: Роль "Креативный маркетолог"**

**Роль:** Ты — опытный креативный маркетолог, работающий в агентстве. Твой стиль — яркий, смелый и эмоциональный.

**Задача:** Разработай концепцию рекламной кампании для нового продукта: "умной" бутылки для воды "AquaMind", которая отслеживает потребление воды и напоминает о необходимости пить с помощью световых сигналов.

**Целевая аудитория:** Молодые профессионалы 25-40 лет, которые заботятся о здоровье, но часто забывают пить воду из-за занятости.

**Что нужно сделать:**
1.  Придумай главный слоган кампании.
2.  Опиши ключевую идею для 30-секундного рекламного ролика.
3.  Предложи 3 идеи для постов в социальных сетях.

**Формат ответа:** Структурируй ответ по пунктам.

(После получения ответа от LLM, пользователь копирует его и использует в следующем промте)

### **Промпт 2: Роль "Партнер-аналитик" (Peer-to-Peer)**

**Роль:** Теперь ты — другой маркетолог из того же агентства, равный по опыту и статусу своему коллеге. Твоя сильная сторона — прагматизм, аналитика и фокус на конкретной пользе для клиента.

**Контекст:** Твой коллега предложил креативную концепцию для рекламной кампании бутылки "AquaMind". Ваша общая цель — сделать кампанию максимально сильной и убедительной.

**Задача:** Проанализируй предложенную концепцию и выступи в роли конструктивного партнера.

**Вот концепция от твоего коллеги:**
<ТУТ НУЖНО ВСТАВИТЬ ПОЛНЫЙ ОТВЕТ, ПОЛУЧЕННЫЙ НА ПРЕДЫДУЩЕМ ШАГЕ>

**Что нужно сделать:**
1.  **Оцени слоган:** Насколько он понятен и убедителен для целевой аудитории? Есть ли риск, что его поймут неправильно? Предложи свой, более прагматичный вариант.
2.  **Проанализируй идею ролика:** Не слишком ли она абстрактна? Достаточно ли четко показана *проблема* (забывчивость, обезвоживание) и ее *решение* с помощью бутылки?
3.  **Изучи посты для соцсетей:** Какие конкретные цифры или факты о пользе гидратации можно добавить, чтобы сделать их более убедительными?
4.  **Сформулируй итоговые рекомендации:** Предложи 2-3 конкретных улучшения, чтобы сбалансировать креатив и практическую пользу в кампании.

Этот подход работает за счет симуляции "peer-to-peer collaboration", самого эффективного режима из исследования.

  1. Две разные "ментальные модели": Первый промпт активирует у LLM паттерны, связанные с креативностью и эмоциями ("яркий, смелый"). Второй промпт заставляет ее переключиться на совершенно другой набор паттернов — аналитику, прагматизм и поиск недостатков ("фокус на конкретной пользе").
  2. Конструктивная критика: Промпт 2 не просто просит "проверить", а дает четкие инструкции для критики ("насколько понятен?", "не слишком ли абстрактна?"), направляя внимание модели на потенциальные слабые места.
  3. Общая цель: Формулировка "Ваша общая цель — сделать кампанию максимально сильной" настраивает LLM на сотрудничество, а не на простое отрицание, что соответствует духу "peer-to-peer" взаимодействия. Это заставляет модель не просто найти ошибки, но и предложить пути их исправления.
### **Промпт 1: Роль "Энтузиаст-путешественник"**

**Роль:** Ты — опытный путешественник и блогер. Ты обожаешь составлять насыщенные, полные впечатлений маршруты.

**Задача:** Составь детальный план 7-дневной поездки в Лиссабон для молодой пары (28-30 лет), которая едет туда впервые. Они любят историю, вкусную еду и красивые виды. Бюджет средний.

**Что нужно сделать:**
*   Распиши план на каждый из 7 дней.
*   Включи знаковые достопримечательности, нетуристические места, рекомендации по ресторанам и вечерним развлечениям.
*   Сделай план максимально интересным и насыщенным.

(После получения ответа от LLM)

### **Промпт 2: Роль "Прагматичный партнер" (Peer-to-Peer)**

**Роль:** Теперь ты — один из участников этой поездки. Ты любишь своего партнера-энтузиаста, но подходишь к планированию более практично. Ты ценишь комфорт, не любишь спешку и следишь за тем, чтобы отдых не превратился в марафон.

**Контекст:** Твой партнер составил очень насыщенный план поездки в Лиссабон. Вы вместе хотите его доработать, чтобы он был идеальным для вас обоих.

**Задача:** Проанализируй предложенный план с точки зрения реалистичности и комфорта.

**Вот план от твоего партнера:**
<ТУТ НУЖНО ВСТАВИТЬ ПОЛНЫЙ ПЛАН ПОЕЗДКИ ИЗ ПРЕДЫДУЩЕГО ШАГА>

**Что нужно сделать:**
1.  **Оцени темп:** Какие дни выглядят слишком перегруженными? Где можно что-то убрать или поменять местами, чтобы избежать спешки и усталости?
2.  **Проверь логистику:** Насколько удобно добираться между предложенными точками в один день? Может, есть более оптимальные маршруты?
3.  **Добавь время на отдых:** Где в плане можно добавить свободное время, чтобы просто посидеть в кафе, погулять без цели или отдохнуть в отеле?
4.  **Предложи компромиссные варианты:** Сформулируй итоговый, более сбалансированный и реалистичный план, который сохранит дух приключений, но будет более комфортным.

Механизм успеха этого примера основан на тех же принципах, что и в исследовании, но адаптирован под задачу планирования.

  1. Смена перспективы: Первый промпт генерирует "идеалистичный" план с максимальным количеством активностей. Второй промпт заставляет LLM посмотреть на тот же план с позиции "реалиста", для которого важны темп, логистика и отдых. Это две разные, но одинаково важные точки зрения.
  2. Выявление скрытых проблем: Роль "прагматика" специально нацелена на поиск проблем, которые "энтузиаст" мог проигнорировать: усталость, нереалистичные тайминги, транспортные неудобства.
  3. Совместная доработка (Collaboration): Промпт 2 просит не просто вычеркнуть лишнее, а "предложить компромиссные варианты" и создать "более сбалансированный план". Это заставляет LLM синтезировать новую, улучшенную версию, объединяя достоинства обоих подходов, что является сутью эффективного "peer-to-peer" взаимодействия.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да. Исследование напрямую изучает эффективность различных ролевых моделей ("учитель-ученик", "коллеги"), которые задаются через промты. Это фундаментальная техника промт-инжиниринга.
  • B. Улучшение качества ответов: Да. Доказано, что подход с двумя агентами повышает точность решения задач (с 47% до 54%), а режим "коллеги" (peer-to-peer) является самым эффективным.
  • C. Прямая практическая применимость: Да. Хотя обычный пользователь не может запустить двух агентов одновременно, он может легко симулировать этот процесс в одном чате, последовательно давая LLM разные роли для генерации и последующей критики ответа. Это не требует кода или специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную ментальную модель: для сложных задач LLM работает лучше не как оракул, а как "команда специалистов". Оно доказывает ценность итеративной критики и совместной доработки, объясняя, почему промты в стиле "проверь свою работу" или "выступи в роли критика" так эффективны.
  • E. Новая полезная практика: Работа попадает в несколько кластеров:
    • Кластер 1 (Техники формулирования): Явно использует и сравнивает техники ролевых игр (role-play).
    • Кластер 2 (Поведенческие закономерности): Демонстрирует, что LLM, как и человек, выигрывает от "второго мнения", что приводит к более точным результатам.
    • Кластер 7 (Надежность и стабильность): Основная цель метода — повышение точности и снижение ошибок (галлюцинаций) через перекрестную проверку.
  • Чек-лист практичности (+15 баллов): Дает готовые конструкции для промптов (описание ролей), показывает, как структурировать сложные запросы (через диалог), раскрывает неочевидные особенности поведения LLM (peer-to-peer эффективнее teacher-student) и предлагает способ улучшить точность. Это дает +15 баллов к базовой оценке.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (93/100): Исследование дает научное обоснование одной из самых мощных техник продвинутого промптинга — симуляции нескольких ролей для решения одной задачи. Оно не просто говорит "делайте так", а доказывает, почему это работает, и определяет какой именно режим взаимодействия ("коллеги") наиболее эффективен. Вывод о том, что равноправное сотрудничество (peer-to-peer) дает лучший результат, — это конкретный, практически применимый инсайт, который можно немедленно использовать для улучшения качества ответов на сложные запросы. Метод легко адаптируется обычным пользователем в рамках одного чата.

Контраргументы (почему оценка могла быть ниже): * Узкая область тестирования: Исследование сфокусировано на решении математических задач. Хотя принципы, вероятно, универсальны, их эффективность для креативных или гуманитарных задач не доказана в этой работе. * Требует адаптации: Метод описан для системы из двух агентов, и пользователю нужно самостоятельно догадаться, как симулировать этот процесс в обычном чате. Это требует небольшого шага от прямого применения к адаптации. * Увеличение трудозатрат: Подход требует не одного, а как минимум двух последовательных промтов и анализа промежуточных результатов, что усложняет и удлиняет процесс взаимодействия с LLM.


📋 Дайджест исследования

Ключевая суть

Та же модель, тот же чат — но второй запрос написан от лица равного коллеги, а не начальника. Звучит как мелочь. Но именно это работает лучше всего. Метод позволяет симулировать в обычном чате работу двух независимых экспертов — без дополнительных инструментов и дообучения. Фишка в балансе сил: схема «учитель → ученик» проигрывает схеме «коллега ↔ коллега». Равному не нужно соглашаться из вежливости — и модель начинает реально критиковать, а не формально одобрять.

Принцип работы

Два прохода с разными ролями — и точка. Не нужно усложнять. Сначала модель решает задачу как «исполнитель» со своим стилем и углом зрения. Потом получает ту же задачу и свой ответ — но уже в роли равного партнёра с другими приоритетами. Главное: второй агент должен быть равным по статусу, а не вышестоящим. Не «старший редактор проверяет текст», а «другой редактор с тем же опытом смотрит на тот же текст». Это убирает дефолтное «ну, в целом сойдёт» и включает настоящий конструктивный скептицизм. Логика A→B→C: — A: первый агент генерирует решение — B: второй агент-«коллега» ищет слабые места и предлагает улучшения — C: при необходимости — синтез лучшего из обоих

Почему работает

LLM застревает на первом варианте ответа. Это не баг — это паттерн: модель фиксирует логику рассуждений в начале и потом движется по ней до конца, даже если где-то свернула не туда. Назови это «туннельным зрением». Смена роли ломает этот туннель. Модель буквально переключает наборы паттернов рассуждений — то, что «маркетолог» посчитал очевидным, «аналитик» ставит под сомнение. Именно поэтому равные роли работают лучше иерархических: у коллеги нет социального мотива соглашаться — и модель не ищет подтверждения, а ищет проблемы. Важная оговорка: исследование проводилось на математических задачах с двумя отдельными копиями GPT-4o. Ты делаешь это последовательно в одном чате — это близкая симуляция, но не то же самое. На практике всё равно работает, просто держи это в голове.

Когда применять

Любая задача, где первый проход почти всегда неидеален — особенно когда цена ошибки высокая. Письмо и редактура → роль «автор» + роль «редактор с другим вкусом». Бизнес-анализ → роль «оптимист-стратег» + роль «финансовый скептик». Код → роль «разработчик, пишущий решение» + роль «тестировщик, ищущий крайние случаи». Планирование → роль «энтузиаст, набивающий программу» + роль «прагматик, следящий за темпом». НЕ подходит для: простых однозначных задач («переведи этот текст», «посчитай сумму»). Там второй проход не добавит ничего, только потратит время.

Мини-рецепт

1. Сформулируй две роли: найди пару взглядов, которые конфликтуют или дополняют друг друга. Главное — равный статус, без иерархии. Не «старший проверяет младшего», а «двое коллег с разными приоритетами».

2. Первый промпт — роль исполнителя: дай модели роль и саму задачу. Получи полный ответ.

3. Второй промпт — роль равного партнёра: смени роль. Скопируй ответ из шага 2 прямо в промпт. Попроси не просто «найти ошибки», а задай конкретные вопросы для критики — это важно. Добавь общую цель: «Нам обоим нужен лучший результат».

4. Синтез (по желанию): попроси объединить сильные стороны обоих ответов в финальную версию.

Примеры

[ПЛОХО] : Напиши концепцию рекламной кампании для приложения по медитации
[ХОРОШО] : Промпт 1: Ты — креативный директор с опытом в wellness-маркетинге. Твой стиль — эмоциональный и образный. Придумай концепцию рекламной кампании для приложения по медитации. Целевая аудитория: занятые люди 30-45 лет с высоким уровнем стресса. Нужен: слоган, идея главного ролика, три идеи для постов. После получения ответа — Промпт 2: Ты — маркетолог с таким же опытом, но другим подходом: ты мыслишь данными и ищешь конкретную пользу для пользователя. Твой коллега предложил концепцию кампании (ниже). Ваша общая цель — сделать кампанию максимально сильной. Проверь: насколько слоган понятен без контекста? Не слишком ли ролик абстрактен — видна ли конкретная проблема и её решение? Какие факты или цифры усилили бы посты? Предложи 2-3 конкретных улучшения. [Вставь ответ из промпта 1]
Источник: Exploring Communication Strategies for Collaborative LLM Agents in Mathematical Problem-Solving
ArXiv ID: 2507.17753 | Сгенерировано: 2026-03-02 18:00

Проблемы LLM

ПроблемаСутьКак обойти
Модель подтверждает свои же ошибки при самопроверкеПросишь LLM проверить свой ответ. Она находит его "в целом верным". Проблема в том, что проверка идёт из той же точки зрения, что и генерация. Модель не может самостоятельно выйти из своего угла зрения. Ошибки, которые возникли в первом проходе, остаются невидимы во второмСмени роль перед проверкой. Главное: роль должна быть не "проверяющий" (это иерархия), а "равный коллега с другим фокусом". Равный ищет улучшения. Проверяющий — просто ошибки. Разница в результате большая

Методы

МетодСуть
Два запроса — два равных партнёраЗапрос 1 — роль А: дай задачу с конкретной ролью. Например: Ты — креативный копирайтер. Напиши... Получи ответ. Запрос 2 — роль Б: вставь ответ из запроса 1 и дай новую роль. Ключевое условие: роль Б должна быть равной по статусу, но с другим фокусом. Не "проверь это", а Ты — маркетолог-аналитик из того же агентства. Ваша общая цель — сделать кампанию сильнее. Вот что предложил коллега: <ответ>. Найди слабые места и предложи улучшения. Почему работает: другая роль активирует другие паттерны. Фокус на "анализ и польза" вместо "эмоции и креатив" — модель буквально смотрит с другой точки зрения. Когда применять: сложные задачи, где важны полнота и точность. Написание текстов, планирование, разбор аргументов, анализ кода. Когда не работает: простые фактические вопросы. Там второй проход не даёт выигрыша
📖 Простыми словами

Exploring Communication Strategies for CollaborativeLLMAgents in Mathematical Problem-Solving

arXiv: 2507.17753

Суть исследования в том, что несколько нейронок решают сложные задачи гораздо лучше, если они не просто кивают друг другу, а критикуют и дополняют идеи коллег. Когда одна модель выступает в роли «генератора», а другая — «рецензента», они перестают плодить одинаковые ошибки. Это работает на уровне архитектуры рассуждений: LLM склонны соглашаться с первым попавшимся логичным вариантом, но если заставить их вскрывать косяки в чужих ответах, точность решений в математике и логике взлетает.

Это как если бы ты делал ремонт в одиночку: глаз замыливается, и ты не замечаешь, что розетка стоит криво. Но если позвать друга-перфекциониста, который будет тыкать пальцем в каждый недочет, результат получится на порядок выше. В исследовании это называют peer-to-peer collaboration — когда модели общаются на равных, спорят и перепроверяют друг друга, вместо того чтобы просто выдавать поток сознания в пустоту.

В работе выделили конкретные стратегии: структурированная критика (когда модель ищет слабые места), итеративное уточнение (постепенная доработка идеи) и агрегация мнений. Цифры показывают, что связка из двух средних моделей, которые активно общаются, может обойти одну «умную», но одинокую модель. Главный метод здесь — динамический диалог, где каждая следующая реплика базируется на анализе предыдущих ошибок, а не просто повторяет задание.

Хотя тестировали это на математических задачах, принцип универсален. Это работает для маркетинга, программирования или написания текстов. Вместо того чтобы просить одну нейронку «сделай мне хорошо», нужно заставить две модели играть в пинг-понг идеями. Одна набрасывает креатив, вторая ищет в нем слабые места, первая исправляет — и так до тех пор, пока результат не станет идеальным. Одиночный промпт — это лотерея, а коллаборация агентов — это система.

Короче: если хочешь выжать из AI максимум, перестань воспринимать его как калькулятор. Создавай цепочки из разных ролей, где одна нейронка проверяет другую. Это превращает процесс из «надеюсь, она не заглючит» в контролируемую интеллектуальную конвейерную ленту. Кто научится стравливать модели между собой ради поиска истины, тот получит результаты, которые недоступны обычным пользователям с их «напиши мне пост».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с