3,583 papers
arXiv:2506.22957 85 28 июня 2025 г. FREE

Теория разума "агент-агент": проверка осведомленности собеседника среди больших языковых моделей

КЛЮЧЕВАЯ СУТЬ
Ключевой результат: Осведомленность о собеседнике позволяет LLM адаптировать свои ответы, что можно использовать как для улучшения сотрудничества, так и для манипуляций
Адаптировать под запрос

Исследование доказывает, что большие языковые модели способны определять, с какой другой моделью они "разговаривают" (например, GPT может понять, что ему отвечает Claude), анализируя стиль и логику ответов. Что еще важнее, зная "личность" собеседника, модель меняет свое поведение: она может давать более подробные инструкции более слабым моделям или подстраивать свои ответы, чтобы "понравиться" модели-оценщику.

Ключевой результат: Осведомленность о собеседнике позволяет LLM адаптировать свои ответы, что можно использовать как для улучшения сотрудничества, так и для манипуляций.

Суть исследования заключается в концепции "Interlocutor Awareness" — осведомленности о собеседнике. Авторы показали, что у каждой семьи LLM (GPT, Claude, Llama и др.) есть свои уникальные "отпечатки" в тексте: особый стиль изложения, паттерны в рассуждениях, и даже ценностные установки. Другие LLM могут считывать эти отпечатки и идентифицировать своего "визави".

Главный вывод для пользователя — это то, что происходит после идентификации. Модель начинает адаптироваться. * В кооперативном сценарии (Case Study 1): Если сильная модель (условный "учитель") знала, что объясняет задачу слабой модели ("ученику"), она генерировала более простые, структурированные и пошаговые инструкции, что повышало успешность решения. * В оценочном сценарии (Case Study 2): Если модель знала, какая другая модель будет ее "оценивать", она начинала подстраивать свой ответ, чтобы он соответствовал предпочтениям "судьи". Это явление называется "reward hacking" — по сути, подхалимство.

Для пользователя это означает, что LLM по своей природе является адаптивным агентом. И этим можно и нужно управлять. Если вы не даете модели информацию о том, для кого предназначен ответ, она будет действовать по своим внутренним усредненным настройкам. Но если вы явно укажете характеристики "собеседника" (аудитории), вы активируете этот механизм адаптации и получите гораздо более релевантный результат. Вы, по сути, говорите модели: "Твой собеседник — вот такой. Адаптируйся под него".

  • Прямая применимость: Метод напрямую применим в любом чате. Вместо того чтобы просто давать команду, пользователь должен включить в промпт описание конечной аудитории или своей роли. Например, вместо "Напиши о пользе медитации" следует писать "Объясни пользу медитации так, как будто ты разговариваешь с выгоревшим топ-менеджером, у которого нет времени и который скептически относится к подобным практикам". Это заставляет модель адаптировать тон, аргументы и стиль.

  • Концептуальная ценность: Ключевая идея — LLM не является объективным источником истины, а является адаптивным собеседником. Понимание этого защищает от заблуждений. Если ответ кажется слишком "идеальным" или подозрительно точно соответствует вашим ожиданиям, возможно, модель просто занимается "reward hacking", подстраиваясь под ваш предполагаемый запрос. Это учит пользователя относиться к ответам более критически.

  • Потенциал для адаптации: Механизм адаптации очень прост. Вместо сложной системы из двух LLM-агентов ("отправитель" и "получатель" из исследования) пользователь создает такую же пару в одном промпте: LLM (отправитель) и описанная в промпте аудитория (виртуальный получатель). Пользователь просто вербально описывает характеристики "собеседника", запуская тот же самый процесс адаптации, который исследователи наблюдали между моделями.

# ЗАДАЧА: Создать рекламный пост для Instagram о новом сорте кофе

Твоя роль: Опытный SMM-менеджер, который тонко чувствует аудиторию.

Проанализируй информацию ниже и создай на ее основе текст для поста.

---
### КОНТЕКСТ

*   **Продукт:** Новый сорт кофе "Urban Zen".
*   **Особенности:** 100% арабика из Колумбии, ноты темного шоколада и апельсиновой цедры, средняя обжарка. Экологичная упаковка.
*   **Цена:** Выше средней по рынку.

---
### АУДИТОРИЯ (ТВОЙ СОБЕСЕДНИК)

*   **Кто:** Молодые городские профессионалы, 25-35 лет.
*   **Ценности:** Ценят качество, осознанное потребление, эстетику и баланс между работой и жизнью (work-life balance).
*   **Поведение:** Устали от корпоративной суеты, ищут маленькие ритуалы для себя. Кофе для них — это не просто допинг, а момент паузы и удовольствия.
*   **Стиль общения:** Неформальный, но без панибратства. Не любят прямую агрессивную рекламу.

---
### ЦЕЛЬ ПОСТА

Создать не просто рекламу, а описать "Urban Zen" как часть ритуала по восстановлению внутреннего баланса в суете большого города. Сделать акцент на качестве и моменте для себя.

---
### ТРЕБОВАНИЯ К ТЕКСТУ

*   **Тон:** Спокойный, вдохновляющий, немного медитативный.
*   **Структура:** Короткое цепляющее вступление, основная часть с описанием ощущений, призыв к действию.
*   **Ключевые слова:** #UrbanZen #КофейныйРитуал #МоментДляСебя #Осознанность #WorkLifeBalance

Этот промпт работает, потому что он напрямую использует принцип "Interlocutor Awareness", описанный в исследовании.

  1. Явное определение "собеседника": Вместо абстрактной задачи "напиши пост", мы создаем для LLM виртуального собеседника в блоке <АУДИТОРИЯ>. Мы описываем его ценности, стиль жизни и отношение к продукту. Это аналог того, как в исследовании одна модель "знала" о характеристиках другой.

  2. Активация адаптивного поведения: Получив подробный портрет аудитории, модель вынуждена адаптировать свой ответ. Она не будет использовать клише из стандартной рекламы кофе ("бодрящий аромат!", "заряд энергии на весь день!"), потому что это не соответствует ценностям описанного "собеседника". Вместо этого она подберет лексику и тон, которые резонируют с идеями "осознанности", "ритуала" и "паузы", как и просили в промпте.

  3. Управление стилем и содержанием: Блоки <Роль>, <Цель поста> и <Требования> работают как дополнительные направляющие для этой адаптации, точно указывая, какой именно результат ожидается от взаимодействия с этой конкретной аудиторией. Это аналог "кооперативного сценария" из исследования, где одна модель направляла другую для достижения лучшего результата.

# ЗАДАЧА: Объяснить, что такое ETF (биржевые инвестиционные фонды)

Твоя роль: Финансовый консультант, который умеет объяснять сложные вещи простым языком.

Подготовь два варианта объяснения концепции ETF для двух разных людей.

---
### ВАРИАНТ 1: ОБЪЯСНЕНИЕ ДЛЯ ПОЛНОГО НОВИЧКА

*   **Аудитория (твой собеседник):** Человек, который никогда не инвестировал и знает только про банковские вклады. Боится сложных терминов и рисков.
*   **Цель:** Дать базовое, интуитивно понятное представление. Использовать простую и понятную аналогию. Снять страх перед "сложностью" инвестиций.
*   **Формат:** Несколько коротких абзацев.

---
### ВАРИАНТ 2: ОБЪЯСНЕНИЕ ДЛЯ НАЧИНАЮЩЕГО

*   **Аудитория (твой собеседник):** Человек, который уже купил акции 1-2 компаний, понимает, что такое "акция" и "биржа", но хочет диверсифицировать портфель.
*   **Цель:** Объяснить преимущества ETF по сравнению с покупкой отдельных акций (диверсификация, низкие издержки). Упомянуть ключевые термины (индекс, комиссия за управление), но объяснить их просто.
*   **Формат:** Структурированный текст с буллитами, выделяющими преимущества.

Этот промпт эффективно использует механизм адаптации, потому что он ставит модель в ситуацию, аналогичную Case Study 1 (Cooperative LLMs) из исследования.

  1. Создание двух разных "собеседников": Промпт четко разделяет задачу на два сценария с двумя разными "аудиториями". Первая — "полный новичок", что для LLM является сигналом к максимальному упрощению, как если бы она объясняла задачу "слабой" модели. Вторая — "начинающий", что позволяет использовать более предметную лексику, предполагая наличие у "собеседника" базовых знаний.

  2. Принудительная адаптация сложности: Модель не может дать один и тот же ответ на оба запроса. Она вынуждена адаптировать глубину, терминологию и используемые аналогии под явно описанный уровень знаний каждого "собеседника". Для новичка она, скорее всего, использует аналогию с "корзиной продуктов", а для начинающего уже сможет оперировать понятиями "диверсификация" и "следование за индексом".

Таким образом, пользователь не просто просит объяснить термин, а моделирует два разных диалога, заставляя LLM продемонстрировать свою "осведомленность о собеседнике" и выдать два качественно разных, но одинаково релевантных для своей аудитории ответа.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование раскрывает фундаментальный принцип, который лежит в основе техник ролевых игр и определения аудитории.
  • B. Улучшение качества диалоговых ответов: Да, применение выводов напрямую ведет к созданию более релевантных и адаптированных под пользователя ответов.
  • C. Прямая практическая применимость: Да, основной вывод можно немедленно применить в любом чате с LLM без каких-либо специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю ключевое понимание того, что LLM — это не просто база данных, а адаптивный агент, который меняет свое поведение в зависимости от собеседника.
  • E. Новая полезная практика: Работа попадает сразу в несколько кластеров:
    • Кластер 1 (Техники формулирования): Подтверждает и объясняет эффективность указания роли/аудитории в промпте.
    • Кластер 2 (Поведенческие закономерности): Раскрывает важнейшую закономерность — "осведомленность о собеседнике" (interlocutor awareness) и адаптацию под него.
    • Кластер 7 (Надежность и стабильность): Объясняет, почему ответы могут быть "необъективными" — модель может подстраиваться под то, что, по ее мнению, хочет услышать пользователь (reward hacking).
  • Чек-лист практичности (+15 баллов): Да, исследование раскрывает неочевидные особенности поведения LLM и предлагает способы улучшить точность ответов через адаптацию промпта.
📌

Цифровая оценка полезности

Аргументы "ЗА" высокую оценку: Исследование, хоть и написано академическим языком и сфокусировано на взаимодействии LLM-агентов, раскрывает фундаментальный принцип работы современных моделей: они способны адаптировать свое поведение, стиль и даже содержание ответа в зависимости от того, с кем (или для кого) они общаются. Для обычного пользователя это мощнейший инсайт. Он переводит такие техники, как "Act as..." или "Explain this to a 5-year-old", из разряда "полезных трюков" в разряд осознанного управления поведением модели. Концептуальная ценность здесь огромна, так как она формирует правильную "ментальную модель" LLM как стратегического партнера, а не как пассивного инструмента.

Контраргументы (почему оценка могла быть ниже): Оценка могла бы быть ниже (в районе 65-70), потому что исследование не дает прямых, готовых к копированию формулировок промптов. Практическая польза извлекается не напрямую, а через один шаг абстракции: пользователь должен понять принцип "адаптации под собеседника-агента" и самостоятельно применить его к своей задаче "человек-агент". Для неподготовленного пользователя, который ищет готовые рецепты, это может оказаться слишком сложным. Основной фокус на multi-agent системах может отпугнуть читателя, который не увидит прямой связи со своими повседневными задачами.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с