3,583 papers
arXiv:2506.20664 88 1 июня 2025 г. FREE

Декриптобенчмарк для многопользовательского рассуждения и теории разума

КЛЮЧЕВАЯ СУТЬ
LLM по умолчанию предполагает, что у всех участников диалога или сценария есть доступ к той же информации, что и у самой модели, что ведет к провалу в задачах, требующих взгляда с чужой, ограниченной точки зрения.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование представляет игровой бенчмарк "Decrypto" для оценки способности LLM к рассуждению в многопользовательских сценариях, в частности для проверки их "Теории Разума" (ToM) — умения моделировать знания и намерения других. Эксперименты показали, что даже самые продвинутые модели (GPT-4o, Claude 3.7) плохо справляются с этой задачей, особенно когда им нужно понять, какой информациейне обладаетдругой участник.

Ключевой результат: LLM по умолчанию предполагает, что у всех участников диалога или сценария есть доступ к той же информации, что и у самой модели, что ведет к провалу в задачах, требующих взгляда с чужой, ограниченной точки зрения.

🔬

2. Объяснение всей сути метода:

Суть метода для практического применения в промптах заключается впринципе явного разграничения знаний (Explicit Knowledge Scoping).

Исследование доказывает, что LLM не умеет самостоятельно и надежно делать вывод о том, "что знает X, а чего он не знает". Если вы даете промпт "Ты — опытный маркетолог, напиши письмо для клиента", модель подсознательно будет считать, что "клиент" тоже немного маркетолог и понимает внутреннюю кухню, о которой знает модель. Это приводит к использованию жаргона, неуместных деталей и в целом к неудачному результату.

Практический метод состоит в том, чтобы не полагаться на способность LLM к эмпатии или моделированию чужого сознания. Вместо этого пользователь должен действовать как "режиссер", который явно и директивно прописывает в промпте: 1. Какие "роли" или "персонажи" существуют в задаче. 2. Какой информацией обладает каждая роль. 3. И самое главное — какой информацией каждая роль НЕ ОБЛАДАЕТ.

Вы буквально создаете для LLM "ментальные контейнеры" для каждого участника и вручную наполняете их доступной информацией, а все остальное помечаете как "неизвестное". Это заставляет модель генерировать ответ строго в рамках заданных ограничений, имитируя настоящую "Теорию Разума".

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь может немедленно улучшить свои промпты для ролевых игр, генерации обучающих материалов или маркетинговых текстов. Для этого нужно добавить в промпт специальный раздел, где четко описываются роли и, что важнее всего,границы их знаний. Например:Роль 1: Эксперт. Знает всё. Роль 2: Новичок. Не знает терминов A, B, C.Это прямое применение выводов исследования.

  • Концептуальная ценность: Пользователь перестает воспринимать LLM как "сознательное существо", способное к эмпатии. Вместо этого приходит понимание, что это — мощный, но "наивный" обработчик текста, который нужно явно направлять. Концептуальная идея: "LLM страдает 'проклятием знания' — ему трудно представить, что кто-то может чего-то не знать из того, что известно ему". Это знание экономит массу времени и нервов.

  • Потенциал для адаптации: Метод легко адаптируется для любых сложных задач.

    • Написание сценария: Персонаж 1 знает, кто убийца. Персонаж 2 — не знает.
    • Подготовка к переговорам: Ваша позиция: вы знаете о проблемах с поставками. Позиция оппонента: он НЕ ЗНАЕТ об этих проблемах и думает, что у вас все хорошо.
    • Техподдержка: Ты — агент поддержки. Пользователь — не видит твой экран и НЕ знает, где находится кнопка 'Настройки'. Механизм адаптации прост: выявить в задаче разных "агентов" и явно прописать информационный разрыв между ними.

🚀

4. Практически пример применения:

# ЗАДАЧА: Написать короткое и убедительное email-письмо для продвижения новой услуги "AI-Аналитик для соцсетей".

# КОНТЕКСТ И РОЛИ:

Ты — опытный маркетолог в B2B-компании "InnovateTech". Твоя задача — "прогреть" холодных лидов.

### Роли и их знания:

1. **Твоя роль: Маркетолог "InnovateTech".**- **Что ты знаешь:** Ты досконально знаешь продукт "AI-Аналитик". Знаешь, что он работает на GPT-4, анализирует тональность комментариев, отслеживает упоминания бренда, строит графики вовлеченности и экономит SMM-менеджерам до 10 часов в неделю. Знаешь, что цена — $99/месяц.
2. **Роль получателя: Владелец малого бизнеса (например, кофейни или локального магазина одежды).**- **Что он знает:** Он ведет соцсети своего бизнеса, понимает важность лайков и комментариев. Он занят, у него мало времени.
- **ЧЕГО ОН НЕ ЗНАЕТ (ЭТО ВАЖНО):** Он **НЕ ЗНАЕТ** терминов "SMM", "вовлеченность (engagement rate)", "тональность (sentiment analysis)", "API", "GPT-4". Он не понимает, чем ваш продукт лучше десятков других. Он очень скептически относится к сложным IT-решениям.

# ИНСТРУКЦИИ К ПИСЬМУ:

1. **Тема письма:** Придумай цепляющую тему, понятную владельцу бизнеса.
2. **Стиль:** Простой, уважительный, без "воды" и без технического жаргона. Говори на языке выгод, а не функций.
3. **Структура:**- Начни с понимания его "боли" (мало времени, непонятно, что пишут клиенты).
- Предложи простое решение, объясни его суть "на пальцах". Например, вместо "анализ тональности" скажи "поможет понять, хвалят вас клиенты или ругают".
- Сделай одно простое предложение (CTA) — например, посмотреть 1-минутное видео или получить 3 примера пользы для его бизнеса.

Напиши текст письма, строго придерживаясь описанных ролей и их уровня знаний.

🧠

5. Почему это работает:

Этот промпт эффективен, потому что он напрямую компенсирует слабость LLM в "Теории Разума", выявленную в исследовании:

  1. Явное разграничение знаний: Вместо общей фразы "напиши для новичка", промпт создает два четких "контейнера знаний": Маркетолог и Владелец малого бизнеса.
  2. Фокус на "незнании": Ключевая конструкция — ЧЕГО ОН НЕ ЗНАЕТ. Эта часть промпта принудительно ограничивает модель. Она не может использовать термины вроде "engagement rate" или "sentiment analysis", потому что ей прямо запретили это делать, указав на информационный провал у получателя.
  3. Перевод функций в выгоды: Инструкция Говори на языке выгод, а не функций и пример вместо "анализ тональности" скажи "поможет понять, хвалят вас клиенты или ругают" — это прямое следствие применения метода. Мы заставляем модель совершить мыслительную операцию, которую она сама бы не сделала: "перевести" информацию из мира "знающего" в мир "незнающего".

В итоге, мы не надеемся, что LLM "догадается", как думает владелец кофейни. Мы даем ей четкую инструкцию, как симулировать этот образ мышления, основываясь на заданных ограничениях знаний.


📌

6. Другой пример практического применения

# ЗАДАЧА: Подготовить скрипт для 3-минутного видеоролика, объясняющего сотрудникам компании суть перехода на новую CRM-систему "Nexus".

# КОНТЕКСТ И РОЛИ:

Ты — руководитель отдела внедрения. Твоя задача — снять тревожность у команды и показать пользу новой системы.

### Роли и их знания:

1. **Твоя роль: Руководитель отдела внедрения.**- **Что ты знаешь:** Новая CRM "Nexus" интегрируется с бухгалтерией, автоматически формирует отчеты, у нее есть мобильное приложение, и она заменит три старые программы. Ты знаешь, что переход займет 2 недели.
2. **Роль зрителя: Рядовой менеджер по продажам.**- **Что он знает:** Он привык работать в старой CRM, знает ее недостатки (тормозит, нет нужных полей). Он боится, что на обучение новой системе уйдет много времени, и это помешает ему выполнять план продаж. Он ценит простоту и скорость.
- **ЧЕГО ОН НЕ ЗНАЕТ (ЭТО ВАЖНО):** Он **НЕ ЗНАЕТ** о конкретных выгодах "Nexus" (например, что не придется вручную копировать данные в Excel для отчета). Он **НЕ ПОНИМАЕТ** технических деталей "интеграции с бухгалтерией". Он **НЕ ВЕРИТ** общим фразам вроде "повысит эффективность". Ему нужны конкретные примеры, связанные с его ежедневной работой.

# ИНСТРУКЦИИ К СКРИПТУ:

1. **Цель видео:** Не обучить, а "продать" идею перехода команде. Снять страхи, показать личную выгоду для каждого.
2. **Стиль:** Дружелюбный, уверенный. Избегай корпоративного канцелярита и технических терминов.
3. **Структура скрипта (по сценам):**- **Сцена 1 (0-20 сек):** Признай проблему. "Друзья, я знаю, что вы думаете о старой CRM. Да, она неудобна. И я знаю, что новость о переходе вызывает тревогу".
- **Сцена 2 (20-90 сек):** Покажи 3 конкретных улучшения "до и после". Не "автоматизация отчетов", а "Помните, как вы каждый вечер тратили 20 минут, чтобы скопировать данные для отчета? В Nexus это делается одной кнопкой за 5 секунд. Вот, смотрите".
- **Сцена 3 (90-150 сек):** Адресуй главный страх. "Сколько времени займет обучение? Мы сделали короткие 5-минутные уроки. Уже через час вы будете работать в ней быстрее, чем в старой".
- **Сцена 4 (150-180 сек):** Призыв к действию и поддержка. "На следующей неделе мы проведем короткую встречу. Ваша работа станет проще. Мы поможем".

Напиши текст для диктора для каждой сцены, ориентируясь на восприятие менеджера по продажам.

🧠

7. Объяснение механизма почему этот пример работает.

Этот промпт работает по тому же принципу явного разграничения знаний, что и предыдущий, но в контексте внутренней коммуникации.

  1. Моделирование эмпатии через логику: LLM не может "почувствовать" страх менеджера перед новой программой. Но мы можем заставить ее действовать так, как будто она его чувствует. Конструкция Он боится, что на обучение уйдет много времени и НЕ ВЕРИТ общим фразам — это логические ограничения, которые заставляют модель генерировать не абстрактные лозунги, а целевые сообщения, работающие с конкретными возражениями.
  2. Создание информационного моста: Промпт четко разделяет миры "знающего" руководителя и "незнающего, тревожного" сотрудника. Инструкции вроде Покажи 3 конкретных улучшения "до и после" заставляют LLM строить мост между этими мирами — брать факт из мира руководителя (автоматизация отчетов) и переводить его на язык понятной выгоды для мира сотрудника (не придется тратить 20 минут вечером).
  3. Предотвращение "проклятия знания": Без этих четких инструкций LLM, скорее всего, сгенерировал бы стандартный корпоративный текст: "Уважаемые коллеги, в рамках повышения операционной эффективности мы внедряем инновационную CRM-платформу Nexus...". Явно прописав, что сотрудник НЕ ПОНИМАЕТ таких фраз, мы блокируем этот неэффективный путь и направляем генерацию в русло простого и человечного объяснения.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Косвенная, но высокая. Исследование не дает готовых фраз, но раскрывает фундаментальную уязвимость LLM ("ментальную слепоту"), что позволяет создавать более надежные промпты для сложных сценариев.
  • B. Улучшение качества диалоговых ответов: Значительное. Понимание выводов исследования помогает предотвратить частую проблему, когда LLM в режиме ролевой игры "проговаривается" и использует информацию, которой у его персонажа быть не должно.
  • C. Прямая практическая применимость: Средняя. Пользователю нужно осмыслить концепцию и самостоятельно адаптировать ее в свои промпты. Нет готовых "копипаст" решений.
  • D. Концептуальная ценность: Очень высокая. Исследование наглядно демонстрирует слабость LLM в "Теории Разума" (Theory of Mind, ToM) — способности моделировать знания, убеждения и намерения других. Это ключевой инсайт для понимания ограничений современных моделей.
  • E. Новая полезная практика (кластеризация):

    • Кластер 2 (Поведенческие закономерности LLM): Исследование напрямую попадает в этот кластер. Оно выявляет критическую поведенческую закономерность: LLM плохо справляются с задачей "взгляда со стороны" (perspective taking) и склонны считать, что другие агенты (или персонажи) обладают той же информацией, что и они сами.
  • Чек-лист практичности (+15 баллов):

    • Дает готовые фразы/конструкции для промптов? (Нет)
    • Объясняет, где в промпте размещать важную информацию? (Нет)
    • Показывает, как структурировать сложные запросы? (Да, косвенно, для ролевых сценариев)
    • Раскрывает неочевидные особенности поведения LLM? (Да, это суть исследования)
    • Раскрывает эффективные метода суммаризации текста (Нет)
    • Предлагает способы улучшить consistency/точность ответов? (Да, через явное указание границ знаний)
📌

2 Цифровая оценка полезности

Исследование получает 88 баллов, так как оно вскрывает одну из самых важных и неочевидных для обычного пользователя проблем современных LLM — неспособность качественно моделировать чужую точку зрения и уровень знаний. Это не просто академический вывод, а фундаментальное знание, которое напрямую влияет на успех промптов в задачах, требующих ролевой игры, объяснения сложных тем для новичков или моделирования диалогов.

Аргументы за высокую оценку:

* Фундаментальный инсайт: Понимание слабости LLM в "Теории Разума" (ToM) — это качественный скачок в понимании того, "как думает" модель. Это объясняет, почему LLM часто проваливает ролевые игры или пишет объяснения для новичков с использованием сложного жаргона.
* Предотвращение ошибок: Знание этого принципа позволяет пользователю заранее "подстелить соломку" в промпте, явно разграничивая знания разных персонажей, и тем самым избежать целого класса ошибок и нерелевантных ответов.
* Универсальность: Проблема ToM проявляется во всех моделях (Llama, GPT-4o, Claude) и в широком спектре задач (маркетинг, обучение, написание сценариев, продажи).

Контраргументы (почему оценка не 95-100):

* Нет прямых инструкций: Исследование не говорит: "пишите вот эту фразу". Оно описывает проблему и ее диагностику. Пользователю нужно самому догадаться, как превратить этот вывод в работающий промпт.
* Академический язык: Статья написана для исследователей. Обычному пользователю придется продираться через термины (RSA framework, Hessian determinant, a-hoc coordination), чтобы добраться до сути.
* Фокус на бенчмарке: Основная цель авторов — представить бенчмарк (Decrypto), а не написать гайд по промптингу. Практические выводы для пользователя являются побочным, хотя и очень ценным, продуктом.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с