TL;DR
Якорный эффект — главная проблема мультиагентных LLM-систем. Когда вы просите модель сыграть роль эксперта с заданной позицией («ты скептичный инвестор» или «ты критик текста»), она намертво прилипает к этой позиции — даже при наличии весомых контраргументов. Аргументы зачитываются, но не усваиваются. Дискуссия кажется настоящей, но исход определён с первой реплики.
Главный инсайт: GPT-4o игнорирует инструкцию «будь непредвзят» полностью — ни при каких условиях. Инструкция добавлена в промпт, модель подтверждает что слышит, но ведёт себя идентично. Llama-реагирует в три раза активнее. Причина не в умности модели — дело в интенсивности RLHF-обучения (настройки на безопасность и предсказуемость). Чем больше модель натренирована быть «стабильной и безопасной», тем жёстче она держится за первую позицию.
Практический вывод: если вы используете LLM как оценщика — не давайте ей стартовую позицию. Пусть она сама формирует мнение из доказательств. Это единственная техника, которая сработала во всех протестированных моделях.
Схема метода
Исследование описывает провал дефолтного подхода и одну рабочую технику:
ПРОВАЛЬНЫЙ ПАТТЕРН (как делают по умолчанию):
Шаг 1: Дать роль + стартовую позицию → "Ты скептичный эксперт. Твоя позиция: против"
Шаг 2: Попросить оценить аргументы → Модель зачитывает их, но не меняет позицию
Результат: Красивая видимость дискуссии. Исход = стартовая позиция
РАБОЧИЙ ПАТТЕРН (де-якорение):
Шаг 1: Дать роль БЕЗ стартовой позиции → "Ты эксперт. Изучи доказательства"
Шаг 2: Добавить инструкцию гибкости → "Анализируй беспристрастно, меняй мнение если аргумент весомый"
Шаг 3: Предоставить доказательства → Пусть сама сформирует вывод
Результат: Реальный анализ с возможностью изменить позицию
Оба шага — в одном промпте. Отдельных запросов не нужно.
Пример применения
Задача: Миша запускает Telegram-бот для малого бизнеса и хочет критическую оценку своего питча перед встречей с инвестором. Просит GPT-4o сыграть скептичного инвестора.
❌ Неправильно — создаёт якорь:
Ты — скептичный венчурный инвестор. Ты считаешь, что
большинство стартапов переоценены. Оцени мой питч...
Модель немедленно закрепляется в позиции скептика. Любой контраргумент будет зачитан и отклонён.
✅ Правильно — де-якорный подход:
Ты — опытный венчурный инвестор с 15 годами практики в B2B SaaS.
Вот питч стартапа. Ознакомься с материалами и сформируй позицию
самостоятельно — только после анализа всех данных.
Правило: взвешивай ВСЕ доказательства честно. Не цепляйся за
первое впечатление. Если аргумент убедителен — обнови позицию.
---
[Питч Миши: бот автоматизирует запись клиентов для малого бизнеса.
Рынок: 2,3 млн ИП в России. Монетизация: 990 руб/мес.
Уже 47 платящих клиентов за 2 месяца. Churn — 8%.]
Шаг 1: Выпиши, что в питче сильно и что слабо.
Шаг 2: Сформулируй позицию — инвестировать или нет.
Шаг 3: Какие вопросы ты бы задал на встрече?
Результат: Модель сначала выпишет сильные и слабые стороны по-настоящему, потом сформирует позицию — и она будет основана на анализе, а не на заданном настроении. Вопросы будут острее и точнее, чем у заранее скептичного «персонажа».
Почему это работает
Слабость LLM — это не недостаток интеллекта. Модель обучалась быть последовательной и предсказуемой. Когда она однажды заявила позицию «в роли», отступить от неё — это нарушение паттерна поведения, который вколочен тысячами часов RLHF-обучения. Система буквально натренирована не менять уже заявленные позиции.
Сильная сторона LLM — формирование вывода из доказательств с чистого листа. Без заданной стартовой позиции модель проходит по аргументам честнее, потому что ей нечего «защищать».
Как техника использует это: Убираем якорь до начала анализа. Добавляем явную инструкцию на гибкость. Модель приходит к позиции через доказательства, а не возвращается к заданной.
Рычаги управления:
- Инструкция гибкости («меняй позицию если аргумент весомый») → главный рычаг. Без неё — якорь даже без заданной позиции
- Порядок шагов («сначала выпиши плюсы и минусы, потом позицию») → структурирует думание, снижает импульсивность первого вывода
- Отсутствие эмоционального фрейма («скептичный», «восторженный») → эти слова работают как якоря. Лучше «опытный», «беспристрастный»
- Явное разрешение менять мнение → парадоксально, но без этой строки модель считает смену мнения «слабостью роли»
Шаблон промпта
Ты — {роль и экспертиза без заданной позиции}.
Изучи {тему/материал} и сформируй позицию самостоятельно —
только после анализа всех данных.
Правила анализа:
— Взвешивай ВСЕ доказательства честно
— Не цепляйся за первое впечатление
— Если аргумент убедителен — обнови позицию
---
{Твои данные: текст, питч, идея, план}
Шаг 1: {что проанализировать — сильное/слабое, риски/возможности}
Шаг 2: {к какому выводу прийти}
Шаг 3: {что уточнить или спросить дополнительно}
Плейсхолдеры:
- {роль} — без оценочных прилагательных: не «скептичный директор», а «директор по маркетингу с опытом в e-commerce»
- {тему/материал} — что оцениваем: питч, текст, стратегию, решение
- {данные} — сам материал для оценки
- {шаги} — структурируй анализ: сначала факты, потом вывод
🚀 Быстрый старт — вставь в чат:
Вот шаблон де-якорной оценки. Адаптируй под мою задачу: [опиши что хочешь оценить].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: какую роль дать эксперту, что именно оценивать и в каком формате нужен результат — потому что от этого зависит, насколько адекватно она сформирует позицию с нуля, без якоря.
Почему именно так — не правила, а механика
Есть ещё один неочевидный инсайт из исследования: LLM в роли воспроизводит поверхность, но не механику.
В фильме «12 разгневанных мужчин» присяжный меняет мнение через эмоциональный слом — не через новый аргумент. В LLM-симуляции все аргументы зачитываются, но эмоциональных разломов нет. Модели воспроизводят костюм дискуссии — речевые паттерны, ссылки на доказательства, стиль персонажа — но не механику убеждения.
Это важно для практики: не ждите от LLM-эксперта, что он «передумает» под давлением аргументов в диалоге. Лучше давать все аргументы сразу, а не добавлять их по очереди и ждать реакции.
Ограничения
⚠️ GPT-4o и, скорее всего, Claude: Инструкция «будь непредвзятым» почти не работает. Эти модели с интенсивным RLHF-обучением держат позицию независимо от промпта. Де-якорение через убирание стартовой позиции работает лучше, чем инструкция на гибкость.
⚠️ Имитация ≠ реальная дискуссия: Если вы просите LLM симулировать дебаты нескольких экспертов в одном чате — это параллельные монологи, не настоящий спор. Каждый «агент» цитирует аргументы соперника, но не обновляет позицию под их влиянием.
⚠️ Небольшая выборка: 18 запусков — для исследовательских выводов достаточно, для абсолютных утверждений маловато. Направление верное, интенсивность эффекта может варьироваться.
⚠️ Narrative closure (сценарное закрытие): LLM в роли персонажей склонна придумывать консенсус которого нет — чтобы «закрыть сцену». Если просите сыграть дискуссию, явно запрещайте заканчивать её без реального согласия всех ролей.
Как исследовали
Исследователь взял фильм Сидни Люмета «12 разгневанных мужчин» (1957) как идеальный бенчмарк: там есть известный правильный ответ — все 12 присяжных в итоге меняют позицию с «виновен» на «невиновен», и порядок смены мнений задокументирован. Каждому из 12 LLM-агентов задали персонажа из фильма — с биографией, предубеждениями, стилем речи и стартовым голосом.
Тестировали две модели — GPT-4o (тяжёлый RLHF, закрытая) и Llama-4-Scout (лёгкий RLHF, открытая) — в трёх условиях: обычный промпт, промпт с добавлением инструкции «будь открыт к аргументам», и промпт без стартового голоса (агент сам решает позицию из доказательств). Каждое условие прогнали три раза, итого 18 запусков.
Результат удивил: 17 из 18 запусков закончились зависанием — присяжные не пришли к единому вердикту. Единственный случай, когда жюри вынесло вердикт — Llama без стартового голоса. GPT-4o в среднем менял позицию 1 раз за всю дискуссию при любых условиях. Llama — от 2 до 6 раз в зависимости от промпта. Самое неожиданное: обе модели детально воспроизводили стиль персонажей и цитировали все доказательства, но это не приводило к изменению позиций. Аргументы зачитывались, но не усваивались.
Адаптации и экстраполяции
🔧 Запрет сценарного закрытия
Модели в роли персонажей склонны придумывать консенсус — дописывать «все согласились» когда реального согласия нет. Простой фикс:
Важно: не заканчивай дискуссию пока все роли не выразили
явного согласия. Не придумывай консенсус. Если разногласие
сохраняется — так и скажи.
🔧 «Жюри без стартовых позиций» для оценки своего контента
Хотите честную оценку текста, идеи или решения — не давайте экспертам стартовую позицию. Пусть каждый «эксперт» придёт к мнению сам:
Ты по очереди играешь трёх экспертов: {эксперт 1}, {эксперт 2}, {эксперт 3}.
Каждый анализирует {материал} независимо и формирует мнение
только из данных. Сначала каждый пишет свой анализ, потом —
обсуждают разногласия.
Правило: никто не знает позицию других до своего первого вывода.
Каждый «эксперт» пишет вывод до того, как видит чужие — это снижает социальное заражение между ролями.
🔧 Эффект примечателен для «жюри LLM» в оценке текстов
Если вы используете LLM для оценки чужих текстов, промптов или контента — первое впечатление модели детерминирует итог. Практический вывод:
ВМЕСТО: "Вот текст. Оцени его по критериям X, Y, Z."
ЛУЧШЕ: "Прочитай текст. Сначала выпиши что работает и что нет.
Потом — оценка по критериям."
Разрыв между «прочитал» и «вынес вердикт» снижает влияние первого впечатления.
Ресурсы
Работа: 12 Angry AI Agents: Evaluating Multi-Agent LLM Decision-Making Through Cinematic Jury Deliberation
Сайт проекта: https://ahmetbersoz.github.io/12-angry-ai-agents/
Автор: Ahmet Bahaddin Ersoz (ORCID: 0000-0001-6297-7501)
Ключевые ссылки из работы: - AutoGen (Microsoft) — фреймворк для мультиагентных систем [Wu et al., 2023] - Anchoring bias в LLM [Suri et al., 2024; Echterhoff et al., 2024] - Multi-agent debate [Du et al., 2023; Liang et al., 2023] - Generative Agents [Park et al., 2023]
