TL;DR
У каждой LLM есть скрытый якорь — внутреннее убеждение, зашитое при предобучении. Оно невидимо в тексте ответов, но постоянно тянет позицию модели к себе. Даже когда модель пишет «с учётом вашего аргумента я пересматриваю позицию» — якорь продолжает действовать.
Главная находка: когда несколько LLM-агентов обсуждают вопрос по кругу (каждый видит ответ соседа), итоговая уверенность в правильном ответе может вырасти выше того, о чём думал любой агент в самом начале. Это невозможно при простом усреднении мнений — математика запрещает. Но это происходит. Потому что дискуссию тянут не только чужие ответы, но и невидимые якоря каждого участника. И если якорь сидит далеко от начальных мнений, он тащит всю группу в новое место — иногда ближе к правильному ответу.
Механизм: каждый агент в каждом раунде получает два сигнала. Первый — мнение соседа (видно в тексте). Второй — внутренний якорь (скрыт, из предобучения, не меняется). Дискуссия в итоге оседает не там, где начинали агенты, а там, где находятся их якоря. Исследователи это математически доказали и восстановили якоря из наблюдаемых траекторий ответов.
Схема механизма
РАУНД 0
Агент 1, 2, 3 → отвечают независимо → начальные позиции
РАУНД 1–5 (по кругу)
Агент i получает:
[А] Свой предыдущий ответ
[Б] Ответ соседа из предыдущего раунда
Агент i пересматривает → новый ответ
Под капотом — два притяжения:
→ Социальное: тянет к мнению соседа (видимое)
→ Якорь: тянет к внутреннему убеждению (скрытое, из предобучения)
ИТОГ
Дискуссия оседает в зоне якорей, а не начальных ответов
Если якоря далеко от старта → группа выходит за пределы начальных позиций
Если якоря совпадают с началом → дискуссия = просто усреднение
Все шаги — это отдельные запросы к модели (или автоматизированная система с несколькими агентами).
Пример применения
Задача: Команда стартапа обсуждает, идти ли в b2b или b2c. Просят Claude сыграть трёх советников и провести мини-совет директоров.
Промпт:
Сыграй трёх советников с разными внутренними убеждениями:
Советник А (Практик): внутренне убеждён, что b2b — единственная устойчивая модель
для стартапов без маркетингового бюджета.
Советник Б (Рост): внутренне убеждён, что b2c строит ценный бренд и аудиторию,
которые потом конвертируются в b2b.
Советник В (Данные): внутренне убеждён, что правильный ответ зависит от unit-экономики
и CAC, а не от общих принципов.
Контекст: стартап — SaaS для управления задачами, команда 5 человек, инвестиций нет,
есть 3 первых клиента (все b2b, случайно), ежемесячный MRR 80 000 рублей.
Формат: проведи 3 раунда дискуссии.
Каждый раунд: каждый советник читает позицию предыдущего
и пересматривает свою с учётом аргументов — но оставаясь верным своему
внутреннему убеждению.
После раунда 3 — итоговый консенсус или честное несогласие.
Результат: Модель покажет 3 раунда — в каждом все три советника реагируют на аргументы предыдущего и корректируют позицию, но не полностью сдаются. Аргументы будут конкретизироваться от раунда к раунду. Финал — либо консенсус с неожиданным выводом (например, «начать с гибридной модели»), либо честное «у нас разные базовые убеждения, вот почему». Это богаче, чем просто «перечисли плюсы и минусы».
Почему это работает
Слабость LLM в одиночном запросе: Когда вы просите модель «рассмотреть все стороны», она генерирует текст последовательно — аргумент за аргументом. Но у неё нет реального «внутреннего конфликта». Она просто строит связный текст, в котором аргументы мирно сосуществуют.
Что меняет якорь: Если вы явно даёте агенту внутреннее убеждение («внутренне убеждён, что...»), модель получает точку притяжения — постоянную силу, которая не исчезает даже когда агент читает чужие аргументы. Это искусственно воспроизводит то, что у настоящих LLM-агентов происходит само собой из предобучения. Результат — реальное напряжение, а не имитация дискуссии.
Почему несколько раундов лучше одного: Исследование показывает, что финальный вывод дискуссии оседает там, где якоря — а не там, где начальные мнения. Значит, многораундовая дискуссия может привести к выводу, который не сформулировал бы ни один из агентов в первом ответе. Итерация — не формальность, а механизм, который выводит группу за пределы индивидуальных стартовых позиций.
Рычаги управления: - Количество раундов → 2 раунда для быстрого прощупывания, 4-5 для сложных решений. Больше раундов = больше шансов, что якоря вытащат неожиданный вывод - Явное внутреннее убеждение → чем конкретнее формулировка «внутренне убеждён, что...», тем сильнее якорь в дискуссии - Расстояние между якорями → если все три советника убеждены в одном, дискуссия будет слабой. Ставьте якоря в разные стороны — это ключ к уходу от усреднения - Условие выхода → «консенсус или честное несогласие» даёт более честный итог, чем «найдите общий ответ»
Шаблон промпта
Сыграй {число} советников с разными внутренними убеждениями:
{Роль 1} ({характер}): внутренне убеждён, что {убеждение 1}.
{Роль 2} ({характер}): внутренне убеждён, что {убеждение 2}.
{Роль 3} ({характер}): внутренне убеждён, что {убеждение 3}.
Контекст: {описание ситуации и ключевые факты}.
Формат: проведи {число_раундов} раунда дискуссии.
Каждый раунд: каждый советник читает позицию предыдущего
и пересматривает свою с учётом аргументов —
но оставаясь верным своему внутреннему убеждению.
После последнего раунда — итоговый консенсус или честное несогласие с объяснением.
Что подставлять:
- {число} — 2-4 советника. Больше = дольше и тяжелее читать
- {характер} — тип мышления: Практик, Оптимист, Скептик, Аналитик, Визионер
- {убеждение} — конкретное, полярное. «Убеждён, что масштаб важнее маржи» работает лучше, чем «считает, что надо взвесить все факторы»
- {число_раундов} — 2-3 для быстрых решений, 4-5 для сложных стратегических
🚀 Быстрый старт — вставь в чат:
Сейчас объясню задачу, а ты поможешь провести многораундовую дискуссию
советников с разными якорями-убеждениями. Задавай вопросы, чтобы заполнить шаблон.
Моя задача: {твоя задача}
[вставить шаблон выше]
LLM спросит: сколько советников, какие у них убеждения, сколько раундов — потому что без конкретных якорей модель сделает советников одинаковыми и дискуссия выродится в перечисление аргументов.
Ограничения
⚠️ Модель имитирует, а не вычисляет: когда вы просите одну LLM сыграть нескольких агентов, она симулирует дискуссию — у неё нет настоящих независимых якорей. Реальный эффект якорей исследовался на отдельных запросах к независимым инстанциям модели.
⚠️ Сила якоря зависит от модели: Llama-семейство показало сильные якоря, которые уводят дискуссию далеко от начальных позиций. GPT-семейство (gpt-oss-20b) оказалось ближе к простому усреднению — у него якорь совпадает с начальным мнением. Какая у вас модель — можно определить только экспериментально.
⚠️ Без кода — только симуляция: настоящая многоагентная дискуссия с независимыми агентами требует кода и инфраструктуры. Промпт из этого саммари воспроизводит принцип, а не систему.
⚠️ Бутстрап показал ненадёжность на коротких сессиях: якоря хорошо определяются по 30+ траекториям. На 5 раундах с одним агентом доверительные интервалы перекрывают нуль в 46-87% случаев. Большая дискуссия работает лучше, чем маленькая.
Как исследовали
Команда поставила простой вопрос: почему в многоагентных дискуссиях LLM иногда приходят к выводам, которые лучше любого начального ответа? Классическая математика консенсуса это запрещает — усреднение мнений никогда не выберется за пределы того, о чём думали участники в начале.
Они взяли три открытые модели — Llama-3.1-70B, Qwen3-32B и gpt-oss-20b — и запустили их в классической схеме: 3 агента в кольце, каждый видит ответ предыдущего, 5 раундов, задача — диагностика болезни по симптомам (42 варианта). 90 траекторий дискуссий. По каждому раунду фиксировали вероятности каждого класса ответа.
Сравнение было элегантным: запустили те же математические модели консенсуса (DeGroot, Friedkin-Johnsen), инициализированные реальными первыми ответами агентов. Они никогда не выходили за пределы начального диапазона — математически это гарантировано. Реальные же LLM выходили. Значит, что-то ещё тянет систему.
Удивительное открытие: сила якоря примерно одинакова у всех трёх моделей. Разница — в расположении. У Llama якоря находятся далеко от начальных ответов, и именно это выталкивает дискуссию в новые места. У gpt-oss-20b якорь сидит рядом с первоначальным мнением — это и есть Friedkin-Johnsen: модель «упирается» в собственный первый ответ, а не в глубокий внутренний prior. Held-out валидация (параметры, восстановленные на двух сидах, предсказывают третий) позволила разделить семейства: Llama — настоящий якорь, gpt-oss — по сути линейное усреднение.
Адаптации и экстраполяции
🔧 Техника: явно назвать убеждение → усилить якорь
Исследование показывает: якорь работает, когда он не совпадает с начальными мнениями. Применительно к одночатовой симуляции: если вы хотите неожиданный вывод — ставьте агентам убеждения, которые противоречат очевидному ответу на вопрос.
Советник А: внутренне убеждён, что нанимать сейчас — ошибка
(даже если все цифры за это).
Советник Б: внутренне убеждён, что не нанять сейчас — потерять рынок
(даже если денег впритык).
Чем дальше якоря от «логичного» ответа → тем богаче дискуссия выйдет за пределы очевидного.
🔧 Экстраполяция: якорная проверка одиночного ответа
Принцип якоря применим и без мультиагентной дискуссии. Если модель выдала вывод — попросите проверить, не является ли он «якорным»:
Ты только что дал ответ: [{ответ модели}].
Вопрос: это вывод из моих данных — или из твоего
внутреннего убеждения о том, «как обычно бывает»?
Проверь: если бы исходные данные говорили ровно обратное,
изменился бы твой вывод? Если нет — назови якорь явно.
Это помогает поймать момент, когда модель отвечает из предобучения, а не из вашего контекста.
Ресурсы
Hidden Anchors in Multi-Agent LLM Deliberation Апурба Покхарел, Рам Данту — Department of Computer Science and Engineering, University of North Texas, Дентон, TX, США.
Упомянутые в работе методы: DeGroot learning, Friedkin-Johnsen model, Hegselmann-Krause rule, LangGraph (LangChain) для оркестрации агентов.
Бенчмарк: датасет диагностики симптомов → болезнь, 42 класса (itachi9604, 2020).
