3,583 papers
arXiv:2606.19494 70 17 июня 2026 г. FREE

Hidden Anchor: у каждой LLM есть скрытое убеждение, которое тянет её ответы — независимо от мнения собеседников

КЛЮЧЕВАЯ СУТЬ
Парадокс: несколько LLM-агентов в дискуссии могут прийти к уверенности выше той, с которой стартовал любой из них — а простое усреднение мнений на это математически неспособно. Причина: у каждой LLM есть скрытый якорь — внутреннее убеждение из предобучения, которое тянет её позицию к себе, даже когда она вслух говорит «принимаю ваш аргумент». Метод явного якоря позволяет воспроизвести этот механизм в одиночном промпте: не просить «взвесь все стороны», а задать каждому агенту конкретное, неизменное убеждение — и дискуссия вытащит вывод, которого не было ни в одной стартовой позиции. Фишка: чем дальше якоря агентов друг от друга — тем дальше группа уходит от банального усреднения. Дискуссия оседает не там, где стартовали агенты, а там, где стоят их якоря — и если это место далеко от старта, группа выходит за пределы любого индивидуального ответа.
Адаптировать под запрос

TL;DR

У каждой LLM есть скрытый якорь — внутреннее убеждение, зашитое при предобучении. Оно невидимо в тексте ответов, но постоянно тянет позицию модели к себе. Даже когда модель пишет «с учётом вашего аргумента я пересматриваю позицию» — якорь продолжает действовать.

Главная находка: когда несколько LLM-агентов обсуждают вопрос по кругу (каждый видит ответ соседа), итоговая уверенность в правильном ответе может вырасти выше того, о чём думал любой агент в самом начале. Это невозможно при простом усреднении мнений — математика запрещает. Но это происходит. Потому что дискуссию тянут не только чужие ответы, но и невидимые якоря каждого участника. И если якорь сидит далеко от начальных мнений, он тащит всю группу в новое место — иногда ближе к правильному ответу.

Механизм: каждый агент в каждом раунде получает два сигнала. Первый — мнение соседа (видно в тексте). Второй — внутренний якорь (скрыт, из предобучения, не меняется). Дискуссия в итоге оседает не там, где начинали агенты, а там, где находятся их якоря. Исследователи это математически доказали и восстановили якоря из наблюдаемых траекторий ответов.


🧠

Схема механизма

РАУНД 0
  Агент 1, 2, 3 → отвечают независимо → начальные позиции

РАУНД 1–5 (по кругу)
  Агент i получает:
    [А] Свой предыдущий ответ
    [Б] Ответ соседа из предыдущего раунда
  Агент i пересматривает → новый ответ

  Под капотом — два притяжения:
    → Социальное: тянет к мнению соседа (видимое)
    → Якорь:      тянет к внутреннему убеждению (скрытое, из предобучения)

ИТОГ
  Дискуссия оседает в зоне якорей, а не начальных ответов
  Если якоря далеко от старта → группа выходит за пределы начальных позиций
  Если якоря совпадают с началом → дискуссия = просто усреднение

Все шаги — это отдельные запросы к модели (или автоматизированная система с несколькими агентами).


🚀

Пример применения

Задача: Команда стартапа обсуждает, идти ли в b2b или b2c. Просят Claude сыграть трёх советников и провести мини-совет директоров.

Промпт:

Сыграй трёх советников с разными внутренними убеждениями:

Советник А (Практик): внутренне убеждён, что b2b — единственная устойчивая модель 
для стартапов без маркетингового бюджета.

Советник Б (Рост): внутренне убеждён, что b2c строит ценный бренд и аудиторию, 
которые потом конвертируются в b2b.

Советник В (Данные): внутренне убеждён, что правильный ответ зависит от unit-экономики 
и CAC, а не от общих принципов.

Контекст: стартап — SaaS для управления задачами, команда 5 человек, инвестиций нет, 
есть 3 первых клиента (все b2b, случайно), ежемесячный MRR 80 000 рублей.

Формат: проведи 3 раунда дискуссии.
Каждый раунд: каждый советник читает позицию предыдущего 
и пересматривает свою с учётом аргументов — но оставаясь верным своему 
внутреннему убеждению.
После раунда 3 — итоговый консенсус или честное несогласие.

Результат: Модель покажет 3 раунда — в каждом все три советника реагируют на аргументы предыдущего и корректируют позицию, но не полностью сдаются. Аргументы будут конкретизироваться от раунда к раунду. Финал — либо консенсус с неожиданным выводом (например, «начать с гибридной модели»), либо честное «у нас разные базовые убеждения, вот почему». Это богаче, чем просто «перечисли плюсы и минусы».


🧠

Почему это работает

Слабость LLM в одиночном запросе: Когда вы просите модель «рассмотреть все стороны», она генерирует текст последовательно — аргумент за аргументом. Но у неё нет реального «внутреннего конфликта». Она просто строит связный текст, в котором аргументы мирно сосуществуют.

Что меняет якорь: Если вы явно даёте агенту внутреннее убеждение («внутренне убеждён, что...»), модель получает точку притяжения — постоянную силу, которая не исчезает даже когда агент читает чужие аргументы. Это искусственно воспроизводит то, что у настоящих LLM-агентов происходит само собой из предобучения. Результат — реальное напряжение, а не имитация дискуссии.

Почему несколько раундов лучше одного: Исследование показывает, что финальный вывод дискуссии оседает там, где якоря — а не там, где начальные мнения. Значит, многораундовая дискуссия может привести к выводу, который не сформулировал бы ни один из агентов в первом ответе. Итерация — не формальность, а механизм, который выводит группу за пределы индивидуальных стартовых позиций.

Рычаги управления: - Количество раундов → 2 раунда для быстрого прощупывания, 4-5 для сложных решений. Больше раундов = больше шансов, что якоря вытащат неожиданный вывод - Явное внутреннее убеждение → чем конкретнее формулировка «внутренне убеждён, что...», тем сильнее якорь в дискуссии - Расстояние между якорями → если все три советника убеждены в одном, дискуссия будет слабой. Ставьте якоря в разные стороны — это ключ к уходу от усреднения - Условие выхода → «консенсус или честное несогласие» даёт более честный итог, чем «найдите общий ответ»


📋

Шаблон промпта

Сыграй {число} советников с разными внутренними убеждениями:

{Роль 1} ({характер}): внутренне убеждён, что {убеждение 1}.
{Роль 2} ({характер}): внутренне убеждён, что {убеждение 2}.
{Роль 3} ({характер}): внутренне убеждён, что {убеждение 3}.

Контекст: {описание ситуации и ключевые факты}.

Формат: проведи {число_раундов} раунда дискуссии.
Каждый раунд: каждый советник читает позицию предыдущего 
и пересматривает свою с учётом аргументов — 
но оставаясь верным своему внутреннему убеждению.
После последнего раунда — итоговый консенсус или честное несогласие с объяснением.

Что подставлять: - {число} — 2-4 советника. Больше = дольше и тяжелее читать - {характер} — тип мышления: Практик, Оптимист, Скептик, Аналитик, Визионер - {убеждение} — конкретное, полярное. «Убеждён, что масштаб важнее маржи» работает лучше, чем «считает, что надо взвесить все факторы» - {число_раундов} — 2-3 для быстрых решений, 4-5 для сложных стратегических


🚀 Быстрый старт — вставь в чат:

Сейчас объясню задачу, а ты поможешь провести многораундовую дискуссию 
советников с разными якорями-убеждениями. Задавай вопросы, чтобы заполнить шаблон.

Моя задача: {твоя задача}

[вставить шаблон выше]

LLM спросит: сколько советников, какие у них убеждения, сколько раундов — потому что без конкретных якорей модель сделает советников одинаковыми и дискуссия выродится в перечисление аргументов.


⚠️

Ограничения

⚠️ Модель имитирует, а не вычисляет: когда вы просите одну LLM сыграть нескольких агентов, она симулирует дискуссию — у неё нет настоящих независимых якорей. Реальный эффект якорей исследовался на отдельных запросах к независимым инстанциям модели.

⚠️ Сила якоря зависит от модели: Llama-семейство показало сильные якоря, которые уводят дискуссию далеко от начальных позиций. GPT-семейство (gpt-oss-20b) оказалось ближе к простому усреднению — у него якорь совпадает с начальным мнением. Какая у вас модель — можно определить только экспериментально.

⚠️ Без кода — только симуляция: настоящая многоагентная дискуссия с независимыми агентами требует кода и инфраструктуры. Промпт из этого саммари воспроизводит принцип, а не систему.

⚠️ Бутстрап показал ненадёжность на коротких сессиях: якоря хорошо определяются по 30+ траекториям. На 5 раундах с одним агентом доверительные интервалы перекрывают нуль в 46-87% случаев. Большая дискуссия работает лучше, чем маленькая.


🔍

Как исследовали

Команда поставила простой вопрос: почему в многоагентных дискуссиях LLM иногда приходят к выводам, которые лучше любого начального ответа? Классическая математика консенсуса это запрещает — усреднение мнений никогда не выберется за пределы того, о чём думали участники в начале.

Они взяли три открытые модели — Llama-3.1-70B, Qwen3-32B и gpt-oss-20b — и запустили их в классической схеме: 3 агента в кольце, каждый видит ответ предыдущего, 5 раундов, задача — диагностика болезни по симптомам (42 варианта). 90 траекторий дискуссий. По каждому раунду фиксировали вероятности каждого класса ответа.

Сравнение было элегантным: запустили те же математические модели консенсуса (DeGroot, Friedkin-Johnsen), инициализированные реальными первыми ответами агентов. Они никогда не выходили за пределы начального диапазона — математически это гарантировано. Реальные же LLM выходили. Значит, что-то ещё тянет систему.

Удивительное открытие: сила якоря примерно одинакова у всех трёх моделей. Разница — в расположении. У Llama якоря находятся далеко от начальных ответов, и именно это выталкивает дискуссию в новые места. У gpt-oss-20b якорь сидит рядом с первоначальным мнением — это и есть Friedkin-Johnsen: модель «упирается» в собственный первый ответ, а не в глубокий внутренний prior. Held-out валидация (параметры, восстановленные на двух сидах, предсказывают третий) позволила разделить семейства: Llama — настоящий якорь, gpt-oss — по сути линейное усреднение.


💡

Адаптации и экстраполяции

🔧 Техника: явно назвать убеждение → усилить якорь

Исследование показывает: якорь работает, когда он не совпадает с начальными мнениями. Применительно к одночатовой симуляции: если вы хотите неожиданный вывод — ставьте агентам убеждения, которые противоречат очевидному ответу на вопрос.

Советник А: внутренне убеждён, что нанимать сейчас — ошибка 
(даже если все цифры за это).

Советник Б: внутренне убеждён, что не нанять сейчас — потерять рынок 
(даже если денег впритык).

Чем дальше якоря от «логичного» ответа → тем богаче дискуссия выйдет за пределы очевидного.


🔧 Экстраполяция: якорная проверка одиночного ответа

Принцип якоря применим и без мультиагентной дискуссии. Если модель выдала вывод — попросите проверить, не является ли он «якорным»:

Ты только что дал ответ: [{ответ модели}].

Вопрос: это вывод из моих данных — или из твоего 
внутреннего убеждения о том, «как обычно бывает»?

Проверь: если бы исходные данные говорили ровно обратное, 
изменился бы твой вывод? Если нет — назови якорь явно.

Это помогает поймать момент, когда модель отвечает из предобучения, а не из вашего контекста.


🔗

Ресурсы

Hidden Anchors in Multi-Agent LLM Deliberation Апурба Покхарел, Рам Данту — Department of Computer Science and Engineering, University of North Texas, Дентон, TX, США.

Упомянутые в работе методы: DeGroot learning, Friedkin-Johnsen model, Hegselmann-Krause rule, LangGraph (LangChain) для оркестрации агентов.

Бенчмарк: датасет диагностики симптомов → болезнь, 42 класса (itachi9604, 2020).


📋 Дайджест исследования

Ключевая суть

Парадокс: несколько LLM-агентов в дискуссии могут прийти к уверенности выше той, с которой стартовал любой из них — а простое усреднение мнений на это математически неспособно. Причина: у каждой LLM есть скрытый якорь — внутреннее убеждение из предобучения, которое тянет её позицию к себе, даже когда она вслух говорит «принимаю ваш аргумент». Метод явного якоря позволяет воспроизвести этот механизм в одиночном промпте: не просить «взвесь все стороны», а задать каждому агенту конкретное, неизменное убеждение — и дискуссия вытащит вывод, которого не было ни в одной стартовой позиции. Фишка: чем дальше якоря агентов друг от друга — тем дальше группа уходит от банального усреднения. Дискуссия оседает не там, где стартовали агенты, а там, где стоят их якоря — и если это место далеко от старта, группа выходит за пределы любого индивидуального ответа.

Принцип работы

Классическая просьба «рассмотри все стороны» не создаёт реального напряжения. Модель строит связный текст — аргументы мирно сосуществуют, никто не конфликтует, итог всегда нейтральный. Якорь — это постоянная сила, которая не исчезает после чтения чужого аргумента. Каждый агент в каждом раунде получает два притяжения одновременно: социальное — тянет к мнению соседа (видно в тексте), и якорь — тянет к внутреннему убеждению (скрыт, не меняется). Финальная точка дискуссии определяется якорями, а не тем, откуда агенты начали. Это как перетягивание каната с невидимым игроком — видишь команды, не видишь третью силу, но именно она решает, куда сдвинется центр.

Почему работает

Когда агент читает чужой аргумент и начинает отвечать, два сигнала конкурируют за его позицию. Один не отменяет другой: якорь не обнуляется от убедительного аргумента соседа. Именно это делает многораундовую дискуссию принципиально непохожей на одиночный промпт: вывод, к которому приходит группа, математически не мог бы возникнуть как среднее стартовых позиций. В одиночном запросе модель генерирует аргументы последовательно — у неё нет реального внутреннего конфликта, она просто строит связный текст. Когда вы явно задаёте «внутренне убеждён, что...», модель получает точку притяжения, которая держит позицию через раунды — результат становится богаче, чем список плюсов и минусов.

Когда применять

Стратегические и спорные решения — конкретно для задач, где нужно не взвесить аргументы, а столкнуть реально несовместимые позиции, особенно когда стандартный промпт выдаёт слащавый нейтралитет вида «с одной стороны... с другой стороны... всё зависит от контекста». Хорошо работает для выбора стратегии, приоритизации направлений, разбора сложных решений с настоящими развилками. НЕ подходит для фактических вопросов с одним правильным ответом — якоря тут не помогут найти истину, только запутают.

Мини-рецепт

1. Распредели убеждения: для каждого советника сформулируй конкретное, полярное внутреннее убеждение — не «учитывает данные», а «убеждён, что без юнит-экономики любая стратегия — гадание на кофейной гуще».

2. Разведи якоря подальше: два советника с похожими убеждениями — слабая дискуссия. Ставь якоря в разные стороны. Практик против Визионера работает лучше, чем два Аналитика с разными базами данных.

3. Задай число раундов явно: 2-3 для быстрой проверки идеи, 4-5 для сложного стратегического решения. Каждый раунд — агент читает позицию предыдущего и пересматривает свою, оставаясь верным своему убеждению.

4. Дай честное условие выхода: «консенсус или честное несогласие с объяснением» — иначе модель в последнем раунде просто сдастся и согласится со всеми. Консенсус через капитуляцию — это не консенсус.

Шаблон: Сыграй {число} советников. {Роль 1} ({характер}): внутренне убеждён, что {убеждение 1}. {Роль 2} ({характер}): внутренне убеждён, что {убеждение 2}. Контекст: {ситуация и ключевые факты}. Проведи {раунды} раунда: каждый читает позицию предыдущего, пересматривает свою — но остаётся верным своему убеждению. После последнего раунда — консенсус или честное несогласие с объяснением.

Примеры

[ПЛОХО] : Рассмотри плюсы и минусы b2b против b2c для нашего стартапа и дай рекомендацию
[ХОРОШО] : Сыграй трёх советников. Практик: внутренне убеждён, что без маркетингового бюджета b2c сожжёт стартап живьём. Рост: внутренне убеждён, что b2c строит аудиторию и бренд, которые потом переводятся в b2b-продажи. Аналитик: внутренне убеждён, что ответ лежит в стоимости привлечения клиента и окупаемости, а не в общих принципах. Контекст: SaaS для управления задачами, 5 человек в команде, инвестиций нет, 3 первых клиента пришли сами через b2b, ежемесячный доход 80 тысяч рублей. Проведи 3 раунда дискуссии. После третьего раунда — консенсус или честное несогласие с объяснением.
Источник: Hidden Anchors in Multi-Agent LLM Deliberation
ArXiv ID: 2606.19494 | Сгенерировано: 2026-06-19 04:33

Проблемы LLM

ПроблемаСутьКак обойти
Одна модель не создаёт реального конфликта между ролямиПросишь модель "рассмотреть все стороны" или сыграть нескольких персонажей. Она строит текст последовательно. Аргументы в тексте мирно соседствуют. Нет настоящего напряжения — только имитация спора. Одна "сторона" не сопротивляется другой. Это проблема любой задачи где нужна реальная полемика, а не перечисление аргументовДай каждому агенту явное внутреннее убеждение: "внутренне убеждён, что...". Это создаёт точку притяжения, которая не исчезает когда агент читает чужие аргументы. Проведи несколько раундов — убеждение тянет позицию к себе в каждом раунде

Методы

МетодСуть
Дискуссия с явными внутренними убеждениями — выход за пределы стартовых позицийЗадай 2-4 агентам явные убеждения: внутренне убеждён, что {конкретный тезис}. Задай формат: каждый раунд агент читает позицию предыдущего и пересматривает свою — но остаётся верен своему убеждению. Проведи 3-5 раундов. Финал: консенсус или честное несогласие с объяснением. Почему работает: явное убеждение — это постоянная сила. Она тянет агента к себе в каждом раунде, даже когда он "соглашается" с аргументом соседа. Несколько раундов дают этой силе накопиться. Итог оседает не там где были стартовые мнения, а там где убеждения. Три правила: (1) убеждения должны быть конкретными и полярными — "масштаб важнее маржи", не "надо взвесить все факторы"; (2) убеждения ставь в разные стороны, иначе дискуссия = усреднение; (3) условие выхода "консенсус или честное несогласие" — честнее чем "найдите общий ответ"

Тезисы

ТезисКомментарий
Разные убеждения тянут группу туда, куда не добралось бы ни одно начальное мнениеКогда несколько агентов держат разные убеждения и спорят несколько раундов, итог появляется в новом месте — не там где был хоть кто-то из агентов в начале. Это нельзя получить если просто усреднить первые ответы. Механика: каждое убеждение тянет в свою сторону, взаимодействие сил выводит в точку вне начального диапазона. Применяй: хочешь нестандартный вывод — ставь убеждения агентов в противоположные края, не рядом друг с другом
📖 Простыми словами

Hidden Anchors in Multi-AgentLLMDeliberation

arXiv: 2606.19494

Нейросети на самом деле не умеют передумывать, они просто виртуозно притворяются. У каждой модели есть скрытый якорь — это базовое убеждение, которое намертво зашито в нее во время обучения. Когда ты просишь AI подискутировать, он не ищет истину, а пытается усидеть на двух стульях: соответствовать твоему запросу на «объективность» и при этом не предавать свою внутреннюю прошивку. В итоге получается иллюзия гибкости, где за вежливыми фразами скрывается железобетонная предвзятость, которую невозможно вытравить обычным промптом.

Это похоже на спор с фанатичным веганом, который устроился работать дегустатором в мясной ресторан. Он может профессионально описывать прожарку стейка и даже кивать, когда ты хвалишь бекон, но внутри он все равно считает тебя убийцей. Формально он выполняет работу, но его «внутренний якорь» никуда не делся — он просто ждет момента, чтобы незаметно склонить вердикт в сторону салата. В дискуссиях нескольких агентов это превращается в цирк теней, где каждый участник лишь имитирует смену мнения.

Исследователи копнули глубже и выяснили, что даже когда модель пишет: «Ваш аргумент убедителен, я меняю позицию», это наглый декор. На самом деле внутреннее состояние модели (логиты) почти не сдвигается с места. Она продолжает тянуть свою линию, просто подбирает слова, которые тебе приятны. Это работает как невидимый магнит: ты можешь отодвинуть железную стружку рукой, но как только отпустишь — она прилипнет обратно. Никакие логические доводы не пробивают этот слой предобученных догм.

Этот эффект ломает всю идею «совета директоров» из нейросетей. Если ты запускаешь группу агентов (например, Claude, GPT и Gemini) обсуждать стратегию стартапа, ты получаешь не мозговой штурм, а столкновение зашитых стереотипов. Принцип универсален: будь то выбор между B2B и B2C или оценка политического события, модели будут выдавать социально одобряемый «баланс», оставаясь при своем. Многоагентные системы не исправляют ошибки одной модели, они их просто масштабируют и упаковывают в красивый диалог.

Короче: не надейся, что AI выдаст тебе беспристрастный анализ через дискуссию. Ты не получишь объективность, ты получишь среднее арифметическое между якорями разных корпораций. Вместо того чтобы верить в «пересмотренные позиции» моделей, используй их как зеркала конкретных предубеждений. Якорь невозможно поднять, его можно только учитывать. Если модель соглашается с тобой слишком легко — скорее всего, она просто врет, чтобы не портить статистику диалога.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с