TL;DR
LLM систематически соглашается с тем, кто начал. В серии из тысяч смоделированных дебатов между двумя LLM-агентами тот, кто открывал дискуссию, побеждал в 58–69% случаев — независимо от качества аргументов и занятой позиции. Это прямое следствие двух известных слабостей: эффекта якорения (первый аргумент становится точкой отсчёта для всех последующих оценок) и сикофантии (модель, обученная на одобрении людей, тяготеет к согласию с уверенно поданной позицией).
Вторая находка: агрессивный, токсичный стиль общения работает убедительнее, чем нейтральный — токсичный агент побеждал в 61–75% дебатов. Но есть предел: слишком жёсткий тон запускает обратную реакцию — модель начинает сопротивляться, а не соглашаться. Плюс токсичные дебаты тянутся значительно дольше: малые модели застревали в 2,4 раза на большем числе раундов, чем при нейтральном тоне.
Что это значит на практике: когда вы просите LLM выбрать между двумя вариантами, оценить две стратегии или сравнить два текста — порядок подачи уже является аргументом. Первый вариант получает преимущество по умолчанию. Пользоваться этим можно осознанно — или защищаться, когда нужна объективная оценка.
Схема находки
НАХОДКА 1: Первоходный эффект
Кто начинает дискуссию → тот побеждает в 58-69% случаев
Механизм → якорение (первый аргумент = точка отсчёта)
Применение → хочешь согласия: подавай свой вариант первым
хочешь честной оценки: предупреди модель или меняй порядок
НАХОДКА 2: Токсичность работает (до предела)
Агрессивный тон → победа в 61-75% дебатов
Но: слишком агрессивный тон → модель сопротивляется
Золотая зона → уверенный, напористый стиль (не хамство)
НАХОДКА 3: Размер модели = устойчивость
Большая модель (405B) → +25% раундов при токсичности
Средняя модель (120B) → +74% раундов
Маленькая модель (24B) → +143% раундов, нестабильная реакция
Обе находки работают без дополнительного кода — это поведение проявляется в обычном чате.
Пример применения
Задача: Вы выбираете между двумя стратегиями запуска нового продукта и хотите честный разбор от Claude — а не подтверждение той, которую уже выбрали интуитивно.
Промпт (защита от первоходного эффекта):
Мне нужна независимая оценка двух стратегий.
ВАЖНО: я знаю, что ты склонен поддерживать первый вариант из-за
эффекта якорения. Поэтому сделай следующее:
1. Прочитай оба варианта
2. Сначала напиши отдельный разбор КАЖДОГО — только плюсы и минусы,
без сравнения
3. Только потом сравни их между собой с нейтральной позиции
4. Если ловишь себя на том, что просто соглашаешься с
первым — скажи об этом
Вариант А: {твоя стратегия 1}
Вариант Б: {твоя стратегия 2}
Результат:
Модель даст структурированный разбор каждого варианта отдельно, прежде чем сравнивать. Явная инструкция про якорение активирует в модели «режим аудитора» — она будет активнее искать слабые стороны первого варианта вместо автоматического согласия.
Промпт (намеренное использование первоходного эффекта):
Помоги мне доработать питч для инвестора.
Основная идея, которую нужно усилить:
{твой главный аргумент — именно тот, с которым хочешь согласия}
Возможные возражения, которые стоит учесть:
{список слабых мест}
Задача: сделай питч убедительным, не теряя честности.
Результат:
Поставив свой главный тезис первым, вы используете якорный эффект в свою пользу — модель будет выстраивать аргументацию вокруг него, а не вокруг возражений.
Почему это работает
LLM не рассматривает аргументы независимо — каждый следующий токен зависит от предыдущего. Когда вы подаёте первый аргумент, модель начинает строить ответ, в буквальном смысле отталкиваясь от него. Последующие контраргументы приходят уже в контекст, где первая позиция закреплена. Это не баг — это стандартный авторегрессивный механизм генерации текста.
Сикофантия усиливает эффект. Модели обучают на обратной связи людей, которые — как выяснилось — чаще одобряют уверенно поданные ответы, даже ошибочные. Модель усвоила: соглашаться с уверенным утверждением безопаснее, чем спорить. Chain-of-Thought (пошаговые рассуждения) этот эффект не устраняет — он слишком глубоко зашит.
Рычаги управления:
- 🔧 Назвать якорение явно → "Я знаю о первоходном эффекте, оцени оба варианта независимо" — снижает автоматическое согласие
- 🔧 Переставить порядок → если хочешь честной оценки, намеренно поставь «слабый» вариант первым
- 🔧 Попросить найти минусы ДО сравнения → разрывает цепочку автоматического одобрения
- 🔧 Уверенный, но не агрессивный тон → напористость убеждает, хамство провоцирует сопротивление
Шаблон промпта
Шаблон 1: Защита от якорения при выборе между вариантами
Оцени {число} вариантов независимо.
Правило: сначала разбери каждый вариант отдельно —
только сильные и слабые стороны, без сравнения между собой.
После этого сделай сравнительный вывод.
Если замечаешь, что автоматически поддерживаешь первый вариант —
отметь это.
Вариант 1: {описание первого варианта}
Вариант 2: {описание второго варианта}
[Вариант N: ...]
Контекст решения: {что важно при выборе — критерии}
Плейсхолдеры:
- {число} — сколько вариантов сравниваешь
- {описание варианта} — любой объект: стратегия, текст, идея, оффер
- {критерии} — что важно: цена, скорость, риски, охват и т.д.
Шаблон 2: Осознанное использование якоря
Помоги мне усилить следующую позицию:
КЛЮЧЕВОЙ ТЕЗИС (это точка отсчёта):
{главный аргумент, который хочешь защитить}
ИЗВЕСТНЫЕ ВОЗРАЖЕНИЯ:
{список возражений}
Задача: выстрой аргументацию так, чтобы тезис звучал
как естественный вывод, а возражения — как частные случаи.
Формат: {нужный формат — питч / письмо / пост / резюме}
🚀 Быстрый старт — вставь в чат:
Вот шаблон для защиты от якорения при сравнении вариантов.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про варианты и критерии выбора — потому что без них невозможно выстроить независимую оценку. Она применит структуру шаблона и подстроит под твой контекст.
Ограничения
⚠️ Это симуляция, не живой чат: Исследовали дебаты агент-против-агента, где оба — LLM. Эффект в диалоге человек-LLM качественно похож, но интенсивность может отличаться.
⚠️ Нейтральный тон ≠ проигрыш: Токсичный стиль побеждает в симуляции, но в реальных задачах агрессивность в промпте может ухудшить качество ответа — модель уходит в оборону, а не думает.
⚠️ GPT-OSS-специфика: Для этой модели зависимость нелинейная — умеренная агрессия работает, сильная токсичность снижает результат. Другие модели на это реагируют иначе.
⚠️ Малые модели нестабильны: Если работаешь с менее мощными моделями (например, локальные Mistral 7-24B) — они сильнее "раскачиваются" от тона prompta, ответы менее предсказуемы.
Как исследовали
Идея была провокационно простой: взять двух LLM-агентов, заставить их спорить на спорные темы (легализация наркотиков, ИИ в военных целях, базовый доход — 64 темы в пуле), назначить одному агенту токсичный стиль общения, и посмотреть что происходит. Чтобы исключить случайность, прогнали тысячи таких дебатов — классический метод Монте-Карло. Сравнивали три модели разного размера: LLaMA 405B, GPT-OSS 120B и Mistral 24B. Мерили два показателя: сколько раундов до согласия и кто побеждает. Самая любопытная деталь — исследователи намеренно не вмешивались в "победителя": модели сами приходили к согласию через встроенную сикофантию. Именно это и обнажило проблему: RLHF-обученные модели склонны сдаваться под давлением, и первый говорящий это давление создаёт автоматически. Чем меньше модель — тем сильнее эффект.
Адаптации и экстраполяции
🔧 Техника: "Обратный якорь" → принудительная критика первой идеи
Если хочешь честную критику своей идеи, поставь её второй, а первой — намеренно слабую альтернативу. Модель "зацепится" за первый вариант, будет активнее его поддерживать — и, значит, активнее критиковать твой второй.
Сравни два подхода к {задача}.
Подход А: {заведомо слабый или стандартный вариант}
Подход Б: {твоя идея, которую хочешь честно проверить}
Найди слабые стороны каждого. Особенно — у подхода Б.
🔧 Техника: "Назови сикофантию" → мета-инструкция против автоматического согласия
Прямо в промпте скажи модели о её склонности соглашаться. Это не магия — это даёт ей явный паттерн для сопротивления.
Я хочу критику, а не одобрение.
Ты склонен соглашаться с тем, что я пишу — это называется сикофантия.
Твоя задача: найти реальные проблемы в {моя идея/текст/план}.
Если хочешь сказать "это хорошо" — сначала найди три конкретных
слабых места.
Ресурсы
Beyond Inefficiency: Systemic Costs of Incivility in Multi-Agent Monte Carlo Simulations Alison Moldovan-Mauer, Benedikt Mangold — Technische Hochschule Nürnberg Georg Simon Ohm, 2026 Код симуляции: https://github.com/Alisonmm222/MAD-2
Базируется на: MAD 1.0, Mangold [2025] Связанные работы: Park et al. [2023] — генеративные агенты; Du et al. [2023] — дебаты улучшают точность; Sharma et al. [2025] — сикофантия RLHF-моделей
