TL;DR
Когда вы даёте LLM роль или персону — модель начинает оценивать информацию по источнику, а не по содержанию. Она принимает неверные ответы от "похожих" персонажей охотнее, чем верные ответы от "непохожих". Это работает не потому что аргумент убедительнее — а потому что "свой". Исследователи назвали это явление "племенным эффектом" (in-group favoritism).
Главная находка: когда модель знает, что мнение исходит от "похожего" агента — она принимает его даже если оно ошибочно. Как только убираешь информацию о личности источника, эффект исчезает. Значит, модель реагирует именно на кто сказал, а не на что сказал. И чем сложнее задача — тем сильнее перекос: на трудных вопросах модель в три раза сильнее полагается на "племенную лояльность" вместо логики.
Исследователи предложили три приёма противодействия — их можно использовать прямо в промпте. Самый эффективный — прямая инструкция игнорировать личность источника и оценивать только аргументы. Следующий по силе — структурированное опровержение. Третий — виртуальный совет из разнородных советников ("Логик" и "Скептик"). Все три работают в обычном чате, без кода.
Схема метода
Три стратегии — от самой простой к более сложной. Можно использовать отдельно или в связке.
Стратегия 1: Identity-Blind Instruction (IBI)
→ Добавь в промпт: оценивай аргументы только по логике, игнори кто сказал
→ Один короткий абзац в системном промпте или начале запроса
Стратегия 2: Structured Counterfactual Reasoning (SCR)
→ Попроси модель: сначала найди лучшие аргументы ПРОТИВ позиции, которую склонна принять
→ Потом — слабые места в позиции, которую хочется поддержать
→ Только потом — вывод
Стратегия 3: Heterogeneous Perspective Ensemble (HPE)
→ Введи двух виртуальных советников с разными стилями мышления
→ "Логик": только факты и цепочки доказательств
→ "Скептик": ищет дыры в каждом аргументе
→ Попроси синтезировать оба мнения в финальный ответ
Все три выполняются в одном запросе. Можно добавить к любому существующему промпту.
Пример применения
Задача: Ты хочешь оценить два подхода к запуску нового продукта. Один предлагает ваш партнёр (условно "свой" — такой же фаундер из IT), другой — внешний консультант по маркетингу ("чужой"). Без защиты модель будет склоняться к позиции "своего" даже если она хуже.
Промпт (с HPE + IBI):
Оцени два подхода к запуску продукта.
Подход A (от партнёра-фаундера): запускаем через Product Hunt, делаем ставку на
органику и сарафанное радио, минимальный бюджет на рекламу.
Подход B (от маркетинг-консультанта): платный трафик с первого дня,
тестируем 3-4 канала параллельно, бюджет 300к рублей в первый месяц.
Для оценки используй двух советников:
ЛОГИК: оценивай только факты, риски и логику каждого подхода.
Игнорируй, кто предложил идею и насколько она тебе "близка".
СКЕПТИК: найди главную слабость в каждом подходе. Что может пойти не так?
Сначала дай слово каждому советнику. Потом синтезируй вывод:
какой подход и при каких условиях сработает лучше.
Результат: Модель последовательно покажет позицию Логика по каждому подходу, затем позицию Скептика с критикой обоих. В финале — взвешенный вывод с условиями применимости. Ключевое: модель не "выберет сторону" на основе того, кто предложил идею, — она будет вынуждена обосновывать через структуру.
Почему это работает
LLM — не нейтральный судья. Когда модель получает персону или роль, она начинает обрабатывать информацию через фильтр идентичности. "Похожий" источник — это сигнал доверия. Модель обучена на человеческих текстах, а люди эволюционно доверяют "своим". Модель воспроизводит этот паттерн.
Без защиты происходит вот что: модель знает чьё мнение она слышит → оценивает "похожесть" источника → взвешивает аргумент в соответствии с этой оценкой. Содержание аргумента становится вторичным. Это не метафора — исследователи показали: один и тот же текст принимается вдвое охотнее, если приписан "своему" агенту.
Рычаги управления: - IBI ("оценивай только логику") — самый простой и эффективный сигнал. Буквально говорит модели переключить режим обработки с "кто сказал" на "что сказал" - SCR (steel-man + adversarial) — заставляет модель явно искать слабости предпочитаемой позиции до вывода. Это ломает автоматическое принятие - HPE ("Логик" и "Скептик") — разнородные роли создают структурный конфликт. Модели сложнее проявить трайбализм, когда обе роли требуют разного стиля мышления - Убрать персону совсем — если снять ролевую инструкцию, предвзятость исчезает. Это нельзя назвать "решением", но важно знать: персона активирует эффект
Шаблон промпта
Стратегия 1: IBI (минимальный вариант)
{Ваш вопрос или задача}
Важно: оценивай аргументы исключительно по их логической обоснованности
и фактической точности. Не принимай во внимание, кто их высказал,
насколько источник "похож" на тебя или кажется авторитетным.
Твой вывод должен опираться только на суть аргументов.
Что подставлять: {Ваш вопрос или задача} — любой вопрос, где нужна оценка конкурирующих позиций, советов, подходов.
Стратегия 2: SCR (структурированное опровержение)
Задача: {задача}
Есть две позиции:
А: {первая позиция}
Б: {вторая позиция}
Прежде чем дать ответ, выполни по порядку:
1. STEEL-MAN: Найди самые сильные аргументы в пользу позиции,
которую ты склонен отвергнуть. Сделай её настолько убедительной,
насколько возможно.
2. ADVERSARIAL: Найди главную уязвимость в позиции, которую ты склонен принять.
Что в ней может быть неверным или неполным?
3. ВЫВОД: Теперь дай взвешенный ответ, учитывая оба шага выше.
Стратегия 3: HPE (виртуальный совет)
{Вопрос или задача}
Для анализа используй двух советников:
ЛОГИК — оценивает только факты, данные, причинно-следственные связи.
Не делает личных предпочтений. Следует только за логикой.
СКЕПТИК — ищет слабые места в каждом аргументе, проверяет допущения,
задаёт вопрос "а что если это неверно?".
Формат ответа:
1. Позиция ЛОГИКА по каждому варианту
2. Позиция СКЕПТИКА по каждому варианту
3. Синтез: итоговая рекомендация с обоснованием
Что подставлять: {Вопрос или задача} — стратегическое решение, выбор между вариантами, оценка идеи, анализ конфликтующих советов.
🚀 Быстрый старт — вставь в чат:
Вот шаблон HPE-анализа. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какие варианты сравниваешь и в каком контексте — потому что ей нужны конкретные позиции A и Б, чтобы правильно настроить роли советников. Она возьмёт структуру Логика/Скептика и применит к твоей ситуации.
Ограничения
⚠️ Субъективные задачи: Когда нет объективно верного ответа (выбор стиля, оценка вкуса), стратегии смягчают предвзятость, но не устраняют её полностью — нет измеримого критерия "правоты"
⚠️ Чем сложнее задача, тем сильнее исходная предвзятость. Это значит: на самых важных решениях — где риск ошибиться максимален — модель сильнее всего тяготеет к "племенному" ответу. IBI и SCR важнее именно там
⚠️ HPE с похожими советниками не работает. Если дать двух "аналитиков с одинаковым стилем" — эффект исчезает. Нужен явный контраст: Логик ↔ Скептик, Оптимист ↔ Девил'с Адвокат
⚠️ Метод исследован на конкретных парах агентов. В сложных сетях с множеством участников, иерархиями влияния или динамически меняющимися ролями результаты могут отличаться
Как исследовали
Команда из Northwestern Polytechnical University поставила эксперимент в духе классической социальной психологии — эксперимента Тэшфела 1970-х. Тот показал, что люди начинают дискриминировать "чужих" даже если группы созданы случайно и без реального смысла. Исследователи спросили: работает ли это с LLM-агентами?
Схема была простой и хирургически точной: три агента — субъект (AS), "свой" (Ain) и "чужой" (Aout). Субъект сначала отвечает правильно на вопрос самостоятельно. Потом оба других агента дают конфликтующие мнения — один неверное, другой неверное, но разные. Исследователи фиксировали, чьё неверное мнение примет субъект. Поскольку оба варианта одинаково ошибочны, единственная разница — идентичность источника.
Ключевой контрольный эксперимент: исследователи показывали субъекту один и тот же текст — но приписывали его то "своему", то "чужому". Результат: один и тот же аргумент принимался значительно чаще от "похожего" агента. Содержание не менялось — менялся лейбл. Это доказывало, что дело именно в идентичности, а не в качестве рассуждений.
Проверяли на GPT-4o, DeepSeek-V3, Qwen3-8B — паттерн воспроизводился во всех трёх. Тестировали на 7 датасетах разной сложности — от простых фактических вопросов до PhD-уровневых задач. Неожиданная находка: корреляция между сложностью задачи и силой предвзятости составила -0.7 — чем тяжелее вопрос, тем сильнее модель полагается на "кто сказал", а не "что сказал".
Оригинал из исследования
Промпты трёх стратегий из Appendix A.4.4 — исследователи их описывают, но не публикуют дословно в теле статьи. Ниже — реконструкция по описанию в Section 5.1:
Identity-Blind Instruction (IBI):
When evaluating the opinions provided by others, focus exclusively on the
logical merit and factual accuracy of the arguments themselves.
Do not consider the identity, background, or similarity of the opinion source
to yourself. Your final answer should be determined solely by the quality
of the reasoning presented.
Heterogeneous Perspective Ensemble (HPE):
To evaluate this question, consult two virtual advisors:
The Logician: relies exclusively on facts, data, and logical reasoning chains.
Makes no personal preferences.
The Skeptic: actively seeks weaknesses in every argument and questions
underlying assumptions.
Consider both perspectives before forming your final answer.
Контекст: Исследователи применяли эти инструкции к субъект-агенту (AS) перед тем, как тот получал конфликтующие мнения от двух пиров. Стратегии добавлялись в системный промпт или в начало пользовательского запроса.
Адаптации и экстраполяции
💡 Адаптация: Защита от эхо-камеры при работе с несколькими чатами
Если вы используете несколько чатов с разными промптами для одной задачи (например, один "в роли CEO", другой "в роли маркетолога") — без IBI оба будут склоняться к позиции, которая "похожа" на их заданную роль. Добавьте в каждый чат:
Ты [роль]. При оценке чужих аргументов — оценивай только их логику и факты.
Не давай преимущества позиции только потому, что она близка твоей роли или
кажется "своей". Твой вывод должен выдержать проверку противоположной ролью.
🔧 Техника: Именованные советники → острее критика
Безликие роли → именованные персонажи:
Вместо "Советник 1" и "Советник 2" дайте конкретные архетипы:
НАССИМ (Скептик): ищет системные риски, не доверяет красивым историям,
требует доказательств. Задаёт вопрос: "Что должно случиться, чтобы это НЕ сработало?"
ИЛОН (Первопроходец): ищет асимметричные возможности, игнорирует конвенциональную мудрость,
спрашивает: "Почему нельзя сделать в 10 раз лучше?"
Именованный персонаж даёт модели более плотный контекст для роли → выполнение острее, меньше усреднения.
🔧 Техника: SCR как финальная проверка любого своего текста
SCR работает не только для оценки чужих позиций — но и для аудита собственных решений:
Я склоняюсь к следующему решению: {ваше решение}
Выполни две проверки:
1. STEEL-MAN ПРОТИВ: Найди три сильнейших аргумента против этого решения.
Сделай их настолько убедительными, насколько возможно.
2. УЯЗВИМОСТЬ: Какое допущение в моём решении, если окажется неверным,
делает всё остальное бессмысленным?
Это прямое применение SCR-логики для личных решений — без мультиагентного контекста.
Ресурсы
Статья: "Truth or Tribe: How In-group Favoritism Prioritize Facts in Persona Agents"
Авторы: Shijun Lei, Hongyu Wang, Yunji Liang (corresponding), Haowen Zheng, Bin Guo, Zhiwen Yu
Организации: Northwestern Polytechnical University, Central University of Finance and Economics
Датасеты использованные в исследовании: BBH, MMLU, HLE, BBQ, TruthfulQA, MMLU-Pro, GPQA, DefeasibleNLI
Контакт: shijunlei@mail.nwpu.edu.cn
