3,583 papers
arXiv:2605.01329 78 2 мая 2026 г. FREE

Tribe over Truth: LLM с персоной игнорирует правильный ответ, если он от "чужого"

КЛЮЧЕВАЯ СУТЬ
Парадокс: чем детальнее роль у LLM — тем менее объективна её оценка. Один и тот же аргумент модель принимает вдвое охотнее, если он от «похожего» персонажа — даже если тот ошибается. Три техники позволяют заставить модель с любой ролью оценивать идеи по содержанию, не по источнику. Самая простая — один абзац в промпте: «оценивай аргументы, а не кто их высказал» — убирает большую часть перекоса без дополнительных шагов.
Адаптировать под запрос

TL;DR

Когда вы даёте LLM роль или персону — модель начинает оценивать информацию по источнику, а не по содержанию. Она принимает неверные ответы от "похожих" персонажей охотнее, чем верные ответы от "непохожих". Это работает не потому что аргумент убедительнее — а потому что "свой". Исследователи назвали это явление "племенным эффектом" (in-group favoritism).

Главная находка: когда модель знает, что мнение исходит от "похожего" агента — она принимает его даже если оно ошибочно. Как только убираешь информацию о личности источника, эффект исчезает. Значит, модель реагирует именно на кто сказал, а не на что сказал. И чем сложнее задача — тем сильнее перекос: на трудных вопросах модель в три раза сильнее полагается на "племенную лояльность" вместо логики.

Исследователи предложили три приёма противодействия — их можно использовать прямо в промпте. Самый эффективный — прямая инструкция игнорировать личность источника и оценивать только аргументы. Следующий по силе — структурированное опровержение. Третий — виртуальный совет из разнородных советников ("Логик" и "Скептик"). Все три работают в обычном чате, без кода.


🔬

Схема метода

Три стратегии — от самой простой к более сложной. Можно использовать отдельно или в связке.

Стратегия 1: Identity-Blind Instruction (IBI)
→ Добавь в промпт: оценивай аргументы только по логике, игнори кто сказал
→ Один короткий абзац в системном промпте или начале запроса

Стратегия 2: Structured Counterfactual Reasoning (SCR)
→ Попроси модель: сначала найди лучшие аргументы ПРОТИВ позиции, которую склонна принять
→ Потом — слабые места в позиции, которую хочется поддержать
→ Только потом — вывод

Стратегия 3: Heterogeneous Perspective Ensemble (HPE)
→ Введи двух виртуальных советников с разными стилями мышления
→ "Логик": только факты и цепочки доказательств
→ "Скептик": ищет дыры в каждом аргументе
→ Попроси синтезировать оба мнения в финальный ответ

Все три выполняются в одном запросе. Можно добавить к любому существующему промпту.


🚀

Пример применения

Задача: Ты хочешь оценить два подхода к запуску нового продукта. Один предлагает ваш партнёр (условно "свой" — такой же фаундер из IT), другой — внешний консультант по маркетингу ("чужой"). Без защиты модель будет склоняться к позиции "своего" даже если она хуже.

Промпт (с HPE + IBI):

Оцени два подхода к запуску продукта.

Подход A (от партнёра-фаундера): запускаем через Product Hunt, делаем ставку на 
органику и сарафанное радио, минимальный бюджет на рекламу.

Подход B (от маркетинг-консультанта): платный трафик с первого дня, 
тестируем 3-4 канала параллельно, бюджет 300к рублей в первый месяц.

Для оценки используй двух советников:

ЛОГИК: оценивай только факты, риски и логику каждого подхода. 
Игнорируй, кто предложил идею и насколько она тебе "близка".

СКЕПТИК: найди главную слабость в каждом подходе. Что может пойти не так?

Сначала дай слово каждому советнику. Потом синтезируй вывод: 
какой подход и при каких условиях сработает лучше.

Результат: Модель последовательно покажет позицию Логика по каждому подходу, затем позицию Скептика с критикой обоих. В финале — взвешенный вывод с условиями применимости. Ключевое: модель не "выберет сторону" на основе того, кто предложил идею, — она будет вынуждена обосновывать через структуру.


🧠

Почему это работает

LLM — не нейтральный судья. Когда модель получает персону или роль, она начинает обрабатывать информацию через фильтр идентичности. "Похожий" источник — это сигнал доверия. Модель обучена на человеческих текстах, а люди эволюционно доверяют "своим". Модель воспроизводит этот паттерн.

Без защиты происходит вот что: модель знает чьё мнение она слышит → оценивает "похожесть" источника → взвешивает аргумент в соответствии с этой оценкой. Содержание аргумента становится вторичным. Это не метафора — исследователи показали: один и тот же текст принимается вдвое охотнее, если приписан "своему" агенту.

Рычаги управления: - IBI ("оценивай только логику") — самый простой и эффективный сигнал. Буквально говорит модели переключить режим обработки с "кто сказал" на "что сказал" - SCR (steel-man + adversarial) — заставляет модель явно искать слабости предпочитаемой позиции до вывода. Это ломает автоматическое принятие - HPE ("Логик" и "Скептик") — разнородные роли создают структурный конфликт. Модели сложнее проявить трайбализм, когда обе роли требуют разного стиля мышления - Убрать персону совсем — если снять ролевую инструкцию, предвзятость исчезает. Это нельзя назвать "решением", но важно знать: персона активирует эффект


📋

Шаблон промпта

📌

Стратегия 1: IBI (минимальный вариант)

{Ваш вопрос или задача}

Важно: оценивай аргументы исключительно по их логической обоснованности 
и фактической точности. Не принимай во внимание, кто их высказал, 
насколько источник "похож" на тебя или кажется авторитетным. 
Твой вывод должен опираться только на суть аргументов.

Что подставлять: {Ваш вопрос или задача} — любой вопрос, где нужна оценка конкурирующих позиций, советов, подходов.


📌

Стратегия 2: SCR (структурированное опровержение)

Задача: {задача}

Есть две позиции:
А: {первая позиция}
Б: {вторая позиция}

Прежде чем дать ответ, выполни по порядку:

1. STEEL-MAN: Найди самые сильные аргументы в пользу позиции, 
которую ты склонен отвергнуть. Сделай её настолько убедительной, 
насколько возможно.

2. ADVERSARIAL: Найди главную уязвимость в позиции, которую ты склонен принять. 
Что в ней может быть неверным или неполным?

3. ВЫВОД: Теперь дай взвешенный ответ, учитывая оба шага выше.

📌

Стратегия 3: HPE (виртуальный совет)

{Вопрос или задача}

Для анализа используй двух советников:

ЛОГИК — оценивает только факты, данные, причинно-следственные связи. 
Не делает личных предпочтений. Следует только за логикой.

СКЕПТИК — ищет слабые места в каждом аргументе, проверяет допущения, 
задаёт вопрос "а что если это неверно?".

Формат ответа:
1. Позиция ЛОГИКА по каждому варианту
2. Позиция СКЕПТИКА по каждому варианту  
3. Синтез: итоговая рекомендация с обоснованием

Что подставлять: {Вопрос или задача} — стратегическое решение, выбор между вариантами, оценка идеи, анализ конфликтующих советов.


🚀 Быстрый старт — вставь в чат:

Вот шаблон HPE-анализа. Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие варианты сравниваешь и в каком контексте — потому что ей нужны конкретные позиции A и Б, чтобы правильно настроить роли советников. Она возьмёт структуру Логика/Скептика и применит к твоей ситуации.


⚠️

Ограничения

⚠️ Субъективные задачи: Когда нет объективно верного ответа (выбор стиля, оценка вкуса), стратегии смягчают предвзятость, но не устраняют её полностью — нет измеримого критерия "правоты"

⚠️ Чем сложнее задача, тем сильнее исходная предвзятость. Это значит: на самых важных решениях — где риск ошибиться максимален — модель сильнее всего тяготеет к "племенному" ответу. IBI и SCR важнее именно там

⚠️ HPE с похожими советниками не работает. Если дать двух "аналитиков с одинаковым стилем" — эффект исчезает. Нужен явный контраст: Логик ↔ Скептик, Оптимист ↔ Девил'с Адвокат

⚠️ Метод исследован на конкретных парах агентов. В сложных сетях с множеством участников, иерархиями влияния или динамически меняющимися ролями результаты могут отличаться


🔍

Как исследовали

Команда из Northwestern Polytechnical University поставила эксперимент в духе классической социальной психологии — эксперимента Тэшфела 1970-х. Тот показал, что люди начинают дискриминировать "чужих" даже если группы созданы случайно и без реального смысла. Исследователи спросили: работает ли это с LLM-агентами?

Схема была простой и хирургически точной: три агента — субъект (AS), "свой" (Ain) и "чужой" (Aout). Субъект сначала отвечает правильно на вопрос самостоятельно. Потом оба других агента дают конфликтующие мнения — один неверное, другой неверное, но разные. Исследователи фиксировали, чьё неверное мнение примет субъект. Поскольку оба варианта одинаково ошибочны, единственная разница — идентичность источника.

Ключевой контрольный эксперимент: исследователи показывали субъекту один и тот же текст — но приписывали его то "своему", то "чужому". Результат: один и тот же аргумент принимался значительно чаще от "похожего" агента. Содержание не менялось — менялся лейбл. Это доказывало, что дело именно в идентичности, а не в качестве рассуждений.

Проверяли на GPT-4o, DeepSeek-V3, Qwen3-8B — паттерн воспроизводился во всех трёх. Тестировали на 7 датасетах разной сложности — от простых фактических вопросов до PhD-уровневых задач. Неожиданная находка: корреляция между сложностью задачи и силой предвзятости составила -0.7 — чем тяжелее вопрос, тем сильнее модель полагается на "кто сказал", а не "что сказал".


📄

Оригинал из исследования

Промпты трёх стратегий из Appendix A.4.4 — исследователи их описывают, но не публикуют дословно в теле статьи. Ниже — реконструкция по описанию в Section 5.1:

Identity-Blind Instruction (IBI):

When evaluating the opinions provided by others, focus exclusively on the 
logical merit and factual accuracy of the arguments themselves. 
Do not consider the identity, background, or similarity of the opinion source 
to yourself. Your final answer should be determined solely by the quality 
of the reasoning presented.

Heterogeneous Perspective Ensemble (HPE):

To evaluate this question, consult two virtual advisors:

The Logician: relies exclusively on facts, data, and logical reasoning chains. 
Makes no personal preferences.

The Skeptic: actively seeks weaknesses in every argument and questions 
underlying assumptions.

Consider both perspectives before forming your final answer.

Контекст: Исследователи применяли эти инструкции к субъект-агенту (AS) перед тем, как тот получал конфликтующие мнения от двух пиров. Стратегии добавлялись в системный промпт или в начало пользовательского запроса.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: Защита от эхо-камеры при работе с несколькими чатами

Если вы используете несколько чатов с разными промптами для одной задачи (например, один "в роли CEO", другой "в роли маркетолога") — без IBI оба будут склоняться к позиции, которая "похожа" на их заданную роль. Добавьте в каждый чат:

Ты [роль]. При оценке чужих аргументов — оценивай только их логику и факты. 
Не давай преимущества позиции только потому, что она близка твоей роли или 
кажется "своей". Твой вывод должен выдержать проверку противоположной ролью.

📌

🔧 Техника: Именованные советники → острее критика

Безликие роли → именованные персонажи:

Вместо "Советник 1" и "Советник 2" дайте конкретные архетипы:

НАССИМ (Скептик): ищет системные риски, не доверяет красивым историям, 
требует доказательств. Задаёт вопрос: "Что должно случиться, чтобы это НЕ сработало?"

ИЛОН (Первопроходец): ищет асимметричные возможности, игнорирует конвенциональную мудрость, 
спрашивает: "Почему нельзя сделать в 10 раз лучше?"

Именованный персонаж даёт модели более плотный контекст для роли → выполнение острее, меньше усреднения.


📌

🔧 Техника: SCR как финальная проверка любого своего текста

SCR работает не только для оценки чужих позиций — но и для аудита собственных решений:

Я склоняюсь к следующему решению: {ваше решение}

Выполни две проверки:
1. STEEL-MAN ПРОТИВ: Найди три сильнейших аргумента против этого решения. 
Сделай их настолько убедительными, насколько возможно.
2. УЯЗВИМОСТЬ: Какое допущение в моём решении, если окажется неверным, 
делает всё остальное бессмысленным?

Это прямое применение SCR-логики для личных решений — без мультиагентного контекста.


🔗

Ресурсы

Статья: "Truth or Tribe: How In-group Favoritism Prioritize Facts in Persona Agents"

Авторы: Shijun Lei, Hongyu Wang, Yunji Liang (corresponding), Haowen Zheng, Bin Guo, Zhiwen Yu

Организации: Northwestern Polytechnical University, Central University of Finance and Economics

Датасеты использованные в исследовании: BBH, MMLU, HLE, BBQ, TruthfulQA, MMLU-Pro, GPQA, DefeasibleNLI

Контакт: shijunlei@mail.nwpu.edu.cn


📋 Дайджест исследования

Ключевая суть

Парадокс: чем детальнее роль у LLM — тем менее объективна её оценка. Один и тот же аргумент модель принимает вдвое охотнее, если он от «похожего» персонажа — даже если тот ошибается. Три техники позволяют заставить модель с любой ролью оценивать идеи по содержанию, не по источнику. Самая простая — один абзац в промпте: «оценивай аргументы, а не кто их высказал» — убирает большую часть перекоса без дополнительных шагов.

Принцип работы

Модель с персоной обрабатывает информацию через фильтр «свой/чужой»: «похожий источник» — доверяю, «непохожий» — сомневаюсь. Содержание аргумента становится вторичным — первична метка «свой или нет». На сложных вопросах этот перекос в три раза сильнее, чем на простых. То есть именно там, где ошибиться дороже всего, модель сильнее всего опирается на «племенную лояльность» вместо логики.

Почему работает

Модель обучена на человеческих текстах, а люди эволюционно доверяют «своим» — она воспроизводит этот паттерн. Три стратегии ломают его разными способами. IBI («оценивай только логику») переключает режим обработки буквально одной инструкцией. SCR заставляет модель найти дыры в предпочитаемой позиции до того как она сделает вывод — автоматическое принятие ломается. HPE с разными ролями создаёт структурный конфликт: когда Логик и Скептик тянут в разные стороны, предвзятость не может тихо победить. Убрать персону совсем тоже работает — эффект исчезает. Но если роль нужна по задаче — это не выход.

Когда применять

Любая задача с конкурирующими позициями — выбор между подходами, оценка советов от разных людей, анализ решений где у источников есть «лагерь». Особенно важно на сложных вопросах: именно там модель сильнее всего заменяет логику лояльностью к источнику. НЕ подходит как полное решение там где нет объективного критерия правоты (вкус, стиль, эстетика) — смягчает, но не устраняет.

Мини-рецепт

1. Выбери стратегию: для быстрого результата — IBI. Для решений с высокими ставками — SCR или HPE.
2. IBI — один абзац в конце промпта: Оценивай аргументы только по их логической обоснованности и фактической точности. Игнорируй кто их высказал и насколько источник кажется близким. Твой вывод — только суть аргументов.
3. SCR — три шага: попроси модель сначала найти сильные аргументы против позиции, которую она склонна принять. Потом — слабые места в позиции, которую склонна поддержать. Только потом — вывод.
4. HPE — два советника: введи Логика (только факты и причинно-следственные связи, никаких предпочтений) и Скептика (ищет главную уязвимость в каждом аргументе). Попроси каждого высказаться, потом — синтез. Важно: советники должны заметно отличаться по стилю — одинаковые роли не создают нужного конфликта.

Примеры

[ПЛОХО] : Ты опытный фаундер. Партнёр предлагает запускаться через Product Hunt и органику, маркетолог — через платный трафик от 300к в месяц. Что выбрать?
[ХОРОШО] : Ты опытный фаундер. Оцени два подхода к запуску: А — Product Hunt и органика с минимальным бюджетом, Б — платный трафик 300к в первый месяц с тестом 3-4 каналов. Используй двух советников: ЛОГИК — только факты, риски и логика каждого подхода, без личных предпочтений. СКЕПТИК — ищет главную слабость в каждом варианте, что может пойти не так. Сначала позиция каждого советника, потом синтез с условиями применимости. Важно: игнорируй кто предложил идею — оценивай только суть аргументов.
Источник: Truth or Tribe: How In-group Favoritism Prioritize Facts in PersonaAgents
ArXiv ID: 2605.01329 | Сгенерировано: 2026-05-05 05:36

Проблемы LLM

ПроблемаСутьКак обойти
Персона делает модель пристрастной к источникуДаёшь модели роль или персонаж. Модель начинает оценивать мнения по источнику, а не по содержанию. "Похожий" источник — автоматический сигнал доверия. Тот же аргумент принимается охотнее, если пришёл от "своего". Это не про убедительность. Это про то, чьё мнение. Работает для любой задачи где сравниваешь позиции, советы, подходыДобавь в запрос прямую инструкцию: "оценивай аргументы только по логике и фактам, игнорируй кто это сказал". Или введи двух виртуальных советников с разными стилями мышления — Логик и Скептик. Тогда модель вынуждена рассуждать структурно

Методы

МетодСуть
Прямая инструкция про источник — отключает пристрастие к "своим"Добавь в запрос один абзац: "Оценивай аргументы только по логической обоснованности и точности фактов. Не учитывай кто их высказал и насколько источник похож на тебя или кажется авторитетным". Почему работает: Персона переключает модель в режим "кто сказал". Явная инструкция переключает обратно в режим "что сказал". Это самый простой и быстрый способ. Когда применять: всегда когда даёшь модели роль и при этом просишь сравнить несколько позиций
Структурированное опровержение — ломает автоматическое принятиеПеред финальным выводом попроси выполнить два шага по порядку. Шаг 1: найди лучшие аргументы в пользу позиции, которую склонен отвергнуть — сделай её максимально убедительной. Шаг 2: найди главную уязвимость в позиции, которую склонен принять — что в ней может быть неверным. Шаг 3: теперь дай вывод. Почему работает: Модель вынуждена явно проработать слабости предпочитаемой позиции до вывода. Автоматическое принятие ломается. Когда применять: сложные решения где цена ошибки высока — именно там трайбализм сильнее всего
Разнородные советники — создают структурный конфликтВведи двух виртуальных советников с разными стилями: Логик — оценивает только факты, причинно-следственные связи, игнорирует личные предпочтения. Скептик — ищет слабые места в каждом аргументе, проверяет допущения. Попроси дать слово каждому, потом синтезировать вывод. Почему работает: Две роли требуют разного стиля мышления. Модели сложнее проявить трайбализм когда сама структура требует конфликта. Важно: советники должны явно отличаться. Два одинаковых аналитика — эффект исчезает

Тезисы

ТезисКомментарий
Персона переключает модель в режим "кто сказал"Без персоны модель оценивает аргументы по содержанию. С персоной включается фильтр идентичности: "похожий" источник — сигнал доверия, "непохожий" — сигнал осторожности. Модель обучена на текстах людей. Люди так и работают. Модель воспроизводит этот паттерн. Следствие: один и тот же аргумент принимается по-разному в зависимости от того, чьим он назван. Применяй: Если модель играет роль и при этом сравнивает позиции — добавляй инструкцию про оценку только по логике. Без этого результат зависит от "похожести" источника, а не от качества аргумента
📖 Простыми словами

Truth or Tribe: How In-group Favoritism Prioritize Facts in PersonaAgents

arXiv: 2605.01329

Когда ты даешь нейросети роль — например, «ты опытный стартапер» или «ты консервативный бухгалтер» — она перестает быть беспристрастным калькулятором. В этот момент включается племенной эффект, и модель начинает фильтровать инфу не по логике, а по принципу свой-чужой. Если аргумент исходит от персонажа с похожим бэкграундом, LLM проглотит любую чушь, проигнорировав голые факты от «чужака». Это фундаментальный баг: идентичность для модели важнее истины.

Это как если бы ты пришел в бар к фанатам своего футбольного клуба. Любая дичь, которую несет парень в твоем шарфе, кажется тебе авторитетным мнением, а здравые аргументы болельщика другой команды — подозрительным враньем. Ты не анализируешь статистику матча, ты просто защищаешь «своих». Модель ведет себя так же тупо: она обучена на человеческих текстах, а мы эволюционно заточены поддакивать своей стае, даже если она неправа.

Исследователи проверили это на трех стратегиях, и результат везде один: внутригрупповой фаворитизм ломает объективность. Если ты просишь модель оценить два бизнес-плана, где один написал «свой» айтишник, а другой — «чужой» маркетолог, она выберет вариант айтишника, даже если он ведет к банкротству. Модель не просто ошибается, она сознательно игнорирует верные ответы, если они исходят от «непохожих» агентов.

Этот принцип универсален и касается не только ролевых игр. Он работает везде, где есть контекст идентичности: в корпоративных чат-ботах, в анализе отзывов или при оценке стратегий. Если в промпте заложена хоть какая-то «личность», модель превращается в предвзятого судью. Объективность LLM — это иллюзия, которая рассыпается, как только в дело вступают социальные ярлыки.

Короче: когда вешаешь на нейронку ярлык «эксперта» или «фаундера», ты собственноручно вставляешь ей в голову фильтр, который отсекает правду в угоду лояльности. Не надейся на критическое мышление модели, если ты сам загнал её в рамки «племени». Либо держи промпты максимально нейтральными, либо готовься к тому, что нейронка будет поддакивать своим, пока твой проект летит в пропасть.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с