3,583 papers
arXiv:2606.26583 78 25 июня 2026 г. FREE

LLM-монокультура: одна модель — одни слепые пятна

КЛЮЧЕВАЯ СУТЬ
10 запросов к одной модели дают 1.4 независимых мнения — не 10. Это математика: выравнивание (процесс «дрессировки» модели на человеческих оценках) буквально синхронизирует все копии. Метод позволяет получить реально расходящиеся оценки одной задачи без смены инструмента и без потери точности. Фишка: не проси модель «рассмотреть с разных сторон» — явно назначь роли скептика, оптимиста и нейтрального эксперта тремя отдельными блоками. Корреляция между ответами падает с 0.60 до 0.44, а точность не теряется — в отличие от температурных методов, которые теряют ~4%.
Адаптировать под запрос

TL;DR

Несколько запросов к одной модели не дают независимых мнений. Модели, прошедшие выравнивание (RLHF, DPO — это процессы "дрессировки" модели на человеческих оценках), настолько похожи между собой, что 10 копий одной модели дают лишь 1.4 независимого мнения вместо 10. Они ошибаются на одних и тех же вопросах и соглашаются на одних и тех же ответах.

Главная ловушка: когда просишь ChatGPT "проверить себя", "рассмотреть с разных сторон" или "найти слабые места" — ты получаешь ту же точку зрения, переформулированную. Модель не умеет по-настоящему спорить сама с собой. Итеративная самокритика (попросить подумать ещё раз, ещё раз, ещё раз) на фактических задачах снизила точность на 9 процентных пунктов — стало хуже, чем один обычный запрос.

Исследователи нашли три способа получить реальное разнообразие мнений: назначить модели конкретные эпистемические роли (скептик, аналитик, эксперт) — самый эффективный способ без потери качества; использовать разные модели (Claude + GPT + Gemini); менять "температуру" генерации — помогает слабее и снижает точность.


📌

Схема принципа

ПРОБЛЕМА
Одна модель → одинаковые слепые пятна → повторные запросы иллюзия независимости

ЧТО НЕ РАБОТАЕТ
Самокритика (self-refine): попросить ещё раз подумать → точность снижается
Больше агентов той же модели → плоский результат, эффект не растёт

ЧТО РАБОТАЕТ (от слабее к сильнее)
Уровень 1: Роли → скептик / аналитик / эксперт в одном промпте
           Снижает корреляцию, точность не падает — лучший баланс

Уровень 2: Разные модели → GPT + Claude + Gemini для одного вопроса
           Максимальная независимость, разные обучающие данные

🚀

Пример применения

Задача: Павел собрался открыть пункт выдачи заказов Wildberries. Попросил ChatGPT оценить идею — тот сказал "перспективно, рынок растёт". Попросил ещё раз проверить риски — тот добавил пару стандартных оговорок. Павел не уверен, получил ли он реальную проверку или просто переформулированное согласие.

Промпт:

Оцени бизнес-идею последовательно с трёх независимых точек зрения.
Каждая роль — отдельный блок, без ссылок на предыдущие оценки.

РОЛЬ 1 — Скептик: ищи всё что может пойти не так.
Будь беспощаден: операционные риски, конкуренция, юридические ловушки,
сценарии провала. Не смягчай.

РОЛЬ 2 — Оптимист-аналитик: ищи реальные возможности
и недооценённые сильные стороны. Какие условия делают
эту идею сильной? Где потенциал больше, чем кажется?

РОЛЬ 3 — Нейтральный эксперт: только факты и цифры.
Что говорит рынок? Какие метрики определяют успех?
Без эмоций — только данные и логика.

Бизнес-идея: открытие пункта выдачи заказов Wildberries
в спальном районе Екатеринбурга, площадь 25 кв.м.,
старт через 2 месяца, бюджет 400 000 ₽.

Результат: Три чётко разделённых блока с разными углами зрения. Скептик поднимет риски, которые модель в обычном режиме смягчает (изменение условий договора, демпинг соседних ПВЗ). Оптимист найдёт недооценённые возможности (допуслуги, трафик). Эксперт назовёт ключевые метрики (стоимость аренды на единицу выдачи, % возвратов). Совокупность трёх ролей — реально разные веса одного и того же вопроса, не три версии одного ответа.


🧠

Почему это работает

Слабость LLM: Выравнивание (процесс, когда модель учится отвечать "правильно" на основе человеческих оценок) буквально сдвигает все копии одной модели к одному и тому же "предпочтительному" ответу. Это не баг — это цель выравнивания. Но побочный эффект: модели из одного семейства делают одинаковые ошибки с корреляцией ρ = 0.70 (где 1.0 — полное совпадение, 0 — независимость).

Сильная сторона LLM: Модель хорошо следует ролевым инструкциям. Когда ты явно задаёшь угол зрения — "будь скептиком, ищи только риски" — модель действительно меняет вес, который она даёт разным аргументам. Роль — это не косметика, это реальное изменение приоритетов генерации.

Как метод использует это: Ролевые инструкции обходят "консенсусный режим" модели by default. Вместо того чтобы просить модель "рассмотреть разные точки зрения" (она всё равно придёт к усреднённому ответу), ты принудительно блокируешь другие режимы на каждый блок. Скептик не может быть оптимистом в том же запросе — роль работает как маска. Исследование показало: это снижает корреляцию с 0.60 до 0.44 без потери точности, тогда как температурные методы теряют ~4% качества.

Рычаги управления: - Количество ролей → 3 базовых (скептик / оптимист / эксперт) — хороший старт; можно добавить "пользователь" или "инвестор" под конкретную задачу - Жёсткость роли → "Будь беспощаден" усиливает разрыв между ролями; без этого модель смягчает углы - Изоляция ролей → фраза "без ссылок на предыдущие оценки" критична — иначе роли начинают соглашаться между собой - Для максимальной независимости → тот же промпт в Claude и GPT одновременно; разные модели дают разные слепые пятна


📋

Шаблон промпта

Оцени {задача} последовательно с трёх независимых точек зрения.
Каждая роль — отдельный блок. Без ссылок на предыдущие оценки.

РОЛЬ 1 — Скептик: ищи всё что может пойти не так.
{дополнительный фокус скептика — например: "особенно финансовые риски"}
Не смягчай выводы.

РОЛЬ 2 — Оптимист-аналитик: ищи реальные возможности
и недооценённые сильные стороны.
{дополнительный фокус оптимиста — например: "особенно долгосрочный потенциал"}

РОЛЬ 3 — Нейтральный эксперт: только факты, данные, логика.
{дополнительный фокус эксперта — например: "только рыночные метрики"}
Без эмоциональных оценок.

{задача с конкретными деталями}

Что подставлять: - {задача} — конкретное решение или вопрос: бизнес-идея, карьерный шаг, инвестиция, текст для клиента - {дополнительный фокус} — можно убрать или сузить под свой контекст: "только юридические риски", "только операционная эффективность" - {задача с конкретными деталями} — чем больше деталей, тем острее роли; абстрактные вопросы дают абстрактные ответы


🚀 Быстрый старт — вставь в чат:

Вот шаблон ролевой оценки. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про контекст задачи и фокус каждой роли — потому что без деталей роли будут слишком общими и потеряют остроту. Она возьмёт структуру из шаблона и адаптирует под твою ситуацию.


⚠️

Ограничения

⚠️ Роли не заменяют разные модели: Назначение ролей снижает внутреннюю корреляцию, но не убирает её полностью. Если вопрос требует максимальной независимости — прогони через Claude и GPT раздельно.

⚠️ Самокритика вредит фактическим задачам: Просить модель "пересмотреть", "улучшить", "найти ошибки" в нескольких итерациях — снижает точность для вопросов с objectively правильным ответом. Для творческих задач эффект, вероятно, другой, но исследование это не проверяло.

⚠️ Одна и та же архитектура = общие слепые пятна: Все версии GPT-4 имеют больше общего между собой, чем GPT-4 и Claude. Модели из одного семейства (GPT-4o, GPT-4 Turbo) не дадут настоящего разнообразия.

⚠️ Проверялось на фактических вопросах: Исследование использовало TruthfulQA — вопросы с однозначными ответами. Насколько выводы переносятся на субъективные задачи (оценка текста, творческие решения) — неизвестно.


🔍

Как исследовали

Идея была простой: поставить несколько LLM-агентов торговать на рынке предсказаний (как Polymarket или Kalshi) и посмотреть, ведут ли они себя независимо. Взяли 50 вопросов из TruthfulQA, запустили 10 копий одной модели (Llama 3.1 8B), каждый агент делал ставки на правильный/неправильный ответ.

Измеряли корреляцию ошибок: если все агенты ошибаются на одних и тех же вопросах, корреляция близка к 1. Оказалось — ρ = 0.70. Это как 10 человек, которые прочитали одну и ту же книгу: они соглашаются не потому что думают одинаково, а потому что у них одинаковая точка входа.

Затем исследователи захотели доказать, что причина именно в DPO-выравнивании, а не в чём-то другом. Взяли пары моделей: одна прошла только SFT (первичное обучение следовать инструкциям), вторая — SFT + DPO (финальная "дрессировка" на человеческих предпочтениях). Только добавление DPO поднимало корреляцию на 0.24–0.46 пунктов. Это воспроизвели на двух независимых семействах моделей и двух масштабах (8B и 70B) — эффект устойчивый.

Неожиданный результат: попытка добавить больше агентов не помогла совсем. При 5, 10, 20 и 40 агентах точность рынка оставалась в диапазоне 66–69% — хуже, чем один агент (70.2%). Ещё один сюрприз: self-refine (итеративная самокритика) снизил точность на 9.2 процентных пункта по сравнению с обычным ответом. Популярная техника "попроси модель пересмотреть ответ несколько раз" оказалась не просто бесполезной — вредной на фактических задачах.


💡

Адаптации и экстраполяции

💡 Адаптация: перекрёстная проверка через разные модели

Самая сильная митигация из исследования — смешать разные семейства моделей. На практике: прогони один и тот же промпт в ChatGPT и Claude, сравни расхождения. Там, где они не согласны — реальная зона неопределённости, стоит покопать.

Это первая версия ответа от другой модели AI:

{вставь ответ ChatGPT}

Дай свою независимую оценку того же вопроса.
Где ты согласен? Где видишь иначе? Что пропущено?

Исходный вопрос: {вопрос}

🔧 Техника: роли + запрет на согласие → острее критика

Модель по умолчанию стремится к консенсусу. Явный запрет ломает эту тягу:

...
РОЛЬ 1 — Скептик: ищи всё что может пойти не так.
Твоя задача — найти минимум 3 серьёзных проблемы.
Если думаешь "всё ок" — ищи дальше, проблема есть всегда.
...

Добавление "тебя не устроит ответ без X проблем" форсирует модель выйти из режима согласия.


🔧 Антипаттерн: когда НЕ применять итеративную самокритику

Вопросы с правильным ответом: факты, расчёты, логические задачи, проверка кода — не проси перепроверять в несколько итераций. Это снижает качество. Лучше один чёткий запрос с хорошим контекстом, чем три раунда "а теперь найди ошибки в своём ответе".

Итеративная критика имеет смысл для задач без однозначного ответа: текст, стратегия, дизайн решения — где "лучше" субъективно и зависит от критериев.


🔗

Ресурсы

Название: Preference Optimization Drives Monoculture in LLM Prediction Markets

Авторы: James Begin, Brendan Gho, Suman Muppavarapu, Tyson Tsay, Atharva Mohan, Afnan Shaik, Ruizhe Li, Vasu Sharma, Archana Vaidheeswaran

Место публикации: ICML 2026 Workshop on Forecasting as a New Frontier of Intelligence, Сеул

Контакт: j3begin@uwaterloo.ca (University of Waterloo)

Ключевые отсылки из исследования: - Du et al. (2023) — Multi-agent debate (промптинг-техника) - Madaan et al. (2023) — Self-refine (итеративная самокритика) - Kim et al. (2025) — Correlated errors in LLMs (ICML 2025) - Rafailov et al. (2023) — Direct Preference Optimization (DPO)


📋 Дайджест исследования

Ключевая суть

10 запросов к одной модели дают 1.4 независимых мнения — не 10. Это математика: выравнивание (процесс «дрессировки» модели на человеческих оценках) буквально синхронизирует все копии. Метод позволяет получить реально расходящиеся оценки одной задачи без смены инструмента и без потери точности. Фишка: не проси модель «рассмотреть с разных сторон» — явно назначь роли скептика, оптимиста и нейтрального эксперта тремя отдельными блоками. Корреляция между ответами падает с 0.60 до 0.44, а точность не теряется — в отличие от температурных методов, которые теряют ~4%.

Принцип работы

Просишь модель «найти слабые места» или «пересмотреть ответ»? Жесть — итеративная самокритика снизила точность на 9 процентных пунктов: стало хуже, чем один обычный запрос. Модель не спорит с собой. Она переформулирует то же самое мнение. Роли работают иначе: «скептик» — это не просьба «ищи риски», а команда «ты скептик, других режимов нет». Роль блокирует «режим согласия» по умолчанию. Изоляция ролей через фразу «без ссылок на предыдущие оценки» — критична: без неё скептик начинает смягчаться под влиянием оптимиста.

Почему работает

Выравнивание (RLHF/DPO) сдвигает все копии модели к одному «правильному» ответу — это не побочный эффект, это цель процесса. Модели одного семейства ошибаются на одних и тех же вопросах с корреляцией ρ=0.70 (где 1.0 — полное совпадение, 0 — независимость). Роль меняет приоритеты генерации: скептик иначе взвешивает аргументы, а не просто добавляет оговорки в конце. Поэтому «рассмотри с разных сторон» не работает — модель слышит это как мягкую просьбу и возвращает усреднённый ответ. Явная роль — это команда, а не пожелание.

Когда применять

Оценка решений и идей — конкретно для ситуаций, где нужна проверка, а не подтверждение. Особенно полезно: бизнес-идеи, карьерные шаги, риски перед вложением денег, оценка текста перед отправкой клиенту. Для максимальной независимости — тот же промпт параллельно в GPT и Claude: разные модели учились на разных данных, у них разные слепые пятна. НЕ подходит для задач с однозначным правильным ответом (фактические вопросы, расчёты) — там итеративная самокритика только ухудшает результат.

Мини-рецепт

1. Задай три роли в одном промпте: скептик / оптимист / нейтральный эксперт — каждая роль в отдельном блоке с заголовком.
2. Изолируй блоки: добавь «каждая роль — отдельный блок, без ссылок на предыдущие оценки» — иначе роли начинают соглашаться между собой.
3. Добавь жёсткость скептику: «будь беспощаден, не смягчай выводы» — без этого скептик выдаёт стандартные оговорки, а не реальные риски.
4. Дай детали задачи: абстрактный вопрос даёт абстрактные роли. Чем конкретнее условие — тем острее разница между блоками.
5. Для максимума: прогони тот же промпт в двух разных моделях отдельно — GPT и Claude ошибаются на разных вопросах.

Примеры

[ПЛОХО] : Оцени идею: открыть пункт выдачи заказов в спальном районе. Найди слабые места и проверь риски.
[ХОРОШО] : Оцени идею с трёх независимых точек зрения. Каждая роль — отдельный блок. Без ссылок на предыдущие оценки. РОЛЬ 1 — Скептик: ищи всё что может пойти не так. Будь беспощаден: финансовые риски, конкуренция, сценарии провала. Не смягчай. РОЛЬ 2 — Оптимист-аналитик: ищи реальные возможности и недооценённые сильные стороны. Где потенциал больше, чем кажется? РОЛЬ 3 — Нейтральный эксперт: только факты и цифры. Какие метрики определяют успех? Без эмоций. Идея: открытие пункта выдачи заказов Wildberries, спальный район, площадь 25 кв.м., бюджет 400 000 ₽.
Источник: Preference Optimization Drives Monoculture in LLM Prediction Markets
ArXiv ID: 2606.26583 | Сгенерировано: 2026-06-28 20:47

Проблемы LLM

ПроблемаСутьКак обойти
Повторные запросы к одной модели не дают независимых мненийКажется: спросил 10 раз — получил 10 точек зрения. На деле: все 10 ответов сделаны одной моделью с одними слепыми пятнами. Выравнивание (когда модель учили отвечать "правильно" на оценках людей) сдвинуло все копии к одному "предпочтительному" ответу. Ошибки совпадают. Уверенность совпадает. Реального разнообразия нетНазначай роли с явной изоляцией. Скептик, аналитик, эксперт — в одном запросе. Каждая роль — отдельный блок. Запрети ссылаться на предыдущие блоки
Просьба "пересмотри ответ" ухудшает точность на фактических задачахПросишь модель "подумать ещё раз", "найти ошибки", "улучшить ответ". Кажется: итерация = улучшение. На деле: выравнивание тянет модель к "безопасному" усреднённому ответу. Каждая итерация чуть сильнее. Точность снижается — не растётНе итерируй самокритику на вопросах с однозначным ответом. Один хорошо составленный запрос лучше трёх итераций

Методы

МетодСуть
Роли с изоляцией — разнообразие без потери точностиРаздели запрос на отдельные роли: скептик, оптимист-аналитик, нейтральный эксперт. РОЛЬ 1 — Скептик: ищи всё что может пойти не так. Не смягчай. РОЛЬ 2 — Оптимист: ищи недооценённые возможности. РОЛЬ 3 — Эксперт: только факты и логика. Без ссылок на предыдущие блоки. Почему работает: Явная роль блокирует "консенсусный режим" модели. Скептик не может смягчать — роль работает как маска. Фраза "без ссылок на предыдущие блоки" критична: без неё роли начинают соглашаться друг с другом. Когда применять: оценка решений, поиск рисков, анализ идей — всё где нужны разные углы. Когда не хватит: максимальная независимость — запускай тот же запрос в разных моделях (GPT + Claude)

Тезисы

ТезисКомментарий
Роли снижают корреляцию между ответами. Повышение "температуры" — тоже снижает, но ещё и ухудшает точностьЕсть два способа получить разнообразие от модели: сменить роль или поднять "температуру" (параметр случайности генерации). Роли снижают совпадение ответов — и при этом точность не падает. Температура тоже снижает совпадение — но точность теряется. Роли дешевле и безопаснее. Применяй: хочешь разных точек зрения — меняй роли, а не крути температуру
📖 Простыми словами

Preference Optimization Drives Monoculture inLLMPrediction Markets

arXiv: 2606.26583

Современные нейросети работают не как толпа экспертов, а как коллективный разум с одной извилиной. Проблема в том, что когда мы просим LLM оценить вероятность события или дать совет, мы ждем независимого анализа, но получаем эхо-камеру. Все дело в выравнивании (RLHF или DPO) — это такая «дрессировка» модели под человеческие хотелки. В процессе этой полировки модель приучают выдавать не самый точный, а самый одобряемый ответ. В итоге разные копии одной и той же модели или даже разные модели из одного семейства превращаются в интеллектуальный монолит, который мыслит по шаблону.

Это как если бы ты собрал консилиум из десяти врачей, но все они закончили один и тот же вуз у одного и того же профессора и читали ровно одну методичку. Ты спрашиваешь мнение каждого, надеясь на дискуссию, но они просто хором повторяют одну и ту же глупость. Исследование показало, что 10 копий модели дают всего 1.4 независимого мнения. То есть ты платишь за десятерых, а по факту слушаешь одного парня, который просто немного меняет формулировки. Если модель лажает, она делает это коллективно и с полной уверенностью.

Технически это выглядит как катастрофическое снижение разнообразия. Методы RLHF и DPO буквально сжимают пространство возможных ответов, заставляя модель выбирать «безопасный» и «усредненный» вариант. В цифрах это выглядит еще печальнее: корреляция ошибок между моделями достигает 0.70. Это значит, что если одна модель споткнулась на сложном вопросе, остальные девять с вероятностью 70% упадут ровно в ту же яму. Вместо того чтобы дополнять друг друга, они просто умножают общие заблуждения, создавая иллюзию объективности там, где её нет.

Этот принцип универсален и бьет по любой сфере, где нужна критическая оценка: от предсказания курсов акций до анализа бизнес-планов. Тестировали это на рынках предсказаний, но эффект монокультуры проявится везде, где ты пытаешься использовать AI как «второе мнение». Если ты просишь ChatGPT проверить код, написанный другой ChatGPT, ты не делаешь ревью — ты просто просишь автора перечитать свой текст. SEO-оптимизация контента или проверка юридических рисков через AI превращаются в опасную игру, где все участники согласны друг с другом просто потому, что их так научили.

Короче: забудь про идею, что «много запросов к AI заменят консилиум». Выравнивание убивает независимость, превращая мощный инструмент в предсказуемую шарманку. Если тебе нужно реальное мнение, не пытайся выжать его из десяти копий одной модели — ты получишь лишь красиво упакованное согласие. Чтобы найти истину, нужно сталкивать лбами принципиально разные архитектуры и данные, иначе ты рискуешь построить бизнес на фундаменте из коллективных галлюцинаций, которые выглядят как здравый смысл.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с