TL;DR
Несколько запросов к одной модели не дают независимых мнений. Модели, прошедшие выравнивание (RLHF, DPO — это процессы "дрессировки" модели на человеческих оценках), настолько похожи между собой, что 10 копий одной модели дают лишь 1.4 независимого мнения вместо 10. Они ошибаются на одних и тех же вопросах и соглашаются на одних и тех же ответах.
Главная ловушка: когда просишь ChatGPT "проверить себя", "рассмотреть с разных сторон" или "найти слабые места" — ты получаешь ту же точку зрения, переформулированную. Модель не умеет по-настоящему спорить сама с собой. Итеративная самокритика (попросить подумать ещё раз, ещё раз, ещё раз) на фактических задачах снизила точность на 9 процентных пунктов — стало хуже, чем один обычный запрос.
Исследователи нашли три способа получить реальное разнообразие мнений: назначить модели конкретные эпистемические роли (скептик, аналитик, эксперт) — самый эффективный способ без потери качества; использовать разные модели (Claude + GPT + Gemini); менять "температуру" генерации — помогает слабее и снижает точность.
Схема принципа
ПРОБЛЕМА
Одна модель → одинаковые слепые пятна → повторные запросы иллюзия независимости
ЧТО НЕ РАБОТАЕТ
Самокритика (self-refine): попросить ещё раз подумать → точность снижается
Больше агентов той же модели → плоский результат, эффект не растёт
ЧТО РАБОТАЕТ (от слабее к сильнее)
Уровень 1: Роли → скептик / аналитик / эксперт в одном промпте
Снижает корреляцию, точность не падает — лучший баланс
Уровень 2: Разные модели → GPT + Claude + Gemini для одного вопроса
Максимальная независимость, разные обучающие данные
Пример применения
Задача: Павел собрался открыть пункт выдачи заказов Wildberries. Попросил ChatGPT оценить идею — тот сказал "перспективно, рынок растёт". Попросил ещё раз проверить риски — тот добавил пару стандартных оговорок. Павел не уверен, получил ли он реальную проверку или просто переформулированное согласие.
Промпт:
Оцени бизнес-идею последовательно с трёх независимых точек зрения.
Каждая роль — отдельный блок, без ссылок на предыдущие оценки.
РОЛЬ 1 — Скептик: ищи всё что может пойти не так.
Будь беспощаден: операционные риски, конкуренция, юридические ловушки,
сценарии провала. Не смягчай.
РОЛЬ 2 — Оптимист-аналитик: ищи реальные возможности
и недооценённые сильные стороны. Какие условия делают
эту идею сильной? Где потенциал больше, чем кажется?
РОЛЬ 3 — Нейтральный эксперт: только факты и цифры.
Что говорит рынок? Какие метрики определяют успех?
Без эмоций — только данные и логика.
Бизнес-идея: открытие пункта выдачи заказов Wildberries
в спальном районе Екатеринбурга, площадь 25 кв.м.,
старт через 2 месяца, бюджет 400 000 ₽.
Результат: Три чётко разделённых блока с разными углами зрения. Скептик поднимет риски, которые модель в обычном режиме смягчает (изменение условий договора, демпинг соседних ПВЗ). Оптимист найдёт недооценённые возможности (допуслуги, трафик). Эксперт назовёт ключевые метрики (стоимость аренды на единицу выдачи, % возвратов). Совокупность трёх ролей — реально разные веса одного и того же вопроса, не три версии одного ответа.
Почему это работает
Слабость LLM: Выравнивание (процесс, когда модель учится отвечать "правильно" на основе человеческих оценок) буквально сдвигает все копии одной модели к одному и тому же "предпочтительному" ответу. Это не баг — это цель выравнивания. Но побочный эффект: модели из одного семейства делают одинаковые ошибки с корреляцией ρ = 0.70 (где 1.0 — полное совпадение, 0 — независимость).
Сильная сторона LLM: Модель хорошо следует ролевым инструкциям. Когда ты явно задаёшь угол зрения — "будь скептиком, ищи только риски" — модель действительно меняет вес, который она даёт разным аргументам. Роль — это не косметика, это реальное изменение приоритетов генерации.
Как метод использует это: Ролевые инструкции обходят "консенсусный режим" модели by default. Вместо того чтобы просить модель "рассмотреть разные точки зрения" (она всё равно придёт к усреднённому ответу), ты принудительно блокируешь другие режимы на каждый блок. Скептик не может быть оптимистом в том же запросе — роль работает как маска. Исследование показало: это снижает корреляцию с 0.60 до 0.44 без потери точности, тогда как температурные методы теряют ~4% качества.
Рычаги управления: - Количество ролей → 3 базовых (скептик / оптимист / эксперт) — хороший старт; можно добавить "пользователь" или "инвестор" под конкретную задачу - Жёсткость роли → "Будь беспощаден" усиливает разрыв между ролями; без этого модель смягчает углы - Изоляция ролей → фраза "без ссылок на предыдущие оценки" критична — иначе роли начинают соглашаться между собой - Для максимальной независимости → тот же промпт в Claude и GPT одновременно; разные модели дают разные слепые пятна
Шаблон промпта
Оцени {задача} последовательно с трёх независимых точек зрения.
Каждая роль — отдельный блок. Без ссылок на предыдущие оценки.
РОЛЬ 1 — Скептик: ищи всё что может пойти не так.
{дополнительный фокус скептика — например: "особенно финансовые риски"}
Не смягчай выводы.
РОЛЬ 2 — Оптимист-аналитик: ищи реальные возможности
и недооценённые сильные стороны.
{дополнительный фокус оптимиста — например: "особенно долгосрочный потенциал"}
РОЛЬ 3 — Нейтральный эксперт: только факты, данные, логика.
{дополнительный фокус эксперта — например: "только рыночные метрики"}
Без эмоциональных оценок.
{задача с конкретными деталями}
Что подставлять:
- {задача} — конкретное решение или вопрос: бизнес-идея, карьерный шаг, инвестиция, текст для клиента
- {дополнительный фокус} — можно убрать или сузить под свой контекст: "только юридические риски", "только операционная эффективность"
- {задача с конкретными деталями} — чем больше деталей, тем острее роли; абстрактные вопросы дают абстрактные ответы
🚀 Быстрый старт — вставь в чат:
Вот шаблон ролевой оценки. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про контекст задачи и фокус каждой роли — потому что без деталей роли будут слишком общими и потеряют остроту. Она возьмёт структуру из шаблона и адаптирует под твою ситуацию.
Ограничения
⚠️ Роли не заменяют разные модели: Назначение ролей снижает внутреннюю корреляцию, но не убирает её полностью. Если вопрос требует максимальной независимости — прогони через Claude и GPT раздельно.
⚠️ Самокритика вредит фактическим задачам: Просить модель "пересмотреть", "улучшить", "найти ошибки" в нескольких итерациях — снижает точность для вопросов с objectively правильным ответом. Для творческих задач эффект, вероятно, другой, но исследование это не проверяло.
⚠️ Одна и та же архитектура = общие слепые пятна: Все версии GPT-4 имеют больше общего между собой, чем GPT-4 и Claude. Модели из одного семейства (GPT-4o, GPT-4 Turbo) не дадут настоящего разнообразия.
⚠️ Проверялось на фактических вопросах: Исследование использовало TruthfulQA — вопросы с однозначными ответами. Насколько выводы переносятся на субъективные задачи (оценка текста, творческие решения) — неизвестно.
Как исследовали
Идея была простой: поставить несколько LLM-агентов торговать на рынке предсказаний (как Polymarket или Kalshi) и посмотреть, ведут ли они себя независимо. Взяли 50 вопросов из TruthfulQA, запустили 10 копий одной модели (Llama 3.1 8B), каждый агент делал ставки на правильный/неправильный ответ.
Измеряли корреляцию ошибок: если все агенты ошибаются на одних и тех же вопросах, корреляция близка к 1. Оказалось — ρ = 0.70. Это как 10 человек, которые прочитали одну и ту же книгу: они соглашаются не потому что думают одинаково, а потому что у них одинаковая точка входа.
Затем исследователи захотели доказать, что причина именно в DPO-выравнивании, а не в чём-то другом. Взяли пары моделей: одна прошла только SFT (первичное обучение следовать инструкциям), вторая — SFT + DPO (финальная "дрессировка" на человеческих предпочтениях). Только добавление DPO поднимало корреляцию на 0.24–0.46 пунктов. Это воспроизвели на двух независимых семействах моделей и двух масштабах (8B и 70B) — эффект устойчивый.
Неожиданный результат: попытка добавить больше агентов не помогла совсем. При 5, 10, 20 и 40 агентах точность рынка оставалась в диапазоне 66–69% — хуже, чем один агент (70.2%). Ещё один сюрприз: self-refine (итеративная самокритика) снизил точность на 9.2 процентных пункта по сравнению с обычным ответом. Популярная техника "попроси модель пересмотреть ответ несколько раз" оказалась не просто бесполезной — вредной на фактических задачах.
Адаптации и экстраполяции
💡 Адаптация: перекрёстная проверка через разные модели
Самая сильная митигация из исследования — смешать разные семейства моделей. На практике: прогони один и тот же промпт в ChatGPT и Claude, сравни расхождения. Там, где они не согласны — реальная зона неопределённости, стоит покопать.
Это первая версия ответа от другой модели AI:
{вставь ответ ChatGPT}
Дай свою независимую оценку того же вопроса.
Где ты согласен? Где видишь иначе? Что пропущено?
Исходный вопрос: {вопрос}
🔧 Техника: роли + запрет на согласие → острее критика
Модель по умолчанию стремится к консенсусу. Явный запрет ломает эту тягу:
...
РОЛЬ 1 — Скептик: ищи всё что может пойти не так.
Твоя задача — найти минимум 3 серьёзных проблемы.
Если думаешь "всё ок" — ищи дальше, проблема есть всегда.
...
Добавление "тебя не устроит ответ без X проблем" форсирует модель выйти из режима согласия.
🔧 Антипаттерн: когда НЕ применять итеративную самокритику
Вопросы с правильным ответом: факты, расчёты, логические задачи, проверка кода — не проси перепроверять в несколько итераций. Это снижает качество. Лучше один чёткий запрос с хорошим контекстом, чем три раунда "а теперь найди ошибки в своём ответе".
Итеративная критика имеет смысл для задач без однозначного ответа: текст, стратегия, дизайн решения — где "лучше" субъективно и зависит от критериев.
Ресурсы
Название: Preference Optimization Drives Monoculture in LLM Prediction Markets
Авторы: James Begin, Brendan Gho, Suman Muppavarapu, Tyson Tsay, Atharva Mohan, Afnan Shaik, Ruizhe Li, Vasu Sharma, Archana Vaidheeswaran
Место публикации: ICML 2026 Workshop on Forecasting as a New Frontier of Intelligence, Сеул
Контакт: j3begin@uwaterloo.ca (University of Waterloo)
Ключевые отсылки из исследования: - Du et al. (2023) — Multi-agent debate (промптинг-техника) - Madaan et al. (2023) — Self-refine (итеративная самокритика) - Kim et al. (2025) — Correlated errors in LLMs (ICML 2025) - Rafailov et al. (2023) — Direct Preference Optimization (DPO)
