3,583 papers
arXiv:2604.11104 74 13 апр. 2026 г. FREE

Парадокс согласия: почему единодушный ответ нескольких LLM — красный флаг

КЛЮЧЕВАЯ СУТЬ
Парадокс: когда три LLM уверенно называют одно и то же — это не подтверждение правоты, а повод насторожиться. Исследователи выяснили: единодушие при повторных запросах к одной модели — первый признак того, что она уверенно воспроизводит одну и ту же ошибку. Метод опроса разных архитектур позволяет получать надёжные ответы на сложные вопросы без дообучения — просто спрашивая ChatGPT, Claude и Gemini по отдельности, а не одну модель пять раз. Фишка: три разные архитектуры дают вдвое больше правильных ответов, чем пять повторных запросов к одной — у каждой свои систематические слепые пятна, которые взаимно компенсируют друг друга.
Адаптировать под запрос

TL;DR

Когда несколько запросов к одной модели дают одинаковый ответ — это не свидетельство правоты, а сигнал риска. Исследователи обнаружили: сильное согласие между повторными запросами к одному LLM чаще указывает на коллективную галлюцинацию (модель уверенно повторяет ошибку), а не на надёжный результат. Это назвали парадоксом согласия.

Главная находка: промпт-инжиниринг важнее выбора модели. Gemma-4 с улучшенным промптом показала результат в 18 раз лучше, чем та же модель с базовым промптом. Без изменений в модели — только через переформулировку запроса, явный список допустимых вариантов и запрет расплывчатых ответов. При этом в «сырых» тестах без оптимизаций Gemma-4 показала худший результат среди всех моделей.

Обходной путь: использовать разные модели, а не повторять одну. Запрос к трём разным архитектурам (ChatGPT, Claude, Gemini) даёт вдвое больше правильных ответов, чем пять повторных запросов к одной модели. Там, где модели расходятся — нужен дополнительный скептицизм. Там, где они неожиданно соглашаются по сложному вопросу — тоже.


🔬

Схема метода

ШАГ 1: Сформулируй вопрос с явными ограничениями → промпт с запретом «не знаю»
         и явным списком допустимых вариантов ответа

ШАГ 2: Задай вопрос 2-3 разным моделям (ChatGPT + Claude + Gemini)
         → три независимых ответа

ШАГ 3: Сравни ответы:
         - Все согласны → не расслабляйся, запрос на обоснование
         - Расходятся → исследуй расхождение, это ценный сигнал

ШАГ 4: Если ответ неудовлетворительный → эскалируй к более мощной модели
         с уточнённым промптом (каскад по уверенности)

Всё выполняется вручную в обычном чате.

🚀

Пример применения

Задача: Антон Носик в своё время говорил, что СМИ должны быть убыточными. Предприниматель запускает медиапроект и хочет понять — строить на платной подписке или на рекламе, какая модель более устойчива в российском контексте.

Промпт:

Я запускаю независимое медиа в России. Мне нужно выбрать бизнес-модель.

Ответь строго: какая модель монетизации более устойчива для небольшого 
нишевого медиа в России в 2024-2025 году?

Выбери ОДНУ из вариантов:
- Платная подписка
- Реклама и нативные интеграции  
- Донейшн / Patreon-модель
- Гибрид подписки + донейшн

Запрещено отвечать "зависит", "сложно сказать", "нужно смотреть по ситуации".
Дай чёткий ответ + 3 конкретных довода.

Этот промпт отправляешь отдельно в ChatGPT, Claude и Gemini.

Результат:

Увидишь три независимых ответа. Если все три уверенно называют одно и то же — это не истина, это повод задать каждой модели дополнительный вопрос: «Какие контраргументы у этого выбора?» Если модели разошлись — изучи логику каждой: именно в расхождениях обычно прячется нетривиальная информация. Затем той модели, чей ответ показался слабее, можно задать уточнённый промпт с конкретными данными своего проекта — это и есть «каскад по уверенности».


🧠

Почему это работает

LLM обучена предсказывать продолжение текста по паттернам. Когда вопрос сложный и неоднозначный, модель генерирует тот ответ, который «похож» на правильный по своим данным — даже если этот ответ ошибочный. Если спросить снова при той же температуре (параметр случайности), модель часто повторяет ту же ошибку. Повторение — не проверка.

Разные архитектуры (ChatGPT, Claude, Gemini) обучены на разных данных, с разными предпочтениями и слабостями. Там где одна модель систематически ошибается, другая может попасть в точку. Именно поэтому три разные модели × один запрос дают принципиально другой охват, чем одна модель × пять запросов.

Явный список вариантов в промпте работает потому, что убирает двусмысленность: модель не изобретает категории, а выбирает из заданных. Запрет размытых ответов («зависит», «сложно сказать») вынуждает модель зафиксировать позицию — это делает ответ проверяемым и полезным.

Рычаги управления: - Список вариантов ответа → сужай или расширяй под задачу; чем конкретнее список, тем структурированнее ответ - Запрет расплывчатых ответов → убери, если хочешь услышать оговорки модели - Число моделей → минимум 2 для сложных вопросов; 3 даёт более чистую картину расхождений - Каскад → если две модели согласились, а третья не согласна — именно третью стоит расспросить подробнее


📋

Шаблон промпта

Мне нужно принять решение по вопросу: {вопрос}

Контекст: {краткое описание ситуации}

Выбери ОДНУ из опций:
- {вариант 1}
- {вариант 2}
- {вариант 3}
[добавь свои варианты]

Запрещено: «зависит от ситуации», «нужно смотреть», «нет однозначного ответа».
Дай чёткий выбор + {число} конкретных аргументов в его пользу.

Что подставлять: - {вопрос} — конкретный вопрос с ответом, который тебе нужен - {варианты} — реальные альтернативы, которые ты рассматриваешь - {число} — сколько аргументов хочешь услышать (3-5 оптимально)

Одинаковый промпт → отправляешь в ChatGPT, Claude, Gemini → сравниваешь.


🚀 Быстрый старт — вставь в чат:

Вот шаблон для метода «Парадокс согласия». Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про конкретный вопрос, список вариантов и контекст — потому что без них не сможет сгенерировать закрытое множество ответов, а именно это делает метод рабочим.


⚠️

Ограничения

⚠️ Субъективные и творческие задачи: Метод работает там, где есть определяемо правильный или лучший ответ. Для оценки «какой слоган красивее» явный список вариантов и запрет «зависит» не помогут — задача не имеет объективного критерия.

⚠️ Один и тот же базовый провайдер: Если ChatGPT, Copilot и Bing работают на одной базовой модели — это не три разные архитектуры, а один источник. Нужны принципиально разные модели: OpenAI, Anthropic, Google.

⚠️ Самосогласованность не замена знанию: Даже если три модели согласились по фактическому вопросу — это не гарантия правоты. Все три могут разделять один и тот же паттерн из обучающих данных. Для фактчекинга нужны внешние источники.

⚠️ Промпт-инжиниринг модель-специфичен: Исследование показало: промпт, разработанный для Gemma-4, не воспроизвёл тех же улучшений на других моделях. Шаблоны работают по-разному на разных LLM — проверяй на своей модели.


🔗

Ресурсы

Название: Frugal Knowledge Graph Construction with Local LLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds

Авторы: Pierre Jourlin — Avignon Université, Laboratoire d'Informatique d'Avignon (LIA)

Связанные работы: - Wang et al. — оригинальное исследование self-consistency в LLM - Moussaïd et al. — мудрость толпы (wisdom of crowds), на которую опирается парадокс согласия - DocRED, HotpotQA — бенчмарки для оценки извлечения отношений и многошаговых рассуждений - RAGAS framework — оценка систем RAG

Репозиторий: https://github.com/jourlin/synsynth


📋 Дайджест исследования

Ключевая суть

Парадокс: когда три LLM уверенно называют одно и то же — это не подтверждение правоты, а повод насторожиться. Исследователи выяснили: единодушие при повторных запросах к одной модели — первый признак того, что она уверенно воспроизводит одну и ту же ошибку. Метод опроса разных архитектур позволяет получать надёжные ответы на сложные вопросы без дообучения — просто спрашивая ChatGPT, Claude и Gemini по отдельности, а не одну модель пять раз. Фишка: три разные архитектуры дают вдвое больше правильных ответов, чем пять повторных запросов к одной — у каждой свои систематические слепые пятна, которые взаимно компенсируют друг друга.

Принцип работы

Не повторяй запрос — меняй источник. Одна модель может систематически ошибаться в одном типе вопросов. Пять запросов к ней дадут пять одинаково неправильных ответов — это не проверка, а ксерокс ошибки. Разные архитектуры обучены на разных данных — где одна систематически проседает, другая попадает в точку. Добавь явный список вариантов и запрети расплывчатые ответы — модель вынуждена зафиксировать позицию, а не уйти в «зависит от ситуации».

Почему работает

LLM предсказывает «похожий на правильный» ответ — даже если он ошибочный. При повторном запросе воспроизводит тот же паттерн из обучающих данных. Это не подтверждение — это эхо. Разные компании (OpenAI, Anthropic, Google) обучают модели по-разному: разные данные, разные предпочтения, разные слабости. Там где одна плывёт — другая держится. +66 пунктов F1 без смены модели — только через явный список вариантов и запрет ответа «не знаю». А Gemma-4 с улучшенным промптом показала результат в 18 раз лучше, чем та же Gemma-4 с базовым. Без дообучения. Только переформулировка.

Когда применять

Сложные аналитические вопросы → конкретно для задач, где есть несколько реальных альтернатив и нужен чёткий выбор, особенно когда ставки высокие: стратегия, выбор инструмента, оценка идеи, найм. НЕ подходит для субъективных и творческих задач — «какой слоган красивее» не имеет объективного критерия, список вариантов не поможет. НЕ подходит, если используешь ChatGPT, Copilot и Bing — это не три архитектуры, это один источник в разных обёртках.

Мини-рецепт

1. Сформулируй вопрос жёстко: добавь конкретный список вариантов ответа — ровно те альтернативы, которые ты реально рассматриваешь. Запрети «зависит», «сложно сказать», «нужно смотреть по ситуации».
2. Отправь в три разные архитектуры: ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google) — одинаковый промпт, три отдельных чата.
3. Проанализируй расхождения: расходятся — изучи логику каждой, в расхождениях прячется нетривиальная информация; все согласились — не расслабляйся, задай каждой: «Какие главные контраргументы у этого выбора?»
4. Каскадируй при слабом ответе: та модель, чей ответ кажется слабее — получает уточнённый промпт с конкретными данными твоей ситуации и попытку номер два.

Примеры

[ПЛОХО] : Какую бизнес-модель выбрать для нишевого медиа в России?
[ХОРОШО] : Я запускаю нишевое медиа в России в 2025 году. Выбери ОДНУ модель монетизации из списка: платная подписка / реклама и нативные интеграции / донейшн / гибрид подписки и донейшна. Запрещено отвечать «зависит», «нужно смотреть по ситуации», «нет однозначного ответа». Дай чёткий выбор + 3 конкретных довода в его пользу. — этот промпт отправляешь отдельно в ChatGPT, Claude и Gemini, сравниваешь три ответа. Там где модели разошлись — именно это стоит исследовать дальше.
Источник: Frugal Knowledge Graph Construction with Local LLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds
ArXiv ID: 2604.11104 | Сгенерировано: 2026-04-14 05:25

Проблемы LLM

ПроблемаСутьКак обойти
Повторные запросы к одной модели не проверяют правильностьЗадаёшь вопрос пять раз. Получаешь пять одинаковых ответов. Кажется: модель права. На деле: модель просто воспроизводит один и тот же паттерн ошибки. Повторение не проверка. Это работает против тебя при любой сложной задаче — фактические вопросы, аналитика, выбор решенияСпрашивай разные модели, а не одну несколько раз. ChatGPT + Claude + Gemini дают принципиально разный охват. Там где одна систематически ошибается — другая может попасть в точку

Методы

МетодСуть
Параллельный опрос разных архитектурОдин одинаковый запрос отправляешь в ChatGPT, Claude и Gemini одновременно. Сравниваешь ответы. Все согласны задай каждой вопрос «какие контраргументы у этого выбора». Одна не согласна расспроси именно её подробнее — в этом расхождении скрыта ценная информация. Почему работает: разные модели обучены на разных данных с разными слабостями. Слепые пятна не совпадают. Когда применять: любой сложный вопрос с несколькими вариантами ответа. Когда не работает: субъективные оценки без объективного критерия; модели от одного провайдера (Copilot и Bing на одной основе — это не разные архитектуры)
Закрытый список вариантов с запретом уклончивых ответовВ запрос добавляй явный список допустимых вариантов ответа и явный запрет расплывчатых формулировок. Выбери ОДНУ из опций: [вариант 1] / [вариант 2] / [вариант 3]. Запрещено: «зависит от ситуации», «нужно смотреть», «нет однозначного ответа». Почему работает: без списка модель изобретает категории сама и уходит в обтекаемые формулировки. Список убирает двусмысленность. Запрет уклонений вынуждает зафиксировать позицию — ответ становится проверяемым. Когда применять: любой выбор с конечным числом реальных альтернатив. Когда не работает: задача требует оговорок по условиям («если А — то X, если Б — то Y»)

Тезисы

ТезисКомментарий
Промпт важнее выбора моделиОдна и та же модель с разными запросами даёт кардинально разные результаты. Разница может быть в десятки раз — без изменения модели, только через переформулировку запроса, добавление явного списка вариантов и запрет уклончивых ответов. Это значит: прежде чем менять модель на более мощную — попробуй улучшить запрос на той что есть. Применяй: если ответ модели плохой, сначала добавь список вариантов и запрет «зависит» — потом думай о смене модели
📖 Простыми словами

Frugal Knowledge Graph Construction with LocalLLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds

arXiv: 2604.11104

Когда мы просим нейронку проверить саму себя несколько раз, мы ждем, что истина родится в споре. На деле же самосогласованность в LLM часто превращается в круговую поруку. Модели устроены так, что они не «думают», а предсказывают наиболее вероятный кусок текста. Если в данных модели сидит ошибка или стереотип, она будет выдавать их снова и снова с каменным лицом. В итоге сильное согласие между ответами — это не гарантия качества, а сигнал риска, что модель просто зациклилась на убедительной лжи.

Это как если бы ты пришел в бар и спросил у пяти подвыпивших друзей, стоит ли вкладывать все деньги в крипту. Если все пятеро хором ответят «да», это не значит, что идея гениальная — это значит, что они все сидят в одном информационном пузыре и транслируют коллективную галлюцинацию. Ты принимаешь их единогласие за экспертность, хотя на самом деле это просто эффект эхо-камеры, где одна и та же глупость повторяется пятью разными голосами.

В исследовании это разобрали на примере построения графов знаний. Когда модель вытаскивает связи между объектами, она может уверенно лепить ошибку в каждом дубле. Метод Wisdom of Artificial Crowds (мудрость искусственной толпы) показывает, что просто долбить одну модель — бесполезно. Чтобы получить адекватный результат, нужно либо менять промпты, либо сталкивать лбами разные модели. Если одна нейронка говорит «А», а вторая «Б», то их разногласие ценнее, чем тупое кивание одной и той же модели самой себе.

Возьмем кейс с медиапроектом: ты спрашиваешь AI, выживет ли СМИ на подписке в РФ. Модель может выдать стройную теорию про успех, потому что так написано в западных учебниках, на которых она училась. Если ты переспросишь ее трижды, она трижды подтвердит этот бред, игнорируя локальную специфику и налоги. Парадокс согласия в том, что чем увереннее модель повторяется, тем выше шанс, что она просто красиво чешет по шаблону, который не имеет отношения к реальности.

Короче: если нейронка три раза ответила одинаково, это не повод расслабляться. Скорее всего, ты наткнулся на галлюцинацию с высоким уровнем уверенности. Чтобы не прогореть, нужно использовать Frugal Pipeline — дешевый, но хитрый способ проверки через разные подходы, а не надеяться на «честное слово» одной модели. Помни: повторение — не проверка, а часто просто признак того, что модель завралась окончательно.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с