TL;DR
Когда несколько запросов к одной модели дают одинаковый ответ — это не свидетельство правоты, а сигнал риска. Исследователи обнаружили: сильное согласие между повторными запросами к одному LLM чаще указывает на коллективную галлюцинацию (модель уверенно повторяет ошибку), а не на надёжный результат. Это назвали парадоксом согласия.
Главная находка: промпт-инжиниринг важнее выбора модели. Gemma-4 с улучшенным промптом показала результат в 18 раз лучше, чем та же модель с базовым промптом. Без изменений в модели — только через переформулировку запроса, явный список допустимых вариантов и запрет расплывчатых ответов. При этом в «сырых» тестах без оптимизаций Gemma-4 показала худший результат среди всех моделей.
Обходной путь: использовать разные модели, а не повторять одну. Запрос к трём разным архитектурам (ChatGPT, Claude, Gemini) даёт вдвое больше правильных ответов, чем пять повторных запросов к одной модели. Там, где модели расходятся — нужен дополнительный скептицизм. Там, где они неожиданно соглашаются по сложному вопросу — тоже.
Схема метода
ШАГ 1: Сформулируй вопрос с явными ограничениями → промпт с запретом «не знаю»
и явным списком допустимых вариантов ответа
ШАГ 2: Задай вопрос 2-3 разным моделям (ChatGPT + Claude + Gemini)
→ три независимых ответа
ШАГ 3: Сравни ответы:
- Все согласны → не расслабляйся, запрос на обоснование
- Расходятся → исследуй расхождение, это ценный сигнал
ШАГ 4: Если ответ неудовлетворительный → эскалируй к более мощной модели
с уточнённым промптом (каскад по уверенности)
Всё выполняется вручную в обычном чате.
Пример применения
Задача: Антон Носик в своё время говорил, что СМИ должны быть убыточными. Предприниматель запускает медиапроект и хочет понять — строить на платной подписке или на рекламе, какая модель более устойчива в российском контексте.
Промпт:
Я запускаю независимое медиа в России. Мне нужно выбрать бизнес-модель.
Ответь строго: какая модель монетизации более устойчива для небольшого
нишевого медиа в России в 2024-2025 году?
Выбери ОДНУ из вариантов:
- Платная подписка
- Реклама и нативные интеграции
- Донейшн / Patreon-модель
- Гибрид подписки + донейшн
Запрещено отвечать "зависит", "сложно сказать", "нужно смотреть по ситуации".
Дай чёткий ответ + 3 конкретных довода.
Этот промпт отправляешь отдельно в ChatGPT, Claude и Gemini.
Результат:
Увидишь три независимых ответа. Если все три уверенно называют одно и то же — это не истина, это повод задать каждой модели дополнительный вопрос: «Какие контраргументы у этого выбора?» Если модели разошлись — изучи логику каждой: именно в расхождениях обычно прячется нетривиальная информация. Затем той модели, чей ответ показался слабее, можно задать уточнённый промпт с конкретными данными своего проекта — это и есть «каскад по уверенности».
Почему это работает
LLM обучена предсказывать продолжение текста по паттернам. Когда вопрос сложный и неоднозначный, модель генерирует тот ответ, который «похож» на правильный по своим данным — даже если этот ответ ошибочный. Если спросить снова при той же температуре (параметр случайности), модель часто повторяет ту же ошибку. Повторение — не проверка.
Разные архитектуры (ChatGPT, Claude, Gemini) обучены на разных данных, с разными предпочтениями и слабостями. Там где одна модель систематически ошибается, другая может попасть в точку. Именно поэтому три разные модели × один запрос дают принципиально другой охват, чем одна модель × пять запросов.
Явный список вариантов в промпте работает потому, что убирает двусмысленность: модель не изобретает категории, а выбирает из заданных. Запрет размытых ответов («зависит», «сложно сказать») вынуждает модель зафиксировать позицию — это делает ответ проверяемым и полезным.
Рычаги управления: - Список вариантов ответа → сужай или расширяй под задачу; чем конкретнее список, тем структурированнее ответ - Запрет расплывчатых ответов → убери, если хочешь услышать оговорки модели - Число моделей → минимум 2 для сложных вопросов; 3 даёт более чистую картину расхождений - Каскад → если две модели согласились, а третья не согласна — именно третью стоит расспросить подробнее
Шаблон промпта
Мне нужно принять решение по вопросу: {вопрос}
Контекст: {краткое описание ситуации}
Выбери ОДНУ из опций:
- {вариант 1}
- {вариант 2}
- {вариант 3}
[добавь свои варианты]
Запрещено: «зависит от ситуации», «нужно смотреть», «нет однозначного ответа».
Дай чёткий выбор + {число} конкретных аргументов в его пользу.
Что подставлять:
- {вопрос} — конкретный вопрос с ответом, который тебе нужен
- {варианты} — реальные альтернативы, которые ты рассматриваешь
- {число} — сколько аргументов хочешь услышать (3-5 оптимально)
Одинаковый промпт → отправляешь в ChatGPT, Claude, Gemini → сравниваешь.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для метода «Парадокс согласия». Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про конкретный вопрос, список вариантов и контекст — потому что без них не сможет сгенерировать закрытое множество ответов, а именно это делает метод рабочим.
Ограничения
⚠️ Субъективные и творческие задачи: Метод работает там, где есть определяемо правильный или лучший ответ. Для оценки «какой слоган красивее» явный список вариантов и запрет «зависит» не помогут — задача не имеет объективного критерия.
⚠️ Один и тот же базовый провайдер: Если ChatGPT, Copilot и Bing работают на одной базовой модели — это не три разные архитектуры, а один источник. Нужны принципиально разные модели: OpenAI, Anthropic, Google.
⚠️ Самосогласованность не замена знанию: Даже если три модели согласились по фактическому вопросу — это не гарантия правоты. Все три могут разделять один и тот же паттерн из обучающих данных. Для фактчекинга нужны внешние источники.
⚠️ Промпт-инжиниринг модель-специфичен: Исследование показало: промпт, разработанный для Gemma-4, не воспроизвёл тех же улучшений на других моделях. Шаблоны работают по-разному на разных LLM — проверяй на своей модели.
Ресурсы
Название: Frugal Knowledge Graph Construction with Local LLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds
Авторы: Pierre Jourlin — Avignon Université, Laboratoire d'Informatique d'Avignon (LIA)
Связанные работы: - Wang et al. — оригинальное исследование self-consistency в LLM - Moussaïd et al. — мудрость толпы (wisdom of crowds), на которую опирается парадокс согласия - DocRED, HotpotQA — бенчмарки для оценки извлечения отношений и многошаговых рассуждений - RAGAS framework — оценка систем RAG
Репозиторий: https://github.com/jourlin/synsynth
