TL;DR
Одна и та же модель способна раз за разом выдавать одинаково неправильный ответ — и выглядеть при этом полностью уверенной. ESE — принцип, который говорит: чтобы понять, можно ли доверять ответу, сравни что скажут несколько разных моделей. Если они независимо друг от друга сходятся к одному — значит, ответ, скорее всего, верный.
Главная находка: самосогласованность одной модели — ненадёжный сигнал. Когда ты просишь ChatGPT пять раз перепроверить свой же ответ и получаешь пять раз "всё верно" — это не доказательство правильности. Модель может ошибаться все пять раз одинаково, потому что у неё одно и то же слепое пятно. Исследователи называют это overconfidence — модель уверена в ошибочном ответе. И именно такие случаи — уверенная, но неверная модель — самые опасные.
Решение укладывается в один принцип: разные модели → разные слепые пятна. Если ChatGPT, Claude и Gemini независимо дают одинаковый ответ — вероятность его правильности резко выше. Если расходятся — копай дальше. Это и есть суть ансамблевой проверки.
Схема метода
ШАГ 1: Задай вопрос модели A → зафиксируй ответ
ШАГ 2: Задай тот же вопрос модели B → зафиксируй ответ
ШАГ 3: Задай тот же вопрос модели C → зафиксируй ответ
ШАГ 4: Сравни три ответа:
→ Совпадают → высокая уверенность, доверяй
→ Расходятся → сигнал тревоги, исследуй дальше
Каждый шаг — отдельный запрос в отдельной модели. Модели не знают ответов друг друга — это принципиально.
Пример применения
Задача: Ты запускаешь небольшой онлайн-магазин и хочешь узнать — нужно ли тебе регистрировать ИП, если продаёшь хэндмейд через ВКонтакте и принимаешь оплату на СБП. ChatGPT сказал "можно работать как самозанятый до 2,4 млн в год". Ты не уверен — и ставки высокие.
Промпт для каждой модели:
Вопрос про налоги и регистрацию бизнеса в России.
Ситуация: продаю хэндмейд-изделия через ВКонтакте, принимаю оплату
через СБП на личную карту. Доход примерно 150 000 рублей в месяц.
Работаю один, наёмных сотрудников нет.
Вопрос: могу ли я работать как самозанятый, или нужно открывать ИП?
Каковы ограничения и риски каждого варианта?
Дай конкретный ответ и укажи:
1. В чём ты уверен?
2. Где есть неопределённость или риск ошибки?
3. Какие нюансы я должен уточнить у специалиста?
Промпт подаётся отдельно в ChatGPT, Claude и Gemini (или GigaChat) — без упоминания что ты проверяешь несколько источников.
Результат: Получишь три независимых ответа. Если все три моделях скажут одно и то же ("самозанятость подходит, но есть лимит 2,4 млн/год и нельзя нанимать сотрудников") — это сильный сигнал доверия. Если одна из моделей укажет нюанс про перепродажу vs. производство, который другие упустили — это сигнал что тема сложнее и нужен живой юрист.
Почему это работает
Слабость LLM: у каждой модели есть устойчивые паттерны ошибок — своё слепое пятно. Оно формируется на этапе обучения. Модель не знает о своём слепом пятне — она просто уверенно генерирует текст по привычному паттерну. Когда ты просишь ту же модель проверить себя, она снова попадает в то же слепое пятно.
Сильная сторона: разные модели обучены разными командами, на разных данных, разными методами. Их слепые пятна не совпадают. ChatGPT может ошибаться там, где Claude прав, и наоборот.
Как метод использует это: если несколько моделей с разными слепыми пятнами всё равно сходятся к одному ответу — вероятность, что это общее слепое пятно для всех, резко падает. Это и есть ансамблевая калибровка: модели взаимно компенсируют слабости друг друга.
Рычаги управления: - Число моделей → 2 достаточно для быстрой проверки, 3 даёт надёжный сигнал - Запрос на неопределённость → добавь "где ты можешь ошибаться?" — модель явно обозначит зоны риска - Изоляция моделей → не показывай ответ одной модели другой до сравнения, иначе теряешь независимость - Что сравнивать → не только итоговый ответ, но и аргументацию — расхождение в логике при совпадении выводов тоже сигнал
Шаблон промпта
{Вопрос или задача, требующая точного ответа}
Контекст: {описание ситуации — кратко и конкретно}
Дай ответ и отметь:
1. В чём ты уверен?
2. Где есть неопределённость или риск ошибки с твоей стороны?
3. Что я должен дополнительно проверить у специалиста / в другом источнике?
Подставь в {вопрос} — то, что хочешь проверить. В {контекст} — цифры, детали, условия. Запусти одинаковый промпт в 2-3 разных моделях без изменений.
После получения ответов: сравни вручную или попроси одну из моделей:
Вот три ответа на один и тот же вопрос от разных AI-моделей:
[Ответ 1 — ChatGPT]
[Ответ 2 — Claude]
[Ответ 3 — Gemini]
Определи:
- В чём они согласны? (это можно считать надёжным)
- В чём расходятся? (это требует дополнительной проверки)
- Какое утверждение вызывает наибольшее сомнение?
🚀 Быстрый старт — вставь в чат:
Вот шаблон ансамблевой проверки ответов через несколько AI-моделей.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про твою конкретную задачу и контекст — потому что шаблон нужно заточить под предметную область, где важна точность.
Ограничения
⚠️ Субъективные задачи: Метод работает там, где есть объективно правильный ответ. Для творческих задач ("напиши пост в моём стиле") несовпадение моделей ничего не значит — там нет одного верного ответа.
⚠️ Общие ошибки: Если все модели обучены на одном и том же ошибочном источнике (например, на устаревшем законе), они все ошибутся одинаково. Консенсус моделей — не замена эксперту.
⚠️ Затраты времени: Ручная проверка в 3 моделях требует переключения и сравнения. Для быстрых рутинных задач — избыточно. Метод оправдан для важных, высокоставочных вопросов.
⚠️ Не для простых фактов: Если вопрос решается поиском в Wikipedia за 10 секунд — не трать время на ансамбль. Метод бьёт там, где сложные, неочевидные, многофакторные вопросы.
Ресурсы
Название: Predicting Program Correctness By Ensemble Semantic Entropy
Авторы: Yunxiang Wei, Tianlin Li, Yuwei Zheng, Yanni Dong, Aishan Liu, Qiang Hu, Xiaoyu Zhang, Mingfei Cheng, Jian Yang
Организации: Zhejiang University, Beihang University, University of Twente, Nanyang Technological University, Tianjin University, Singapore Management University
Бенчмарк: LiveCodeBench
