3,583 papers
arXiv:2603.27098 70 28 мар. 2026 г. FREE

Ensemble Semantic Entropy: одна модель не может честно проверить саму себя

КЛЮЧЕВАЯ СУТЬ
Попросить ChatGPT пять раз проверить свой ответ и получить пять «всё верно» — не доказательство. Это одно слепое пятно, воспроизведённое пять раз подряд. Метод ансамблевой проверки позволяет понять, когда ответу модели можно доверять, а не просто надеяться на него. Фишка: задай одинаковый вопрос трём разным моделям изолированно друг от друга — сошлись независимо → ответ надёжный; разошлись → копай нюансы.
Адаптировать под запрос

TL;DR

Одна и та же модель способна раз за разом выдавать одинаково неправильный ответ — и выглядеть при этом полностью уверенной. ESE — принцип, который говорит: чтобы понять, можно ли доверять ответу, сравни что скажут несколько разных моделей. Если они независимо друг от друга сходятся к одному — значит, ответ, скорее всего, верный.

Главная находка: самосогласованность одной модели — ненадёжный сигнал. Когда ты просишь ChatGPT пять раз перепроверить свой же ответ и получаешь пять раз "всё верно" — это не доказательство правильности. Модель может ошибаться все пять раз одинаково, потому что у неё одно и то же слепое пятно. Исследователи называют это overconfidence — модель уверена в ошибочном ответе. И именно такие случаи — уверенная, но неверная модель — самые опасные.

Решение укладывается в один принцип: разные модели → разные слепые пятна. Если ChatGPT, Claude и Gemini независимо дают одинаковый ответ — вероятность его правильности резко выше. Если расходятся — копай дальше. Это и есть суть ансамблевой проверки.


🔬

Схема метода

ШАГ 1: Задай вопрос модели A → зафиксируй ответ
ШАГ 2: Задай тот же вопрос модели B → зафиксируй ответ
ШАГ 3: Задай тот же вопрос модели C → зафиксируй ответ
ШАГ 4: Сравни три ответа:
         → Совпадают → высокая уверенность, доверяй
         → Расходятся → сигнал тревоги, исследуй дальше

Каждый шаг — отдельный запрос в отдельной модели. Модели не знают ответов друг друга — это принципиально.


🚀

Пример применения

Задача: Ты запускаешь небольшой онлайн-магазин и хочешь узнать — нужно ли тебе регистрировать ИП, если продаёшь хэндмейд через ВКонтакте и принимаешь оплату на СБП. ChatGPT сказал "можно работать как самозанятый до 2,4 млн в год". Ты не уверен — и ставки высокие.

Промпт для каждой модели:

Вопрос про налоги и регистрацию бизнеса в России.

Ситуация: продаю хэндмейд-изделия через ВКонтакте, принимаю оплату 
через СБП на личную карту. Доход примерно 150 000 рублей в месяц. 
Работаю один, наёмных сотрудников нет.

Вопрос: могу ли я работать как самозанятый, или нужно открывать ИП? 
Каковы ограничения и риски каждого варианта?

Дай конкретный ответ и укажи:
1. В чём ты уверен?
2. Где есть неопределённость или риск ошибки?
3. Какие нюансы я должен уточнить у специалиста?

Промпт подаётся отдельно в ChatGPT, Claude и Gemini (или GigaChat) — без упоминания что ты проверяешь несколько источников.

Результат: Получишь три независимых ответа. Если все три моделях скажут одно и то же ("самозанятость подходит, но есть лимит 2,4 млн/год и нельзя нанимать сотрудников") — это сильный сигнал доверия. Если одна из моделей укажет нюанс про перепродажу vs. производство, который другие упустили — это сигнал что тема сложнее и нужен живой юрист.


🧠

Почему это работает

Слабость LLM: у каждой модели есть устойчивые паттерны ошибок — своё слепое пятно. Оно формируется на этапе обучения. Модель не знает о своём слепом пятне — она просто уверенно генерирует текст по привычному паттерну. Когда ты просишь ту же модель проверить себя, она снова попадает в то же слепое пятно.

Сильная сторона: разные модели обучены разными командами, на разных данных, разными методами. Их слепые пятна не совпадают. ChatGPT может ошибаться там, где Claude прав, и наоборот.

Как метод использует это: если несколько моделей с разными слепыми пятнами всё равно сходятся к одному ответу — вероятность, что это общее слепое пятно для всех, резко падает. Это и есть ансамблевая калибровка: модели взаимно компенсируют слабости друг друга.

Рычаги управления: - Число моделей → 2 достаточно для быстрой проверки, 3 даёт надёжный сигнал - Запрос на неопределённость → добавь "где ты можешь ошибаться?" — модель явно обозначит зоны риска - Изоляция моделей → не показывай ответ одной модели другой до сравнения, иначе теряешь независимость - Что сравнивать → не только итоговый ответ, но и аргументацию — расхождение в логике при совпадении выводов тоже сигнал


📋

Шаблон промпта

{Вопрос или задача, требующая точного ответа}

Контекст: {описание ситуации — кратко и конкретно}

Дай ответ и отметь:
1. В чём ты уверен?
2. Где есть неопределённость или риск ошибки с твоей стороны?
3. Что я должен дополнительно проверить у специалиста / в другом источнике?

Подставь в {вопрос} — то, что хочешь проверить. В {контекст} — цифры, детали, условия. Запусти одинаковый промпт в 2-3 разных моделях без изменений.

После получения ответов: сравни вручную или попроси одну из моделей:

Вот три ответа на один и тот же вопрос от разных AI-моделей:

[Ответ 1 — ChatGPT]
[Ответ 2 — Claude]  
[Ответ 3 — Gemini]

Определи:
- В чём они согласны? (это можно считать надёжным)
- В чём расходятся? (это требует дополнительной проверки)
- Какое утверждение вызывает наибольшее сомнение?

🚀 Быстрый старт — вставь в чат:

Вот шаблон ансамблевой проверки ответов через несколько AI-моделей. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про твою конкретную задачу и контекст — потому что шаблон нужно заточить под предметную область, где важна точность.


⚠️

Ограничения

⚠️ Субъективные задачи: Метод работает там, где есть объективно правильный ответ. Для творческих задач ("напиши пост в моём стиле") несовпадение моделей ничего не значит — там нет одного верного ответа.

⚠️ Общие ошибки: Если все модели обучены на одном и том же ошибочном источнике (например, на устаревшем законе), они все ошибутся одинаково. Консенсус моделей — не замена эксперту.

⚠️ Затраты времени: Ручная проверка в 3 моделях требует переключения и сравнения. Для быстрых рутинных задач — избыточно. Метод оправдан для важных, высокоставочных вопросов.

⚠️ Не для простых фактов: Если вопрос решается поиском в Wikipedia за 10 секунд — не трать время на ансамбль. Метод бьёт там, где сложные, неочевидные, многофакторные вопросы.


🔗

Ресурсы

Название: Predicting Program Correctness By Ensemble Semantic Entropy

Авторы: Yunxiang Wei, Tianlin Li, Yuwei Zheng, Yanni Dong, Aishan Liu, Qiang Hu, Xiaoyu Zhang, Mingfei Cheng, Jian Yang

Организации: Zhejiang University, Beihang University, University of Twente, Nanyang Technological University, Tianjin University, Singapore Management University

Бенчмарк: LiveCodeBench


📋 Дайджест исследования

Ключевая суть

Попросить ChatGPT пять раз проверить свой ответ и получить пять «всё верно» — не доказательство. Это одно слепое пятно, воспроизведённое пять раз подряд. Метод ансамблевой проверки позволяет понять, когда ответу модели можно доверять, а не просто надеяться на него. Фишка: задай одинаковый вопрос трём разным моделям изолированно друг от друга — сошлись независимо → ответ надёжный; разошлись → копай нюансы.

Принцип работы

У каждой модели своё слепое пятно — устойчивые ошибки, отпечатавшиеся при обучении. Модель не знает о нём. Просишь проверить себя — она снова проваливается в то же место, уверенно и без колебаний. Разные модели обучены разными командами, на разных данных — их слепые пятна не совпадают. Если ChatGPT, Claude и Gemini независимо пришли к одному выводу — шанс, что это общая ошибка сразу для всех трёх, ничтожен.

Почему работает

Самосогласованность одной модели — как допрашивать одного свидетеля пять раз. Он будет повторять одно и то же. Не потому что прав — а потому что убеждён в своей версии. Пять совпадений от одного источника — не пять независимых подтверждений, это один голос с эхом. Три разные модели — три независимых свидетеля, у которых нет причин ошибаться именно в одном и том же месте. Их консенсус — настоящий сигнал доверия, а не иллюзия его.

Когда применять

Важные вопросы с объективно правильным ответом: юридические нюансы, финансовые расчёты, медицинская информация, технические решения — особенно когда ошибка дорого обходится. НЕ подходит для творческих и субъективных задач: там нет одного верного ответа, расхождение моделей ничего не означает. Осторожно с темами, где все модели учились на одних устаревших данных — тогда ошибутся хором и консенсус будет ложным.

Мини-рецепт

1. Сформулируй вопрос: конкретная ситуация, цифры, детали. Добавь в конце: «Укажи в чём ты можешь ошибиться и что стоит уточнить у специалиста»
2. Задай одинаковый промпт в трёх разных моделях — ChatGPT, Claude, Gemini или GigaChat. По очереди, не показывая что ответили другие
3. Сравни ответы: совпадает и вывод, и аргументация → доверяй; расходятся даже в деталях → разбирай нюансы
4. Опционально — попроси одну модель свести итоги: вставь три ответа и спроси где совпадения, где расхождения и что вызывает наибольшее сомнение

Примеры

[ПЛОХО] : Правильно ли я посчитал налог как самозанятый?
[ХОРОШО] : Задай в трёх моделях одинаковый промпт: Ситуация: продаю хэндмейд через ВКонтакте, доход около 150 тыс рублей в месяц, оплата через СБП на личную карту. Могу работать как самозанятый или нужно открывать ИП? Укажи: 1) В чём уверен 2) Где можешь ошибиться 3) Что нужно уточнить у специалиста После получения трёх ответов — сравни. Все три говорят про лимит 2,4 млн в год → надёжно. Одна модель упоминает нюанс про перепродажу vs производство, остальные молчат → это сигнал: тема сложнее, нужен живой юрист.
Источник: Predicting Program Correctness By Ensemble Semantic Entropy
ArXiv ID: 2603.27098 | Сгенерировано: 2026-03-31 04:36

Проблемы LLM

ПроблемаСутьКак обойти
Самопроверка одной модели — ненадёжный сигналПросишь модель перепроверить свой ответ. Получаешь "всё верно". Но у модели одно и то же слепое пятно при каждом запросе. Она не знает где ошибается — и уверенно повторяет ошибку. Эт проблема для любых важных вопросов: юридических, медицинских, техническихНе проси одну модель проверять саму себя. Отправь тот же запрос в 2–3 разные модели отдельно. Сравни ответы. Совпадают — доверяй. Расходятся — копай дальше

Методы

МетодСуть
Ансамблевая проверка — несколько моделей вместо самопроверкиОтправь одинаковый промпт в 2–3 разные модели. Каждая отдельно, без доступа к ответам других. Сравни: совпадают сигнал доверия, расходятся сигнал тревоги. Добавь в каждый запрос: "Где ты можешь ошибаться? Что стоит проверить у специалиста?" — модель сама обозначит зоны риска. Почему работает: разные модели обучены по-разному. Их слепые пятна не совпадают. Если все три сошлись — вероятность общей ошибки падает. Когда применять: важные вопросы с объективно верным ответом (право, медицина, финансы, код). Когда не работает: творческие задачи, субъективные оценки — там расхождение ничего не значит
📖 Простыми словами

Predicting Program Correctness By Ensemble Semantic Entropy

arXiv: 2603.27098

Проблема в том, что современные нейронки — патологические лжецы с каменным лицом. Когда модель ошибается, она делает это максимально уверенно, и обычные методы проверки тут бесполезны. Фундаментальная механика семантической энтропии ансамбля (ESE) строится на том, что у каждой LLM есть свои «слепые пятна», зашитые в нее при обучении. Если ты спросишь одну и ту же модель дважды, она может дважды выдать одну и ту же чушь, потому что ее так научили. Но если собрать ансамбль из разных моделей, вероятность того, что они все одинаково «глюканут» в одном и том же месте, резко падает.

Это как если бы ты спросил дорогу у трех случайных прохожих. Один может быть местным сумасшедшим, второй — туристом, который сам заблудился, но стесняется признаться. Если они машут руками в разные стороны — дело дрянь, никто ничего не знает. Но если три совершенно разных человека, не сговариваясь, указывают на один и тот же поворот, значит, там действительно выход. В этом и суть ESE: мы ищем не просто ответ, а точку схождения смыслов у независимых систем.

Метод работает просто: мы берем пачку разных моделей и скармливаем им одну задачу. Дальше в дело вступает семантическая группировка — мы смотрим не на совпадение слов (они могут быть разными), а на то, совпадает ли суть ответа. Если GPT-4, Claude и Llama независимо друг от друга выдают один и тот же результат, семантическая энтропия стремится к нулю, и мы можем доверять ответу. Если же их «показания» разлетаются в разные стороны — модель просто галлюцинирует, и полагаться на такой код или совет нельзя.

Тестировали это на проверке корректности программного кода, но принцип универсален. Он применим в юриспруденции, медицине или налогах — везде, где цена ошибки высока, а нейронка может выдать уверенную дезинформацию. ESE превращает гадание на кофейной гуще в математически обоснованную проверку. Это переход от слепой веры в «умный чат» к системе перекрестного допроса, где истина рождается в согласии независимых экспертов.

Короче: никогда не верь одной модели на слово, какой бы убедительной она ни казалась. Если задача сложнее, чем написание тоста на свадьбу, нужно использовать ансамбль и замерять энтропию. Либо ты тратишь ресурсы на проверку несколькими моделями сейчас, либо потом разгребаешь последствия уверенного бреда. ESE — это твой детектор лжи для AI, который отсеивает случайный мусор и оставляет только то, в чем модели реально «уверены» коллективно.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с