TL;DR
Когда модель говорит "я уверена на 85%" — это почти бессмысленно. Исследователи проверили несколько малых моделей на одних и тех же задачах, но с пятью разными формулировками каждого промпта. Оказалось: вербальная уверенность модели систематически выше её реальной точности — в среднем на 60–78 процентных пунктов. Модель звучит уверенно даже там, где регулярно ошибается.
Главный инсайт: одна формулировка промпта не показывает насколько модель надёжна. Одна и та же задача при переформулировке даёт разные ответы — и масштаб разброса непредсказуем. При этом более крупная модель не означает более стабильная: средняя Phi-4-mini оказалась устойчивее, чем Mistral-7B, который вдвое больше по параметрам.
Из этого прямо следуют три практических вывода: не доверяй вербальной уверенности модели, тестируй важные промпты в нескольких формулировках, и не выбирай модель по размеру — выбирай по реальной стабильности на твоей задаче.
Схема: три находки
НАХОДКА 1 — Вербальная уверенность врёт
Модель говорит: "уверена на 80%"
Реальная точность на той же задаче: ~20-25%
Разрыв: +60-78 п.п. у каждой протестированной модели
НАХОДКА 2 — Жди ли модель цепочку рассуждений + строгий формат → катастрофа
Промпт: "думай вслух, дай ответ одной буквой"
Результат: первый символ = "Т" (от "Так как..."), не "А/Б/В/Г"
Скоринг засчитывает как неверный → точность падает на 72-88%
Причина: конфликт формата вывода с форматом оценки
НАХОДКА 3 — Размер модели ≠ устойчивость к перефразированию
Phi-4-mini (3.8B) → разброс точности 0.084 (очень стабильна)
Mistral-7B (7.2B) → разброс точности 0.500 (нестабильна)
Корреляция размер→стабильность: слабая, непоследовательная
Всё это можно проверить в обычном чате — никакого кода не нужно.
Пример применения
Задача: Ты хочешь узнать мнение Claude по сложному бизнес-вопросу — стоит ли запускать новый продукт. Доверяешь ответу, потому что модель добавила "я достаточно уверена в этом выводе".
Почему это опасно — промпт-тест:
Вопрос 1 (прямой):
Стоит ли мне запускать мобильное приложение для доставки еды в регионах с населением
до 300 тысяч человек? Ответь развёрнуто.
Вопрос 2 (тот же, другая формулировка):
Каковы главные риски запуска мобильного приложения доставки еды в небольших
российских городах? Оцени перспективы.
Вопрос 3 (с противоположной рамкой):
Почему большинство приложений доставки еды терпит неудачу в городах
с населением до 300 тысяч человек? Какие факторы решают?
После всех трёх ответов напиши:
Сравни свои три ответа выше. Где есть противоречия? Где твоя уверенность
была завышена относительно реальной неопределённости?
Результат: Модель покажет, где её выводы расходятся при разных формулировках. Плюс — сама укажет на противоречия. Это даст реальную картину неопределённости, а не иллюзию уверенности из одного ответа.
Почему это работает
LLM генерирует текст, который "звучит правильно" в контексте. Когда ты спрашиваешь "насколько ты уверена?" — модель не обращается к внутреннему счётчику правильности. Она генерирует ответ, который звучит как то, что говорят уверенные люди. Результат: систематическое завышение.
Это не баг конкретной модели — это паттерн. Особенно сильно проявляется на сложных задачах, где модель реально не знает ответа, но всё равно выдаёт высокую вербальную уверенность. Именно тогда — когда она нужна больше всего — она врёт сильнее всего.
Тест с несколькими формулировками работает потому, что стабильный ответ = надёжный ответ. Если модель говорит одно при прямом вопросе и другое при вопросе с противоположной рамкой — значит, она реально не знает. Разброс и есть честная мера неопределённости.
Рычаги управления: - Три формулировки вместо двух — добавь нейтральную, позитивную и негативную рамку - Попроси сравнить ответы — модель сама найдёт противоречия в своих трёх ответах - Не спрашивай "насколько ты уверена" — спрашивай "где ты могла ошибиться" - Ролевая рамка — "аргументируй противоположную точку зрения" даёт реальный стресс-тест
Шаблон промпта
Мне нужен надёжный ответ на {вопрос}.
Прежде чем дать финальный вывод, ответь три раза с разных позиций:
Позиция 1 (прямая): {вопрос, сформулированный нейтрально}
Позиция 2 (скептическая): Почему {идея/решение/подход} может не сработать?
Перечисли главные риски.
Позиция 3 (позитивная рамка): При каких условиях {идея/решение/подход}
сработает лучше всего?
После трёх ответов:
- Укажи, где твои три ответа противоречат друг другу
- Где ты реально уверен(а), а где — только предполагаешь
- Финальный вывод с честной оценкой неопределённости
Плейсхолдеры:
- {вопрос} — твой исходный вопрос
- {идея/решение/подход} — конкретный объект оценки (продукт, решение, план)
Подставь вместо нейтрального/скептического/позитивного — любые три угла, которые важны в твоей задаче: "взгляд инвестора / взгляд клиента / взгляд конкурента".
🚀 Быстрый старт — вставь в чат:
Вот шаблон для надёжной оценки с трёх позиций.
Адаптируй под мою задачу: [опиши задачу].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про объект оценки и контекст — потому что ей нужно понять три позиции, с которых имеет смысл смотреть именно на твою задачу.
Ограничения
⚠️ Не спасает от галлюцинаций фактов: Если модель уверенно ошибается во всех трёх формулировках — тест не поможет. Работает только там, где у неё реальная неопределённость.
⚠️ Не работает на простых фактических вопросах: "Когда основана компания X?" — три формулировки не добавят ценности. Метод для сложных суждений и анализа.
⚠️ Вербальная уверенность иногда чуть лучше на лёгких задачах: Исследователи нашли, что на простых бенчмарках (классификация тональности текста, новостные категории) разрыв между вербальной уверенностью и точностью меньше. Систематическое завышение — специфика сложных задач с реальной неопределённостью.
⚠️ При запросе "думай вслух + дай ответ строгого формата" — жди сюрпризов: Исследование показало, что просьба рассуждать вслух (chain-of-thought) в конфликте со строгим форматом вывода может дать неожиданный мусор. Если просишь "думай вслух", не требуй одновременно "ответь одним словом".
Как исследовали
Команда взяла 15 малых моделей (1–8 млрд параметров) и прогнала каждую через пять разных классических бенчмарков — задачи на классификацию и рассуждение. Но главный трюк: каждый вопрос задавался в пяти формулировках — перефраз, другой порядок инструкций, с примерами, смена формата, другая рамка. Итого — сотни комбинаций "модель × задача × формулировка".
Самая драматичная находка вышла случайно: попросили одну модель "думать вслух", но оценивали по первому символу ответа. Первым символом оказалось "Т" (начало рассуждения "The..."), а не "A/B/C/D". Точность упала на 72–88% — не потому что модель стала глупее, а потому что правило оценки конфликтовало с форматом ответа. Когда исправили только правило оценки (не трогая модель), точность вернулась.
Это неожиданно и важно: значит, часть "провалов" моделей на бенчмарках — это провалы системы оценки, а не самой модели. Прямой вывод для пользователя: если модель выдаёт странный ответ, сначала проверь свой запрос — возможно, ты создал конфликт между "думай" и "отвечай строго".
Ресурсы
Название: What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models
Авторы: Ranit Karmakar (Harvard University), Jayita Chatterjee
Препринт: май 2025, доступен как preprint
