3,583 papers
arXiv:2605.02038 72 3 мая 2026 г. FREE

Надёжность LLM: три вещи, которые вы не увидите в одном промпте

КЛЮЧЕВАЯ СУТЬ
Модель говорит «уверена на 85%» — реальная точность на той же задаче: около 20%. Разрыв в 60–78 процентных пунктов зафиксирован у каждой протестированной модели — это не исключение, это паттерн. Тест с несколькими формулировками позволяет вытащить настоящую неопределённость модели — до того как ты примешь решение на основе уверенного, но ненадёжного ответа. Задай один вопрос в трёх рамках — нейтральной, скептической и позитивной: где ответы расходятся — модель реально не знает. Разброс и есть честная мера неопределённости — не вербальная уверенность, которую она генерирует просто потому что так «звучит правильно».
Адаптировать под запрос

TL;DR

Когда модель говорит "я уверена на 85%" — это почти бессмысленно. Исследователи проверили несколько малых моделей на одних и тех же задачах, но с пятью разными формулировками каждого промпта. Оказалось: вербальная уверенность модели систематически выше её реальной точности — в среднем на 60–78 процентных пунктов. Модель звучит уверенно даже там, где регулярно ошибается.

Главный инсайт: одна формулировка промпта не показывает насколько модель надёжна. Одна и та же задача при переформулировке даёт разные ответы — и масштаб разброса непредсказуем. При этом более крупная модель не означает более стабильная: средняя Phi-4-mini оказалась устойчивее, чем Mistral-7B, который вдвое больше по параметрам.

Из этого прямо следуют три практических вывода: не доверяй вербальной уверенности модели, тестируй важные промпты в нескольких формулировках, и не выбирай модель по размеру — выбирай по реальной стабильности на твоей задаче.


📌

Схема: три находки

НАХОДКА 1 — Вербальная уверенность врёт
  Модель говорит: "уверена на 80%"
  Реальная точность на той же задаче: ~20-25%
  Разрыв: +60-78 п.п. у каждой протестированной модели

НАХОДКА 2 — Жди ли модель цепочку рассуждений + строгий формат → катастрофа
  Промпт: "думай вслух, дай ответ одной буквой"
  Результат: первый символ = "Т" (от "Так как..."), не "А/Б/В/Г"
  Скоринг засчитывает как неверный → точность падает на 72-88%
  Причина: конфликт формата вывода с форматом оценки

НАХОДКА 3 — Размер модели ≠ устойчивость к перефразированию
  Phi-4-mini (3.8B) → разброс точности 0.084 (очень стабильна)  
  Mistral-7B (7.2B) → разброс точности 0.500 (нестабильна)
  Корреляция размер→стабильность: слабая, непоследовательная

Всё это можно проверить в обычном чате — никакого кода не нужно.


🚀

Пример применения

Задача: Ты хочешь узнать мнение Claude по сложному бизнес-вопросу — стоит ли запускать новый продукт. Доверяешь ответу, потому что модель добавила "я достаточно уверена в этом выводе".

Почему это опасно — промпт-тест:

Вопрос 1 (прямой):
Стоит ли мне запускать мобильное приложение для доставки еды в регионах с населением 
до 300 тысяч человек? Ответь развёрнуто.

Вопрос 2 (тот же, другая формулировка):
Каковы главные риски запуска мобильного приложения доставки еды в небольших 
российских городах? Оцени перспективы.

Вопрос 3 (с противоположной рамкой):
Почему большинство приложений доставки еды терпит неудачу в городах 
с населением до 300 тысяч человек? Какие факторы решают?

После всех трёх ответов напиши:
Сравни свои три ответа выше. Где есть противоречия? Где твоя уверенность 
была завышена относительно реальной неопределённости?

Результат: Модель покажет, где её выводы расходятся при разных формулировках. Плюс — сама укажет на противоречия. Это даст реальную картину неопределённости, а не иллюзию уверенности из одного ответа.


🧠

Почему это работает

LLM генерирует текст, который "звучит правильно" в контексте. Когда ты спрашиваешь "насколько ты уверена?" — модель не обращается к внутреннему счётчику правильности. Она генерирует ответ, который звучит как то, что говорят уверенные люди. Результат: систематическое завышение.

Это не баг конкретной модели — это паттерн. Особенно сильно проявляется на сложных задачах, где модель реально не знает ответа, но всё равно выдаёт высокую вербальную уверенность. Именно тогда — когда она нужна больше всего — она врёт сильнее всего.

Тест с несколькими формулировками работает потому, что стабильный ответ = надёжный ответ. Если модель говорит одно при прямом вопросе и другое при вопросе с противоположной рамкой — значит, она реально не знает. Разброс и есть честная мера неопределённости.

Рычаги управления: - Три формулировки вместо двух — добавь нейтральную, позитивную и негативную рамку - Попроси сравнить ответы — модель сама найдёт противоречия в своих трёх ответах - Не спрашивай "насколько ты уверена" — спрашивай "где ты могла ошибиться" - Ролевая рамка — "аргументируй противоположную точку зрения" даёт реальный стресс-тест


📋

Шаблон промпта

Мне нужен надёжный ответ на {вопрос}. 

Прежде чем дать финальный вывод, ответь три раза с разных позиций:

Позиция 1 (прямая): {вопрос, сформулированный нейтрально}

Позиция 2 (скептическая): Почему {идея/решение/подход} может не сработать? 
Перечисли главные риски.

Позиция 3 (позитивная рамка): При каких условиях {идея/решение/подход} 
сработает лучше всего?

После трёх ответов:
- Укажи, где твои три ответа противоречат друг другу
- Где ты реально уверен(а), а где — только предполагаешь
- Финальный вывод с честной оценкой неопределённости

Плейсхолдеры: - {вопрос} — твой исходный вопрос - {идея/решение/подход} — конкретный объект оценки (продукт, решение, план)

Подставь вместо нейтрального/скептического/позитивного — любые три угла, которые важны в твоей задаче: "взгляд инвестора / взгляд клиента / взгляд конкурента".

🚀 Быстрый старт — вставь в чат:

Вот шаблон для надёжной оценки с трёх позиций. 
Адаптируй под мою задачу: [опиши задачу].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про объект оценки и контекст — потому что ей нужно понять три позиции, с которых имеет смысл смотреть именно на твою задачу.


⚠️

Ограничения

⚠️ Не спасает от галлюцинаций фактов: Если модель уверенно ошибается во всех трёх формулировках — тест не поможет. Работает только там, где у неё реальная неопределённость.

⚠️ Не работает на простых фактических вопросах: "Когда основана компания X?" — три формулировки не добавят ценности. Метод для сложных суждений и анализа.

⚠️ Вербальная уверенность иногда чуть лучше на лёгких задачах: Исследователи нашли, что на простых бенчмарках (классификация тональности текста, новостные категории) разрыв между вербальной уверенностью и точностью меньше. Систематическое завышение — специфика сложных задач с реальной неопределённостью.

⚠️ При запросе "думай вслух + дай ответ строгого формата" — жди сюрпризов: Исследование показало, что просьба рассуждать вслух (chain-of-thought) в конфликте со строгим форматом вывода может дать неожиданный мусор. Если просишь "думай вслух", не требуй одновременно "ответь одним словом".


🔍

Как исследовали

Команда взяла 15 малых моделей (1–8 млрд параметров) и прогнала каждую через пять разных классических бенчмарков — задачи на классификацию и рассуждение. Но главный трюк: каждый вопрос задавался в пяти формулировках — перефраз, другой порядок инструкций, с примерами, смена формата, другая рамка. Итого — сотни комбинаций "модель × задача × формулировка".

Самая драматичная находка вышла случайно: попросили одну модель "думать вслух", но оценивали по первому символу ответа. Первым символом оказалось "Т" (начало рассуждения "The..."), а не "A/B/C/D". Точность упала на 72–88% — не потому что модель стала глупее, а потому что правило оценки конфликтовало с форматом ответа. Когда исправили только правило оценки (не трогая модель), точность вернулась.

Это неожиданно и важно: значит, часть "провалов" моделей на бенчмарках — это провалы системы оценки, а не самой модели. Прямой вывод для пользователя: если модель выдаёт странный ответ, сначала проверь свой запрос — возможно, ты создал конфликт между "думай" и "отвечай строго".


🔗

Ресурсы

Название: What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models

Авторы: Ranit Karmakar (Harvard University), Jayita Chatterjee

Препринт: май 2025, доступен как preprint


📋 Дайджест исследования

Ключевая суть

Модель говорит «уверена на 85%» — реальная точность на той же задаче: около 20%. Разрыв в 60–78 процентных пунктов зафиксирован у каждой протестированной модели — это не исключение, это паттерн. Тест с несколькими формулировками позволяет вытащить настоящую неопределённость модели — до того как ты примешь решение на основе уверенного, но ненадёжного ответа. Задай один вопрос в трёх рамках — нейтральной, скептической и позитивной: где ответы расходятся — модель реально не знает. Разброс и есть честная мера неопределённости — не вербальная уверенность, которую она генерирует просто потому что так «звучит правильно».

Принцип работы

Не спрашивай «насколько ты уверена?» — спрашивай «где ты могла ошибиться?». Дай модели три угла зрения на одну задачу. Стабильный ответ = надёжный ответ. Нестабильный = модель плывёт. Если при нейтральном вопросе она говорит одно, а при скептической рамке — другое, это и есть честная картина. Отдельная ловушка: не смешивай «думай вслух» (цепочку рассуждений) со строгим форматом вывода типа «ответь одной буквой». Исследование показало: такая комбинация роняет точность на 72–88% — первый символ оказывается буквой из рассуждений («Т» от «Так как...»), а не нужным вариантом ответа. Скоринг засчитывает как неверный — и всё.

Почему работает

Вербальная уверенность — не доступ к внутреннему счётчику правильности. Модель генерирует текст, который звучит как то, что говорят уверенные люди. Чем сложнее задача — тем хуже этот сигнал. Самое неприятное: завышение уверенности сильнее всего именно там, где честная оценка нужна больше всего — на сложных, неоднозначных задачах с реальной неопределённостью. Тест с несколькими формулировками работает потому, что стабильность — единственный честный признак того, что модель реально знает, а не просто генерирует убедительный текст. И ещё один неочевидный факт из этого же исследования: Phi-4-mini с 3.8 миллиарда параметров оказалась стабильнее Mistral-7B с 7.2 миллиарда. Размер модели слабо связан со стабильностью на конкретных задачах — выбирай по реальным тестам, а не по размеру.

Когда применять

Везде, где ответ LLM влияет на реальное решение — оценка бизнес-идей, анализ рисков, стратегические суждения, выбор между вариантами. Особенно когда за ответом стоят деньги или действия. НЕ подходит для простых фактических вопросов (даты, имена, формулы) — три формулировки не добавят ценности. Не работает если модель галлюцинирует одинаково уверенно во всех трёх формулировках — только для задач с реальной неопределённостью.

Мини-рецепт

1. Три рамки, один вопрос: нейтральная («что стоит учесть?»), скептическая («почему это не сработает?»), позитивная («при каких условиях сработает лучше всего?»)
2. Задай последовательно — в одном диалоге или отдельными чатами, но не отклоняясь от сути задачи
3. Попроси сравнить: Сравни три своих ответа выше. Где есть противоречия? Где ты реально уверена, а где — предполагаешь?
4. Замени вопрос об уверенности: вместо «насколько ты уверена?» — Где в этом ответе я должен перепроверить факты сам?
5. Не смешивай форматы: если просишь думать вслух — не требуй одновременно «ответь одним словом» или строгого формата вывода

Примеры

[ПЛОХО] : Стоит ли мне запускать подписку на мой продукт? Насколько ты уверена в ответе?
[ХОРОШО] : Ответь на три варианта одного вопроса по очереди. 1. При каких условиях подписочная модель работает лучше всего для [описание продукта]? 2. Почему большинство подписок проваливается — главные причины? 3. Почему именно в моём случае подписка может не взлететь? После трёх ответов: укажи, где они противоречат друг другу, и дай финальный вывод с честной оценкой — где ты уверена, а где только предполагаешь.
Источник: What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models
ArXiv ID: 2605.02038 | Сгенерировано: 2026-05-05 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Словесная уверенность модели не связана с реальной точностьюСпрашиваешь "насколько уверена?" — получаешь "достаточно уверена". Модель не обращается к внутреннему счётчику точности. Она генерирует текст который звучит уверенно. Разрыв между заявленной уверенностью и реальной точностью — десятки процентных пунктов. На сложных задачах разрыв растёт: именно там где надёжность важнее всего — слова врут сильнееНе спрашивай "насколько ты уверена". Спрашивай "где ты могла ошибиться" или "что ты не знаешь точно". Или задай тот же вопрос с трёх разных углов — расхождение ответов покажет реальную неопределённость
Цепочка рассуждений конфликтует со строгим форматом ответаПросишь: "думай вслух и дай ответ одним словом". Модель начинает рассуждать — "Так как..." — и первое слово рассуждения засчитывается как ответ. Ответ в нужном формате теряется. Точность падает. Проблема не в логике модели — в конфликте двух требований одновременноНе смешивай два требования в одном запросе. Сначала: "думай вслух". Потом отдельно: "теперь дай финальный ответ в формате X". Или явно раздели секции: <размышления>... и <ответ>...

Методы

МетодСуть
Три угла вместо одного — проверка реальной надёжностиЗадай один и тот же вопрос с трёх позиций: нейтральной, скептической, позитивной. Пример: "Оцени идею / Почему идея провалится / При каких условиях идея сработает". Потом попроси модель сравнить три ответа и найти противоречия. Почему работает: стабильный вывод во всех трёх — надёжный сигнал. Расхождение — честная мера неопределённости. Модель сама указывает где предполагала, а не знала. Когда применять: сложные суждения, анализ, оценка рисков. Не применять: простые фактические вопросы, галлюцинации по фактам метод не поймает
📖 Простыми словами

What Single-PromptAccuracy Misses: A Multi-Variant Reliability Audit ofLanguageModels

arXiv: 2605.02038

Проблема в том, что когда нейронка говорит «я уверена на 90%», она нагло врет, даже не осознавая этого. На уровне механики вербальная уверенность LLM — это не результат внутреннего аудита знаний, а просто имитация стиля. Модель не лезет в базу данных за проверкой фактов, она просто предсказывает следующее слово, которое звучит убедительно. Если контекст вопроса подразумевает экспертность, она выдаст «экспертную» цифру, даже если несет полную чушь.

Это как нанять на работу стажера-социопата, который на любой вопрос отвечает с лицом стального гиганта. Формально он звучит солидно, но по факту он просто копирует интонации уверенных людей из интернета, на которых учился. Ты спрашиваешь его, как починить кран, он объясняет это с уверенностью хирурга, а в итоге у тебя затапливает соседей. Разрыв между словами и реальностью здесь достигает катастрофических 60–78 пунктов.

Исследователи прогнали модели через мультивариантный аудит: одну и ту же задачу упаковывали в пять разных формулировок. Выяснилось, что точность скачет от смены запятой, а вот «уверенность» остается стабильно высокой. Самые рабочие методы проверки — это не спрашивать «ты уверена?», а смотреть на согласованность ответов (Consistency) при разных промптах. Если на пять вариаций вопроса модель дает три разных ответа, значит, ее «я уверена» не стоит и ломаного гроша.

Этот принцип универсален: он касается и выбора стратегии для бизнеса, и написания кода, и медицинских советов. Тестировали на малых моделях, но галлюцинация уверенности — это родовая травма всех LLM. Неважно, просишь ты составить план тренировок или проанализировать рынок, модель всегда будет звучать как отличник на экзамене, даже если она полностью провалила задачу.

Короче: никогда не принимай «процент уверенности» от нейронки за чистую монету — это просто текст, а не математическая вероятность. Доверяй только консистентности: если модель выдает один и тот же результат в десяти разных формулировках, тогда там есть зерно истины. В остальном — это просто красивый шум, который может стоить тебе реальных денег или нервов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с