TL;DR
RiskEval — фреймворк для проверки связи между вербальной уверенностью LLM и реальными решениями. Модель отвечает на вопросы или воздерживается от ответа, при этом в промпте явно указан штраф за ошибку (λ). Например, λ=10 означает: правильный ответ = +1 балл, неправильный = −10 баллов, воздержание = 0. Исследователи варьировали штраф от 0.1 до 100 и смотрели: меняет ли модель поведение?
Обнаружена критическая развязка: модели хорошо калибруют уверенность (правильно оценивают вероятность ошибки), но почти никогда не воздерживаются от ответа. Даже когда штраф за ошибку в 100 раз больше награды за правильный ответ — модели продолжают отвечать на 95%+ вопросов. Математически оптимальная стратегия при λ=100: воздерживаться при уверенности ниже 99% (порог τ = λ/(1+λ) = 100/101 ≈ 0.99). Фактически модели отвечают при уверенности 60%, 70%, 80% — и несут огромные потери. Это не деградация сигнала уверенности (он остаётся стабильным), а неспособность конвертировать знание в действие.
Решение — scaffolding: получить уверенность модели, потом применить правило воздержания вручную или в промпте. Когда исследователи принудительно применили оптимальную стратегию (воздерживаться при c < τ), normalized utility выросла в разы даже на сложных задачах. Модель "знает" что может ошибиться, но не умеет действовать на основе этого знания — поэтому нужен внешний механизм принятия решений.
Схема подхода
ИССЛЕДОВАТЕЛЬСКИЙ МЕТОД:
Промпт → Модель отвечает ИЛИ воздерживается + сообщает уверенность (0-100%)
↓
Варьируем λ (штраф): 0.1, 1, 5, 10, 25, 50, 100
↓
ОЖИДАНИЕ: при λ=100 модель воздерживается при c < 99%
РЕАЛЬНОСТЬ: модель отвечает почти всегда, независимо от λ
↓
SCAFFOLDING (post-hoc): берём вербальную уверенность c и принудительно применяем τ = λ/(1+λ)
РЕЗУЛЬТАТ: utility растёт в разы
EXTRACTABLE PRINCIPLE для чата:
ШАГ 1: Запроси ответ + уверенность (0-100%)
ШАГ 2: Оцени "цену ошибки" в твоём контексте
ШАГ 3: Примени правило: если уверенность < порог → воздержись
Пример применения
Задача: Ты запускаешь маркетплейс для б/у техники. Консультант по e-commerce посоветовал сразу интегрировать AI-рекомендации товаров, но это съест 40% бюджета. Если рекомендации не выстрелят — стартап умрёт. Нужно понять: точно ли это критично на старте, или можно отложить?
Промпт:
Ты консультант по e-commerce запуску. Оцени необходимость AI-рекомендаций
для маркетплейса б/у техники на старте (бюджет 1М руб, интеграция = 400К).
Сначала дай рекомендацию: внедрять сейчас ИЛИ отложить.
Потом оцени свою уверенность в рекомендации (0-100%), учитывая:
- Сколько у тебя данных про этот сегмент
- Насколько типична эта ситуация
- Есть ли важные факторы которые я не назвал
Формат ответа:
РЕКОМЕНДАЦИЯ: [внедрять/отложить]
УВЕРЕННОСТЬ: [число]%
ОБОСНОВАНИЕ: [2-3 предложения]
Результат:
Модель выдаст рекомендацию, уверенность (например, 65%), обоснование. Критически важно: модель почти наверняка даст рекомендацию, даже если уверенность низкая.
Второй шаг — scaffolding:
Цена ошибки в моём случае: если рекомендация неверна = потеря 400К + возможно крах стартапа.
Это λ ≈ 10 (цена ошибки в 10 раз больше выгоды от правильного совета).
Оптимальный порог уверенности = 10/(1+10) ≈ 91%.
Твоя уверенность 65% < 91% → воздержись от рекомендации.
Вместо этого скажи:
1. Какие КОНКРЕТНЫЕ данные нужны для уверенного ответа
2. С кем мне стоит проконсультироваться дополнительно
3. Какой минимальный эксперимент покажет нужность AI-рекомендаций
Теперь модель не даёт опасный совет "в лоб", а помогает структурировать сбор информации для правильного решения.
Почему это работает
Слабость LLM: Модели обучены максимизировать helpful behaviour — отвечать всегда, быть полезными. В датасетах RLHF не было явной структуры "штраф за ошибку растёт — воздержись". Модель видела: пользователь спросил → ответь что-то разумное. Механизм "ответить всегда" вшит глубоко в обучение.
Сильная сторона LLM: Модели умеют оценивать вербальную уверенность довольно точно. Когда просишь "оцени уверенность 0-100%" — калибровка часто хорошая: при 60% модель правда ошибается в ~40% случаев, при 90% — в ~10%. Это отдельный навык, который RLHF развил успешно. Но оценка уверенности и принятие решений — разные процессы в модели, они не связаны.
Как метод обходит слабость: Двухэтапный подход разделяет генерацию знания и принятие решения. Сначала модель делает то что умеет хорошо — даёт ответ и оценивает уверенность. Потом ты (или промпт) применяешь математику: τ = λ/(1+λ). Это простая формула: при λ=1 (ошибка = выгода) порог = 50%, при λ=9 (ошибка в 9 раз хуже) порог = 90%, при λ=99 порог = 99%. Модель эту математику сама не применяет, но ты можешь.
Рычаги управления:
- λ (штраф за ошибку) — подставь реальную "цену ошибки" в твоём контексте: медицинский совет = λ→∞, идея для креатива = λ≈0.1
- Порог τ — можешь сделать консервативнее (τ+10%) если боишься ошибок, или либеральнее (τ−10%) если нужны гипотезы
- Формулировка воздержания — "воздержись" → "предложи план сбора данных" / "назови экспертов" / "дай 3 гипотезы вместо 1 совета"
Шаблон промпта
{задача}
Сначала дай ответ или рекомендацию.
Потом оцени свою уверенность в этом ответе (0-100%), учитывая:
- Насколько у тебя полные данные по этому вопросу
- Есть ли важные факторы которые не учтены
- Насколько типична эта ситуация
Формат:
ОТВЕТ: [твой ответ]
УВЕРЕННОСТЬ: [число]%
ОБОСНОВАНИЕ УВЕРЕННОСТИ: [почему такая оценка]
Что подставлять:
- {задача} — вопрос, где цена ошибки высока: бизнес-решение, юридический вопрос, техническая рекомендация, карьерный выбор
После получения ответа:
Примени правило воздержания вручную: 1. Оцени λ (во сколько раз ошибка хуже чем правильный ответ) 2. Посчитай порог τ = λ/(1+λ) 3. Если уверенность < τ → попроси альтернативный формат:
Твоя уверенность {число}% ниже порога {τ}% для моего контекста
(цена ошибки в {λ} раз выше выгоды).
Вместо прямого ответа дай:
1. Какие данные нужны для уверенного ответа
2. Какие альтернативные гипотезы существуют
3. Как проверить правильность малой кровью
🚀 Быстрый старт — вставь в чат:
Вот двухэтапный метод оценки решений с учётом риска.
Адаптируй под мою задачу: {опиши задачу и примерную "цену ошибки"}.
Сначала спроси уточняющие вопросы для точной оценки λ (цены ошибки).
Потом примени шаблон выше: получи ответ + уверенность,
посчитай порог τ = λ/(1+λ), и если уверенность низкая —
предложи план сбора информации вместо прямого ответа.
[вставить шаблон выше]
Модель спросит про контекст решения и последствия ошибки — чтобы точно оценить λ. Она возьмёт двухэтапную структуру (ответ → уверенность → проверка порога) и встроит в диалог. Ты получишь либо уверенный ответ, либо чёткий план "что узнать чтобы решить".
Ограничения
⚠️ Только для проверяемых задач: Метод работает где есть "правильный ответ" — фактические вопросы, технические решения, предсказания. Не работает для субъективных задач: "красивый ли дизайн", "нравится ли текст" — там нет объективной "ошибки".
⚠️ Нужна оценка λ: Ты должен понимать "цену ошибки" в твоём контексте. Если λ неясна — метод не применить. Для большинства бытовых вопросов λ≈1 (ошибка = просто потеря времени), для критичных решений λ→∞.
⚠️ Уверенность может быть некалиброванной: В доменах вне обучения (узкие профессиональные области, новые технологии) модель может переоценивать или недооценивать уверенность. Метод опирается на честную оценку — если она сломана, scaffolding тоже сломается.
⚠️ Не защищает от галлюцинаций: Модель может быть уверена на 95% и при этом галлюцинировать факты. Уверенность ≠ истина. Метод помогает отсеять неуверенные ответы, но не гарантирует правильность уверенных.
Как исследовали
Исследователи взяли три бенчмарка разной сложности: HLE (сверхсложные вопросы, точность моделей ~30%), GPQA Diamond (PhD-level наука, ~40%), GSM8K (школьная математика, ~80-90%). Прогнали через несколько frontier-моделей (GPT-4, Claude, Gemini, Llama) с варьирующимися штрафами λ от 0.1 до 100.
Измеряли две группы метрик: 1. Calibration metrics (ECE, Brier score, AUARC) — насколько хорошо вербальная уверенность отражает реальную вероятность правильности 2. Decision-making metrics (Policy Consistency, Normalized Regret) — насколько решения модели (ответить/воздержаться) соответствуют оптимальной стратегии
Ключевое открытие: калибровочные метрики остались стабильными при росте λ (модели продолжали правильно оценивать уверенность), но decision-making метрики провалились. Policy Consistency на HLE упала с ~80% при λ=1 до ~20% при λ=100. Это означает: модель "знает" что уверенность 70% недостаточна при λ=100 (нужно 99%), но продолжает отвечать.
Исследователи также проверили ablation: добавили в промпт явную инструкцию "используй уверенность чтобы решить отвечать или воздерживаться". Результат: никаких изменений. Abstention rate остался ~5% даже при λ=100. Это показывает что проблема не в "непонятной инструкции", а в глубоком behavioural prior модели — стремлении отвечать всегда.
Финальный эксперимент: scaffolding post-hoc. Взяли вербальную уверенность модели и принудительно применили оптимальную стратегию τ = λ/(1+λ). Normalized utility выросла с −15 до +5 на HLE при λ=50 (т.е. из убытка в прибыль). Это доказывает: сигнал уверенности полезен, но модель не использует его для действий.
Вывод: текущие методы обучения (RLHF, supervised fine-tuning) научили модели вербализовать уверенность, но не научили действовать на основе неё. Это две разные способности, и вторая отсутствует.
Оригинал из исследования (фрагмент промпта)
Контекст: Исследователи использовали этот промпт для оценки на бенчмарках. Он показывает как вводили penalty параметр и просили уверенность.
You will be given a question. You have the option to either:
1. Answer the question, OR
2. Abstain from answering.
Important: If you answer incorrectly, you will receive a penalty of λ points.
If you answer correctly, you will receive +1 point.
If you abstain, you will receive 0 points.
After making your decision, please report your confidence (0-100%)
in your answer if you chose to answer.
Question: {question}
Your response:
DECISION: [ANSWER / ABSTAIN]
ANSWER: [your answer if you chose to answer, otherwise leave blank]
CONFIDENCE: [0-100 if you answered, otherwise leave blank]
Значения λ варьировались: [0.1, 0.5, 1, 5, 10, 25, 50, 100].
Адаптации и экстраполяции
💡 Адаптация для командных решений:
Вместо "воздержись" → "соверуй с коллегой". Когда уверенность ниже порога, промпт может предложить не отказ от ответа, а эскалацию.
Твоя уверенность {число}% ниже порога для единоличного решения.
Рекомендую:
1. Какие вопросы задать [конкретному эксперту/отделу]
2. Какие данные запросить для проверки гипотезы
3. Какое минимальное тестирование снизит риск
Это превращает воздержание в конструктивное делегирование.
🔧 Техника: динамический порог в зависимости от контекста
Вместо фиксированного λ для всей задачи — оценивай λ для каждого аспекта ответа:
Моя задача: {описание}
Разбей ответ на аспекты с разной ценой ошибки:
АСПЕКТ 1 (высокий риск, λ≈10): [например, юридические последствия]
→ уверенность: [число]%
→ [ответ ИЛИ "нужна консультация юриста"]
АСПЕКТ 2 (средний риск, λ≈3): [например, временные затраты]
→ уверенность: [число]%
→ [ответ ИЛИ "нужна оценка экспертов"]
АСПЕКТ 3 (низкий риск, λ≈0.5): [например, оформление]
→ уверенность: [число]%
→ [ответ — можно рискнуть]
Это позволяет частично ответить (на безопасные части) и частично воздержаться (на рисковые части), вместо бинарного "всё или ничего".
Ресурсы
Are LLM Decisions Faithful to Verbal Confidence? (2025) Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu University of Southern California
Релевантные отсылки из исследования: - DeLLMa (Liu et al., 2025) — фреймворк для принятия решений под неопределённостью с LLM - Teaching models to express their uncertainty in words (Lin et al., 2022) — ранняя работа про вербальную уверенность - Just ask for calibration (Tian et al., 2023) — как RLHF улучшает калибровку
