3,583 papers
arXiv:2508.15842 78 19 авг. 2025 г. FREE

Лексические маркеры неуверенности: как определить врёт ли модель по её рассуждениям

КЛЮЧЕВАЯ СУТЬ
Парадокс: Модель говорит «я уверена на 90%», а правильных ответов только 9%. Разрыв 81% — self-reported confidence полная фикция. Метод позволяет фильтровать ненадёжные ответы LLM до того как они навредят (критично для расчётов, юридических консультаций, медицинских рекомендаций). Фишка: модель «проговаривается» в рассуждениях — слова типа guess (догадка), stuck (застрял), hard (сложно), likely (вероятно) снижают точность ответа до 40%. Простая проверка «есть вредные слова в CoT → не доверяй ответу» работает в 2.5-4 раза лучше, чем верить цифре уверенности от самой модели.
Адаптировать под запрос

TL;DR

Исследователи обнаружили, что определённые слова в Chain-of-Thought (CoT) — видимых рассуждениях модели — предсказывают неправильность итогового ответа точнее, чем self-reported confidence (когда модель сама говорит "я уверена на 90%"). Слова типа guess, stuck, hard, likely, probably, complex снижают вероятность правильного ответа до 40%. Это работает как красные флаги — если видишь эти слова в рассуждениях, ответ скорее всего неверный.

Модели плохо калиброваны: на сложных задачах (HLE) точность ~9%, а self-reported confidence ~90% — разрыв 81%. Но в самих рассуждениях модель "проговаривается" — использует слова неуверенности там, где не знает ответа. Длина рассуждений информативна только на задачах средней сложности (где точность уже ~70%), на очень сложных задачах длина CoT ничего не говорит.

Простая эвристика "отметить как неверное, если есть любое из 5 топ-вредных слов" даёт Matthews Correlation Coefficient = 0.215 на HLE и 0.305 на Omni-Math. Это в 2.5-4 раза лучше, чем просто верить self-reported confidence модели (MCC = 0.085 и 0.065).

🔬

Схема метода

Это не промпт-техника, а метод оценки надёжности ответов моделей с доступным CoT:

ШАГ 1: Получить ответ с CoT
→ Используй модели с extended thinking (Claude Sonnet, DeepSeek-R1, o1)

ШАГ 2: Проверить наличие "вредных слов"
→ Топ-5: complexity, guess, stuck, hard, likely
→ Топ-25 полный список в исследовании

ШАГ 3: Оценить риск
→ Есть вредные слова → высокий риск неверного ответа
→ Нет вредных слов → но всё равно не гарантия
🧠

Почему это работает

Проблема: LLM врут уверенно. На сложном бенчмарке HLE модели дают ~9% правильных ответов, но сообщают confidence ~90%. Self-reported confidence — фикция, потому что модель не знает свои границы.

Находка: В видимых рассуждениях (CoT) модель "проговаривается" — использует человеческие маркеры неуверенности. Слова guess (догадка), stuck (застрял), hard (сложно), likely (вероятно), complex (запутанно) — это лингвистическая конвергенция: модели и люди сигнализируют о трудности задачи одинаково.

Асимметрия сигналов: Маркеры неуверенности (вредные слова) сильнее маркеров уверенности. Проще предсказать ошибку, чем правильный ответ. Это делает метод практичным — фильтруй ненадёжные ответы, а не пытайся найти идеальные.

Почему длина CoT не работает на сложных задачах: На задачах средней сложности (Omni-MATH, ~70% точность) длинные рассуждения = больше шансов запутаться → точность падает на 3-6% на каждую 1000 слов CoT. Но на очень сложных задачах (HLE, ~9% точность) модель в любом случае не справляется — длина CoT беспомощна, важны только лексические маркеры.

Sentiment volatility (колебания настроения в рассуждениях) — слабый сигнал. На Omni-MATH есть слабая парабола: лучшие результаты при слегка позитивном настрое (∆ = 0.1). На HLE настроение вообще не влияет. Claude склонна к оптимистичным рассуждениям, DeepSeek — к слегка негативным, но это скорее артефакт RLHF-выравнивания, а не сигнал качества.

🚀

Пример применения

⚠️ Важно: Это не промпт-техника для улучшения ответов, а метод проверки надёжности уже полученных ответов.

Задача: Ты запросил у Claude Sonnet расчёт стоимости запуска маркетинговой кампании в Instagram для локального бизнеса в Казани. Бюджет ограничен, нужна точность. Модель выдала детальный расчёт с CoT.

Как применить:

  1. Прочитай CoT — рассуждения модели перед финальным ответом
  2. Ищи красные флаги:
    • "This is complex..."
    • "I guess the conversion rate..."
    • "It's hard to estimate..."
    • "Probably around..."
    • "Likely the cost..."
  3. Если нашёл 2+ маркера:Не доверяй цифрам в финальном ответе → Переформулируй вопрос проще или разбей на подзадачи → Или используй другую модель для перепроверки
  4. Если маркеров нет: → Ответ статистически надёжнее, но не гарантия → Всё равно проверь критические цифры

Результат (пример из исследования):

  • На HLE: эвристика "есть топ-5 вредных слов → неверно" даёт MCC = 0.215
  • Self-reported confidence: MCC = 0.085 (в 2.5 раза хуже!)
  • На Omni-Math: MCC = 0.305 vs 0.065 (в 4.7 раза лучше!)
📌

Топ-25 "вредных слов"

Слова, статистически снижающие точность ответа (из исследования):

Сильнейшие индикаторы неуверенности:

  • complexity, guess, stuck, hard, involve, information

Маркеры неопределённости:

  • likely, probably, possibly, perhaps

Сигналы трудности:

  • complex, complicated, confuse, constraint

Неопределённость в решении:

  • depend, missing, position, call, combination

Остальные из топ-25:

  • base, structure, per, etc, very, beyond, help, direction, possibility, else

Полный список 25 слов для нейросети: complexity, guess, stuck, hard, involved, positions, involves, involve, information, comes, likely, probably, constraints, called, depend, missing, often, possibly, combination, based, four, require, structure, per, requires

⚠️

Ограничения

⚠️ Только для моделей с доступным CoT: Работает только на DeepSeek-R1, Claude Sonnet, o1 и других моделях, которые показывают полные рассуждения. На GPT-4 без extended thinking не применимо.

⚠️ Только английский: Исследование проводилось на английских бенчмарках. На русском языке морфология богаче, могут быть другие маркеры неуверенности.

⚠️ Предсказывает ошибки лучше, чем правильность: Асимметрия — легче найти плохие ответы, чем гарантировать хорошие. Если вредных слов нет — это НЕ значит, что ответ точно верный.

⚠️ Зависит от RLHF-выравнивания: Claude и DeepSeek имеют разный "эмоциональный профиль" в CoT из-за разного RLHF. Claude оптимистичнее, но вредные слова всё равно работают в обеих моделях.

⚠️ Сложность бенчмарка имеет значение: На очень лёгких задачах модель вообще не использует маркеры неуверенности. На очень сложных (HLE) маркеры есть, но точность всё равно ~9%. Наиболее информативно на задачах средней сложности, где модель работает на грани своих способностей.

🔍

Как исследовали

Команда взяла два полярных бенчмарка: Omni-MATH (4,428 математических задач, точность ~70% — насыщенный, но не простой) и Humanity's Last Exam (2,088 открытых мультидисциплинарных вопросов, точность ~9% — край возможностей современных LLM).

Протестировали DeepSeek-R1 и Claude 3.7 Sonnet — обе модели с полным доступом к CoT. Для каждого ответа записали: (1) длину CoT в словах, (2) sentiment volatility (разница между самым позитивным и негативным моментом в рассуждениях через o3-mini как сентимент-анализатор), (3) наличие "вредных слов".

Gradingстратегия: Omni-MATH оценивали автоматически через Omni-Judge (валидирован на совпадение с человеком). HLE оценивали двойной проверкой: человек-эксперт + o3-mini (чтобы избежать preference leakage — когда модель слишком лояльна к своим ответам). Согласие 93.9% для Claude и 93.4% для DeepSeek — почти идеально.

Почему результаты получились именно такими:

  1. Почему длина CoT не работает на HLE? На сложных задачах модель всегда пытается долго, но безрезультатно. Длина = попытка, не успех. На Omni-MATH длина коррелирует с запутанностью — чем дольше рассуждает, тем больше шансов накосячить.
  2. Почему вредные слова работают? Модели не запрограммированы скрывать неуверенность в CoT (в отличие от self-reported confidence, который сильно bias в сторону завышения). RLHF тренирует на полезность итогового ответа, но CoT остаётся более "честным" — там нет явного штрафа за слова неуверенности.
  3. Удивительно: Простая бинарная эвристика "есть вредные слова → плохо" работает почти так же хорошо, как нейросеть на 25 признаках. MCC 0.215 vs 0.229 на HLE. Это говорит, что сигнал очень концентрированный — несколько слов несут львиную долю информации.
  4. Sentiment почти не влияет: Хотя у Claude и DeepSeek разный "эмоциональный стиль" (Claude оптимистичнее), это не связано с точностью. Инсайт для практики: не верь тону модели, верь конкретным словам.
📄

Оригинал из исследования

Контекст: Исследователи составили список из 25 non-lemmatized слов, которые наиболее последовательно снижали точность на всех четырёх парах модель-бенчмарк. Эти слова использовались как признаки для обучения нейросети-классификатора.

complexity, guess, stuck, hard, involved, positions, involves, involve, 
information, comes, likely, probably, constraints, called, depend, 
missing, often, possibly, combination, based, four, require, structure, 
per, requires

Полный список hedging words (маркеры неопределённости) из исследования:

Modal and uncertainty verbs: might, may, could, should, would, seems, suggests, appears

Uncertainty adverbs: possibly, perhaps, likely, unlikely, probably, generally, usually, sometimes, often, tends, somewhat, rather, quite, almost, nearly, virtually, presumably, arguably, relatively, fairly, reasonably, mostly, partially, mainly, primarily, essentially, basically

Common hedging phrases: it seems that, it appears that, it suggests that, it is possible that, it is likely that

Additional qualifiers: in part, to some extent

💡

Адаптации и экстраполяции

💡 Адаптация для мультиязычных моделей:

Для русского языка составь свой список маркеров неуверенности:

Попроси Claude:

"Я хочу создать список слов-маркеров неуверенности для оценки 
надёжности твоих ответов на русском языке.

На английском такие слова: guess, stuck, hard, likely, probably, 
complex, possibly.

Дай мне:
1. 20 русских слов, которые ты используешь когда не уверена в ответе
2. 10 фраз-хеджингов на русском (типа 'скорее всего', 'вероятно')

Формат: простой список через запятую."

Результат: Получишь кастомный список для мониторинга русскоязычных CoT.


💡 Адаптация для критических решений:

Когда ответ критически важен (финансовый расчёт, медицинская консультация, юридический анализ):

После получения ответа от Claude/DeepSeek:

"Проанализируй свои рассуждения выше. Укажи все моменты, где ты:
- Делал предположения (guess, assume)
- Не был уверен (likely, probably) 
- Сталкивался со сложностью (complex, hard, stuck)

Формат: цитата из CoT + почему это может быть проблемой."

Эффект: Модель сама подсветит слабые места в своих рассуждениях. Это как попросить врача повторно проверить диагноз.


🔧 Техника: Автоматический фильтр для массовых запросов

Если обрабатываешь много однотипных задач (например, оценка резюме, анализ комментариев):

1. Получи ответы с CoT от модели
2. Запусти второй промпт для каждого:

"Оцени наличие маркеров неуверенности в этом рассуждении:
[вставить CoT]

Вредные слова: complexity, guess, stuck, hard, likely, probably, 
possibly, complex, depend, missing.

Ответ: количество найденных маркеров (число) + список найденных слов."

3. Фильтруй ответы с 2+ маркерами для ручной проверки

Эффект: Приоритизация проверки — сначала смотришь сомнительные, экономишь время.


💡 Экстраполяция: Комбинация с Self-Consistency (множественная генерация)

Классический Self-Consistency: генерируешь 5-10 ответов, выбираешь majority vote. Но это дорого по токенам.

Гибрид с лексическими маркерами:

1. Генерируешь 3 ответа с CoT (вместо 10)
2. Считаешь "вредные слова" в каждом CoT
3. Правило выбора:
 - Если 1 ответ БЕЗ маркеров, а 2 С маркерами → бери первый
 - Если все 3 С маркерами → задача вне возможностей модели
 - Если все 3 БЕЗ маркеров → standard majority vote

Эффект: Экономия токенов (3 вместо 10 генераций) + более умная стратегия отбора, чем просто подсчёт совпадений.

🔗

Ресурсы

Lexical Hints of Accuracy in LLM Reasoning Chains Код исследования Данные на Zenodo

Авторы: Arne Vanhoyweghen, Brecht Verbeken, Andres Algaba, Vincent Ginis Аффилиация: Data Analytics Lab, Vrije Universiteit Brussel; School of Engineering and Applied Sciences, Harvard University

Связанные работы упомянутые в исследовании:

  • Omni-MATH benchmark (Bofei Gao et al., 2024)
  • Humanity's Last Exam (Long Phan et al., 2025)
  • GPQA benchmark (David Rein et al., 2023)

📋 Дайджест исследования

Ключевая суть

Парадокс: Модель говорит «я уверена на 90%», а правильных ответов только 9%. Разрыв 81% — self-reported confidence полная фикция. Метод позволяет фильтровать ненадёжные ответы LLM до того как они навредят (критично для расчётов, юридических консультаций, медицинских рекомендаций). Фишка: модель «проговаривается» в рассуждениях — слова типа guess (догадка), stuck (застрял), hard (сложно), likely (вероятно) снижают точность ответа до 40%. Простая проверка «есть вредные слова в CoT → не доверяй ответу» работает в 2.5-4 раза лучше, чем верить цифре уверенности от самой модели.

Принцип работы

Не верь когда модель говорит «я уверена на X%» — читай её рассуждения (Chain-of-Thought). Ищи человеческие маркеры неуверенности: complexity, guess, stuck, hard, probably. Модели обучены на текстах людей — они лингвистически конвергируют: используют те же слова-флаги когда не уверены. Если в рассуждениях 2+ маркера из топ-25 списка — ответ скорее всего неверный. Это асимметричный сигнал: легче предсказать ошибку, чем гарантировать правильность, но для фильтрации критичных задач этого достаточно.

Почему работает

Модель натренирована имитировать человеческие рассуждения — а люди используют слова «probably», «guess», «stuck» когда не знают точного ответа. Модель не осознаёт свою неуверенность на уровне confidence, но проговаривает её на уровне лексики. На сложном бенчмарке HLE: простая эвристика «есть топ-5 вредных слов → неверно» даёт Matthews Correlation 0.215, а доверие к self-reported confidence — жалкие 0.085. В 2.5 раза точнее ловить ошибки по словам, чем по цифре уверенности. На Omni-Math разрыв ещё больше: 0.305 vs 0.065 — в 4.7 раза лучше. Длина рассуждений информативна только на задачах средней сложности (~70% точности) — там длинные CoT = путаница = падение точности на 3-6% на каждую 1000 слов. На очень сложных задачах модель провалится независимо от длины — важны только лексические красные флаги.

Когда применять

Для критичных задач где ошибка дорого стоит → финансовые расчёты, юридические консультации, медицинские рекомендации, технические спецификации. Особенно когда используешь модели с видимыми рассуждениями (Claude Sonnet, DeepSeek-R1, o1). НЕ подходит: для моделей без extended thinking (GPT-4 базовый), для задач где CoT недоступен, для русского языка (исследование на английском — морфология богаче, могут быть другие маркеры).

Мини-рецепт

1. Получи ответ с рассуждениями: используй Claude Sonnet / DeepSeek-R1 / o1, запроси развёрнутый Chain-of-Thought.
2. Прочитай CoT до финального ответа: ищи топ-5 вредных слов — complexity, guess, stuck, hard, likely (полный список 25 слов в исследовании).
3. Посчитай красные флаги: нашёл 2+ маркера неуверенности — высокий риск что ответ неверный.
4. Прими решение: если флаги есть → не используй ответ для критичных задач, переформулируй вопрос проще или разбей на подзадачи. Если флагов нет → статистически надёжнее, но НЕ гарантия — всё равно проверь критические выводы.

Примеры

[ПЛОХО] : Посчитай стоимость запуска рекламы в Instagram для кофейни в Казани, бюджет 150к → получаешь цифры и confidence 95%, слепо доверяешь.
[ХОРОШО] : Тот же запрос, но после получения ответа читаешь CoT модели. Видишь: «This is complex to estimate... I guess the conversion rate... Probably around 3%...» → 3 красных флага из топ-5. Не используешь эти цифры для планирования бюджета, запрашиваешь расчёт по частям: отдельно охват, отдельно конверсию, отдельно стоимость клика. Или перепроверяешь другой моделью.
Источник: Lexical Hints of Accuracy in LLM Reasoning Chains
ArXiv ID: 2508.15842 | Сгенерировано: 2026-01-12 02:19

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с