TL;DR
Исследователи обнаружили, что определённые слова в Chain-of-Thought (CoT) — видимых рассуждениях модели — предсказывают неправильность итогового ответа точнее, чем self-reported confidence (когда модель сама говорит "я уверена на 90%"). Слова типа guess, stuck, hard, likely, probably, complex снижают вероятность правильного ответа до 40%. Это работает как красные флаги — если видишь эти слова в рассуждениях, ответ скорее всего неверный.
Модели плохо калиброваны: на сложных задачах (HLE) точность ~9%, а self-reported confidence ~90% — разрыв 81%. Но в самих рассуждениях модель "проговаривается" — использует слова неуверенности там, где не знает ответа. Длина рассуждений информативна только на задачах средней сложности (где точность уже ~70%), на очень сложных задачах длина CoT ничего не говорит.
Простая эвристика "отметить как неверное, если есть любое из 5 топ-вредных слов" даёт Matthews Correlation Coefficient = 0.215 на HLE и 0.305 на Omni-Math. Это в 2.5-4 раза лучше, чем просто верить self-reported confidence модели (MCC = 0.085 и 0.065).
Схема метода
Это не промпт-техника, а метод оценки надёжности ответов моделей с доступным CoT:
ШАГ 1: Получить ответ с CoT
→ Используй модели с extended thinking (Claude Sonnet, DeepSeek-R1, o1)
ШАГ 2: Проверить наличие "вредных слов"
→ Топ-5: complexity, guess, stuck, hard, likely
→ Топ-25 полный список в исследовании
ШАГ 3: Оценить риск
→ Есть вредные слова → высокий риск неверного ответа
→ Нет вредных слов → но всё равно не гарантия
Почему это работает
Проблема: LLM врут уверенно. На сложном бенчмарке HLE модели дают ~9% правильных ответов, но сообщают confidence ~90%. Self-reported confidence — фикция, потому что модель не знает свои границы.
Находка: В видимых рассуждениях (CoT) модель "проговаривается" — использует человеческие маркеры неуверенности. Слова guess (догадка), stuck (застрял), hard (сложно), likely (вероятно), complex (запутанно) — это лингвистическая конвергенция: модели и люди сигнализируют о трудности задачи одинаково.
Асимметрия сигналов: Маркеры неуверенности (вредные слова) сильнее маркеров уверенности. Проще предсказать ошибку, чем правильный ответ. Это делает метод практичным — фильтруй ненадёжные ответы, а не пытайся найти идеальные.
Почему длина CoT не работает на сложных задачах: На задачах средней сложности (Omni-MATH, ~70% точность) длинные рассуждения = больше шансов запутаться → точность падает на 3-6% на каждую 1000 слов CoT. Но на очень сложных задачах (HLE, ~9% точность) модель в любом случае не справляется — длина CoT беспомощна, важны только лексические маркеры.
Sentiment volatility (колебания настроения в рассуждениях) — слабый сигнал. На Omni-MATH есть слабая парабола: лучшие результаты при слегка позитивном настрое (∆ = 0.1). На HLE настроение вообще не влияет. Claude склонна к оптимистичным рассуждениям, DeepSeek — к слегка негативным, но это скорее артефакт RLHF-выравнивания, а не сигнал качества.
Пример применения
⚠️ Важно: Это не промпт-техника для улучшения ответов, а метод проверки надёжности уже полученных ответов.
Задача: Ты запросил у Claude Sonnet расчёт стоимости запуска маркетинговой кампании в Instagram для локального бизнеса в Казани. Бюджет ограничен, нужна точность. Модель выдала детальный расчёт с CoT.
Как применить:
- Прочитай CoT — рассуждения модели перед финальным ответом
- Ищи красные флаги:
- "This is complex..." ❌
- "I guess the conversion rate..." ❌
- "It's hard to estimate..." ❌
- "Probably around..." ❌
- "Likely the cost..." ❌
- Если нашёл 2+ маркера: → Не доверяй цифрам в финальном ответе → Переформулируй вопрос проще или разбей на подзадачи → Или используй другую модель для перепроверки
- Если маркеров нет: → Ответ статистически надёжнее, но не гарантия → Всё равно проверь критические цифры
Результат (пример из исследования):
- На HLE: эвристика "есть топ-5 вредных слов → неверно" даёт MCC = 0.215
- Self-reported confidence: MCC = 0.085 (в 2.5 раза хуже!)
- На Omni-Math: MCC = 0.305 vs 0.065 (в 4.7 раза лучше!)
Топ-25 "вредных слов"
Слова, статистически снижающие точность ответа (из исследования):
Сильнейшие индикаторы неуверенности:
- complexity, guess, stuck, hard, involve, information
Маркеры неопределённости:
- likely, probably, possibly, perhaps
Сигналы трудности:
- complex, complicated, confuse, constraint
Неопределённость в решении:
- depend, missing, position, call, combination
Остальные из топ-25:
- base, structure, per, etc, very, beyond, help, direction, possibility, else
Полный список 25 слов для нейросети: complexity, guess, stuck, hard, involved, positions, involves, involve, information, comes, likely, probably, constraints, called, depend, missing, often, possibly, combination, based, four, require, structure, per, requires
Ограничения
⚠️ Только для моделей с доступным CoT: Работает только на DeepSeek-R1, Claude Sonnet, o1 и других моделях, которые показывают полные рассуждения. На GPT-4 без extended thinking не применимо.
⚠️ Только английский: Исследование проводилось на английских бенчмарках. На русском языке морфология богаче, могут быть другие маркеры неуверенности.
⚠️ Предсказывает ошибки лучше, чем правильность: Асимметрия — легче найти плохие ответы, чем гарантировать хорошие. Если вредных слов нет — это НЕ значит, что ответ точно верный.
⚠️ Зависит от RLHF-выравнивания: Claude и DeepSeek имеют разный "эмоциональный профиль" в CoT из-за разного RLHF. Claude оптимистичнее, но вредные слова всё равно работают в обеих моделях.
⚠️ Сложность бенчмарка имеет значение: На очень лёгких задачах модель вообще не использует маркеры неуверенности. На очень сложных (HLE) маркеры есть, но точность всё равно ~9%. Наиболее информативно на задачах средней сложности, где модель работает на грани своих способностей.
Как исследовали
Команда взяла два полярных бенчмарка: Omni-MATH (4,428 математических задач, точность ~70% — насыщенный, но не простой) и Humanity's Last Exam (2,088 открытых мультидисциплинарных вопросов, точность ~9% — край возможностей современных LLM).
Протестировали DeepSeek-R1 и Claude 3.7 Sonnet — обе модели с полным доступом к CoT. Для каждого ответа записали: (1) длину CoT в словах, (2) sentiment volatility (разница между самым позитивным и негативным моментом в рассуждениях через o3-mini как сентимент-анализатор), (3) наличие "вредных слов".
Gradingстратегия: Omni-MATH оценивали автоматически через Omni-Judge (валидирован на совпадение с человеком). HLE оценивали двойной проверкой: человек-эксперт + o3-mini (чтобы избежать preference leakage — когда модель слишком лояльна к своим ответам). Согласие 93.9% для Claude и 93.4% для DeepSeek — почти идеально.
Почему результаты получились именно такими:
- Почему длина CoT не работает на HLE? На сложных задачах модель всегда пытается долго, но безрезультатно. Длина = попытка, не успех. На Omni-MATH длина коррелирует с запутанностью — чем дольше рассуждает, тем больше шансов накосячить.
- Почему вредные слова работают? Модели не запрограммированы скрывать неуверенность в CoT (в отличие от self-reported confidence, который сильно bias в сторону завышения). RLHF тренирует на полезность итогового ответа, но CoT остаётся более "честным" — там нет явного штрафа за слова неуверенности.
- Удивительно: Простая бинарная эвристика "есть вредные слова → плохо" работает почти так же хорошо, как нейросеть на 25 признаках. MCC 0.215 vs 0.229 на HLE. Это говорит, что сигнал очень концентрированный — несколько слов несут львиную долю информации.
- Sentiment почти не влияет: Хотя у Claude и DeepSeek разный "эмоциональный стиль" (Claude оптимистичнее), это не связано с точностью. Инсайт для практики: не верь тону модели, верь конкретным словам.
Оригинал из исследования
Контекст: Исследователи составили список из 25 non-lemmatized слов, которые наиболее последовательно снижали точность на всех четырёх парах модель-бенчмарк. Эти слова использовались как признаки для обучения нейросети-классификатора.
complexity, guess, stuck, hard, involved, positions, involves, involve,
information, comes, likely, probably, constraints, called, depend,
missing, often, possibly, combination, based, four, require, structure,
per, requires
Полный список hedging words (маркеры неопределённости) из исследования:
Modal and uncertainty verbs: might, may, could, should, would, seems, suggests, appears
Uncertainty adverbs: possibly, perhaps, likely, unlikely, probably, generally, usually, sometimes, often, tends, somewhat, rather, quite, almost, nearly, virtually, presumably, arguably, relatively, fairly, reasonably, mostly, partially, mainly, primarily, essentially, basically
Common hedging phrases: it seems that, it appears that, it suggests that, it is possible that, it is likely that
Additional qualifiers: in part, to some extent
Адаптации и экстраполяции
💡 Адаптация для мультиязычных моделей:
Для русского языка составь свой список маркеров неуверенности:
Попроси Claude:
"Я хочу создать список слов-маркеров неуверенности для оценки
надёжности твоих ответов на русском языке.
На английском такие слова: guess, stuck, hard, likely, probably,
complex, possibly.
Дай мне:
1. 20 русских слов, которые ты используешь когда не уверена в ответе
2. 10 фраз-хеджингов на русском (типа 'скорее всего', 'вероятно')
Формат: простой список через запятую."
Результат: Получишь кастомный список для мониторинга русскоязычных CoT.
💡 Адаптация для критических решений:
Когда ответ критически важен (финансовый расчёт, медицинская консультация, юридический анализ):
После получения ответа от Claude/DeepSeek:
"Проанализируй свои рассуждения выше. Укажи все моменты, где ты:
- Делал предположения (guess, assume)
- Не был уверен (likely, probably)
- Сталкивался со сложностью (complex, hard, stuck)
Формат: цитата из CoT + почему это может быть проблемой."
Эффект: Модель сама подсветит слабые места в своих рассуждениях. Это как попросить врача повторно проверить диагноз.
🔧 Техника: Автоматический фильтр для массовых запросов
Если обрабатываешь много однотипных задач (например, оценка резюме, анализ комментариев):
1. Получи ответы с CoT от модели
2. Запусти второй промпт для каждого:
"Оцени наличие маркеров неуверенности в этом рассуждении:
[вставить CoT]
Вредные слова: complexity, guess, stuck, hard, likely, probably,
possibly, complex, depend, missing.
Ответ: количество найденных маркеров (число) + список найденных слов."
3. Фильтруй ответы с 2+ маркерами для ручной проверки
Эффект: Приоритизация проверки — сначала смотришь сомнительные, экономишь время.
💡 Экстраполяция: Комбинация с Self-Consistency (множественная генерация)
Классический Self-Consistency: генерируешь 5-10 ответов, выбираешь majority vote. Но это дорого по токенам.
Гибрид с лексическими маркерами:
1. Генерируешь 3 ответа с CoT (вместо 10)
2. Считаешь "вредные слова" в каждом CoT
3. Правило выбора:
- Если 1 ответ БЕЗ маркеров, а 2 С маркерами → бери первый
- Если все 3 С маркерами → задача вне возможностей модели
- Если все 3 БЕЗ маркеров → standard majority vote
Эффект: Экономия токенов (3 вместо 10 генераций) + более умная стратегия отбора, чем просто подсчёт совпадений.
Ресурсы
Lexical Hints of Accuracy in LLM Reasoning Chains Код исследования Данные на Zenodo
Авторы: Arne Vanhoyweghen, Brecht Verbeken, Andres Algaba, Vincent Ginis Аффилиация: Data Analytics Lab, Vrije Universiteit Brussel; School of Engineering and Applied Sciences, Harvard University
Связанные работы упомянутые в исследовании:
- Omni-MATH benchmark (Bofei Gao et al., 2024)
- Humanity's Last Exam (Long Phan et al., 2025)
- GPQA benchmark (David Rein et al., 2023)
