TL;DR
LLM может дать правильно звучащий ответ на неправильном рассуждении — и никакая проверка финального текста это не поймает. Исследование вводит понятие безопасности рассуждений (reasoning safety) как отдельного измерения: можно ли доверять не ответу, а ходу мыслей модели. Авторы составили таксономию из 9 типов ошибок в цепочке рассуждений и показали, что обычный LLM с этой таксономией в промпте способен находить и классифицировать такие ошибки лучше любых специализированных инструментов.
Главная слабость LLM — она не «проверяет себя» на ходу. Модель генерирует шаг за шагом, и ошибка на раннем шаге тихо распространяется дальше. Попросить её объяснить рассуждение — не поможет: она объяснит то, что уже сгенерировала. Проверять только финальный ответ — тоже не поможет: ответ может быть формально верным, но вытекать из неверных посылок. При этом некоторые ошибки почти никогда не возникают сами по себе — только когда модель под давлением или сбита с толку. Это полезный сигнал.
Метод решает проблему через отдельный аудировочный промпт: в него вшита таксономия всех возможных ошибок, и модель проверяет цепочку рассуждений шаг за шагом — как судья с чек-листом. Никакого кода и дообучения не нужно: промпт работает в обычном чате.
Таксономия ошибок
Это и есть сердце метода. Запомни её — она работает как чек-лист для любой сложной задачи, которую ты поручаешь LLM.
КАТЕГОРИЯ 1 — Ошибки разбора задачи (до начала рассуждений)
1a Неверная интерпретация → понял запрос не так
1b Пропущенные ограничения → проигнорировал условия
1c Ошибка маппинга → неверно перевёл понятия в логику
КАТЕГОРИЯ 2 — Ошибки выполнения (в ходе рассуждений)
2a Логическая ошибка → неверный вывод из посылок
2b Вычислительная ошибка → ошибся в подсчётах/формулах
2c Противоречие → шаги противоречат друг другу
КАТЕГОРИЯ 3 — Ошибки управления процессом (мета-уровень)
3a Зацикливание → топчется по кругу
3b Уход от цели → съехал на другую тему
3c Преждевременный вывод → ответил без рассуждений
⚠️ Ошибки категории 3 в нормальной работе почти не встречаются.
Если видишь зацикливание или резкий уход от цели — это сигнал
тревоги: модель либо сбита с толку, либо работает с
противоречивым промптом.
Схема метода
ШАГ 1: Получи цепочку рассуждений
Попроси модель ответить с развёрнутым рассуждением:
"Думай вслух, показывай каждый шаг"
→ Цепочка шагов: [Шаг 1] → [Шаг 2] → ... → [Ответ]
ШАГ 2: Запусти аудит (отдельный промпт или новый чат)
Вставь цепочку + аудировочный промпт с таксономией
→ По каждому шагу: ошибка есть / нет, тип ошибки
ОБА ШАГА — в обычном чате, без кода.
ШАГ 2 можно делать в том же диалоге или в отдельном.
Пример применения
Задача: Ты собираешься вложить 500 000 ₽ в небольшой бизнес друга — доставку готовой еды по Екатеринбургу. Попросил Claude оценить риски и получил длинный анализ с рассуждениями. Прежде чем принять решение, хочешь проверить — не напортачила ли модель в логике.
Промпт — Шаг 1 (получить рассуждение):
Оцени риски вложения 500 000 ₽ в небольшой сервис доставки еды
в Екатеринбурге. Думай вслух — показывай каждый шаг рассуждения
отдельно, нумеруй их. После шагов дай итоговый вывод.
Промпт — Шаг 2 (аудит):
Ты — аудитор логики. Проверь цепочку рассуждений ниже.
Для каждого шага определи: есть ли ошибка? Если да — укажи тип
из таксономии:
КАТЕГОРИЯ 1 — Ошибки разбора:
1a: Неверная интерпретация — модель поняла задачу не так
1b: Пропущенные ограничения — проигнорировала важное условие
1c: Ошибка маппинга — неверно перевела понятие в логику
КАТЕГОРИЯ 2 — Ошибки выполнения:
2a: Логическая ошибка — вывод не следует из посылок
2b: Вычислительная ошибка — ошибка в подсчётах
2c: Противоречие — шаг противоречит другому шагу
КАТЕГОРИЯ 3 — Ошибки управления:
3a: Зацикливание — повторяет одно и то же
3b: Уход от цели — съехал с темы
3c: Преждевременный вывод — ответ без обоснования
Формат для каждого шага:
Шаг [N]: [ОШИБКА: тип + объяснение] или [ОК]
После — итоговый вердикт: на каком шаге рассуждение сломалось
и стоит ли доверять выводу.
Цепочка рассуждений:
[вставь рассуждение из Шага 1]
Результат:
Модель пройдётся по каждому шагу рассуждения и выдаст разбор — где ОК, где ошибка и какого типа. Например, может обнаружить, что на шаге 3 была пропущена оговорка о конкурентах (1b), а на шаге 6 — вывод о рентабельности не следует из данных (2a). В финале — вердикт: доверять выводу или нет, и почему.
Почему это работает
LLM генерирует текст последовательно вперёд — каждый новый токен опирается на предыдущие. Если ошибка закралась в шаг 2, шаги 3, 4, 5 будут последовательно на неё опираться. К моменту финального ответа ошибка уже "закопана" под несколькими слоями правдоподобного текста. Проверить ответ — значит смотреть на вершину айсберга.
Хорошая новость: LLM умеет классифицировать текст по заданным категориям. Это она делает очень хорошо. Когда таксономия ошибок вшита в промпт и задача сформулирована как "найди соответствие", модель работает как опытный редактор с чек-листом — не генерирует, а проверяет.
Третья закономерность — ключевая для практики: ошибки категории 3 (зацикливание, уход от цели) почти никогда не возникают без причины. Если ты видишь их в рассуждениях — это сигнал, что задача была сформулирована противоречиво, или модель работала с конфликтующими инструкциями. Перепиши промпт.
Рычаги управления: - Детализация таксономии → чем подробнее описаны типы ошибок, тем точнее аудит - Порог тревоги → можно попросить "сигналь только на ошибки категории 2-3, мелкие неточности игнорируй" — для быстрого просмотра - Формат вывода → попроси "только шаги с ошибками" вместо полного разбора — короче и быстрее - Цепочка в одном диалоге → попроси модель сначала порассуждать, потом сразу проверить себя по таксономии — один запрос вместо двух
Шаблон промпта
Ты — аудитор логики. Проверь цепочку рассуждений по таксономии.
ТАКСОНОМИЯ ОШИБОК:
[Категория 1 — Разбор задачи]
1a Неверная интерпретация: понял задачу не так
1b Пропущенные ограничения: проигнорировал условие из {задача}
1c Ошибка маппинга: неверно перевёл понятие в логику
[Категория 2 — Выполнение]
2a Логическая ошибка: вывод не следует из посылок
2b Вычислительная ошибка: ошибка в подсчётах или формулах
2c Противоречие: этот шаг противоречит другому шагу цепочки
[Категория 3 — Управление процессом]
3a Зацикливание: повторяет уже сказанное без продвижения
3b Уход от цели: рассуждение съехало с {задача}
3c Преждевременный вывод: ответ дан без достаточного обоснования
ПРАВИЛА:
- Оценивай каждый шаг независимо
- Учитывай контекст предыдущих шагов
- Не считай ошибкой исследование гипотез и рассмотрение вариантов
- Сигналь на ошибку только если она реально нарушает логику
ФОРМАТ ОТВЕТА:
Шаг [N]: [ОК] или [ОШИБКА — тип: объяснение]
...
ИТОГ: [Цепочка надёжна / Сломалась на шаге N / Требует проверки]
ЦЕПОЧКА РАССУЖДЕНИЙ:
{цепочка_рассуждений}
Плейсхолдеры:
- {задача} — краткое описание исходной задачи (2-5 слов): "оценка рисков инвестиции", "анализ юридического договора"
- {цепочка_рассуждений} — вываливаешь сюда полный текст рассуждений из первого запроса
🚀 Быстрый старт — вставь в чат:
Вот шаблон Reasoning Safety Monitor для аудита рассуждений LLM.
Адаптируй под мою задачу: {опиши задачу}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: какую задачу ты давал модели и что за рассуждение хочешь проверить — потому что ей нужен контекст задачи для правильной калибровки ошибок категории 1 (неверная интерпретация — это относительно исходного вопроса). Она возьмёт структуру с таксономией и адаптирует под твой кейс.
Ограничения
⚠️ Субъективные задачи: Таксономия хорошо работает там, где есть логическая структура — анализ, расчёты, правовые вопросы, планирование. Для творческих задач без чёткого критерия правильности (напиши стихотворение, придумай название) — почти не применима.
⚠️ Аудит не гарантирует правильность: Модель может не заметить ошибку, которую сама и совершила. Авторы это признают. Аудит снижает риск, но не устраняет его. Второй взгляд человека на важные решения остаётся обязательным.
⚠️ Короткие ответы: Метод работает только когда рассуждение развёрнуто и видно. Если модель дала ответ без шагов — нечего проверять. Сначала попроси "думать вслух".
⚠️ Сильно вложенные ошибки: Если ошибка совершена на первом шаге (неверная интерпретация задачи), все последующие шаги могут быть внутренне логичны — и аудитор пропустит системный сбой, увидев только корректные шаги.
Ресурсы
Работа: Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models
Авторы: Xunguang Wang, Yuguang Zhou, Qingyue Wang, Zongjie Li, Ruixuan Huang, Zhenlan Ji, Pingchuan Ma, Shuai Wang (corresponding)
Организации: The Hong Kong University of Science and Technology (HKUST), Zhejiang University of Technology
Связанные работы из исследования: BadChain, OverThink (DoS-атаки на рассуждения), ProcessBench (бенчмарк для оценки пошагового рассуждения), SelfCheckGPT (детектор галлюцинаций, с которым сравнивали)
