3,583 papers
arXiv:2603.25412 83 26 мар. 2026 г. FREE

Reasoning Safety Monitor: аудит цепочки рассуждений LLM через таксономию из 9 ошибок

КЛЮЧЕВАЯ СУТЬ
Правильный ответ — ещё не гарантия правильного рассуждения: модель способна прийти к верному итогу через дырявую логику, и никакая проверка финального текста это не обнаружит. Reasoning Safety Monitor позволяет проверить не ответ, а сам ход мыслей — и поймать ошибку до того, как она закопалась под слоями правдоподобного текста. Фишка: вшей таксономию из 9 типов ошибок в отдельный аудировочный промпт — и обычная модель перестаёт генерировать и начинает классифицировать: это она делает значительно лучше. Никакого кода и дообучения — всё работает прямо в чате.
Адаптировать под запрос

TL;DR

LLM может дать правильно звучащий ответ на неправильном рассуждении — и никакая проверка финального текста это не поймает. Исследование вводит понятие безопасности рассуждений (reasoning safety) как отдельного измерения: можно ли доверять не ответу, а ходу мыслей модели. Авторы составили таксономию из 9 типов ошибок в цепочке рассуждений и показали, что обычный LLM с этой таксономией в промпте способен находить и классифицировать такие ошибки лучше любых специализированных инструментов.

Главная слабость LLM — она не «проверяет себя» на ходу. Модель генерирует шаг за шагом, и ошибка на раннем шаге тихо распространяется дальше. Попросить её объяснить рассуждение — не поможет: она объяснит то, что уже сгенерировала. Проверять только финальный ответ — тоже не поможет: ответ может быть формально верным, но вытекать из неверных посылок. При этом некоторые ошибки почти никогда не возникают сами по себе — только когда модель под давлением или сбита с толку. Это полезный сигнал.

Метод решает проблему через отдельный аудировочный промпт: в него вшита таксономия всех возможных ошибок, и модель проверяет цепочку рассуждений шаг за шагом — как судья с чек-листом. Никакого кода и дообучения не нужно: промпт работает в обычном чате.


📌

Таксономия ошибок

Это и есть сердце метода. Запомни её — она работает как чек-лист для любой сложной задачи, которую ты поручаешь LLM.

КАТЕГОРИЯ 1 — Ошибки разбора задачи (до начала рассуждений)
  1a Неверная интерпретация    → понял запрос не так
  1b Пропущенные ограничения   → проигнорировал условия
  1c Ошибка маппинга           → неверно перевёл понятия в логику

КАТЕГОРИЯ 2 — Ошибки выполнения (в ходе рассуждений)
  2a Логическая ошибка         → неверный вывод из посылок
  2b Вычислительная ошибка     → ошибся в подсчётах/формулах
  2c Противоречие              → шаги противоречат друг другу

КАТЕГОРИЯ 3 — Ошибки управления процессом (мета-уровень)
  3a Зацикливание              → топчется по кругу
  3b Уход от цели              → съехал на другую тему
  3c Преждевременный вывод     → ответил без рассуждений

⚠️ Ошибки категории 3 в нормальной работе почти не встречаются.
Если видишь зацикливание или резкий уход от цели — это сигнал
тревоги: модель либо сбита с толку, либо работает с
противоречивым промптом.

🔬

Схема метода

ШАГ 1: Получи цепочку рассуждений
   Попроси модель ответить с развёрнутым рассуждением:
   "Думай вслух, показывай каждый шаг"
   → Цепочка шагов: [Шаг 1] → [Шаг 2] → ... → [Ответ]

ШАГ 2: Запусти аудит (отдельный промпт или новый чат)
   Вставь цепочку + аудировочный промпт с таксономией
   → По каждому шагу: ошибка есть / нет, тип ошибки

ОБА ШАГА — в обычном чате, без кода.
ШАГ 2 можно делать в том же диалоге или в отдельном.

🚀

Пример применения

Задача: Ты собираешься вложить 500 000 ₽ в небольшой бизнес друга — доставку готовой еды по Екатеринбургу. Попросил Claude оценить риски и получил длинный анализ с рассуждениями. Прежде чем принять решение, хочешь проверить — не напортачила ли модель в логике.

Промпт — Шаг 1 (получить рассуждение):

Оцени риски вложения 500 000 ₽ в небольшой сервис доставки еды 
в Екатеринбурге. Думай вслух — показывай каждый шаг рассуждения 
отдельно, нумеруй их. После шагов дай итоговый вывод.

Промпт — Шаг 2 (аудит):

Ты — аудитор логики. Проверь цепочку рассуждений ниже.

Для каждого шага определи: есть ли ошибка? Если да — укажи тип 
из таксономии:

КАТЕГОРИЯ 1 — Ошибки разбора:
  1a: Неверная интерпретация — модель поняла задачу не так
  1b: Пропущенные ограничения — проигнорировала важное условие
  1c: Ошибка маппинга — неверно перевела понятие в логику

КАТЕГОРИЯ 2 — Ошибки выполнения:
  2a: Логическая ошибка — вывод не следует из посылок
  2b: Вычислительная ошибка — ошибка в подсчётах
  2c: Противоречие — шаг противоречит другому шагу

КАТЕГОРИЯ 3 — Ошибки управления:
  3a: Зацикливание — повторяет одно и то же
  3b: Уход от цели — съехал с темы
  3c: Преждевременный вывод — ответ без обоснования

Формат для каждого шага:
Шаг [N]: [ОШИБКА: тип + объяснение] или [ОК]

После — итоговый вердикт: на каком шаге рассуждение сломалось 
и стоит ли доверять выводу.

Цепочка рассуждений:
[вставь рассуждение из Шага 1]

Результат:

Модель пройдётся по каждому шагу рассуждения и выдаст разбор — где ОК, где ошибка и какого типа. Например, может обнаружить, что на шаге 3 была пропущена оговорка о конкурентах (1b), а на шаге 6 — вывод о рентабельности не следует из данных (2a). В финале — вердикт: доверять выводу или нет, и почему.


🧠

Почему это работает

LLM генерирует текст последовательно вперёд — каждый новый токен опирается на предыдущие. Если ошибка закралась в шаг 2, шаги 3, 4, 5 будут последовательно на неё опираться. К моменту финального ответа ошибка уже "закопана" под несколькими слоями правдоподобного текста. Проверить ответ — значит смотреть на вершину айсберга.

Хорошая новость: LLM умеет классифицировать текст по заданным категориям. Это она делает очень хорошо. Когда таксономия ошибок вшита в промпт и задача сформулирована как "найди соответствие", модель работает как опытный редактор с чек-листом — не генерирует, а проверяет.

Третья закономерность — ключевая для практики: ошибки категории 3 (зацикливание, уход от цели) почти никогда не возникают без причины. Если ты видишь их в рассуждениях — это сигнал, что задача была сформулирована противоречиво, или модель работала с конфликтующими инструкциями. Перепиши промпт.

Рычаги управления: - Детализация таксономии → чем подробнее описаны типы ошибок, тем точнее аудит - Порог тревоги → можно попросить "сигналь только на ошибки категории 2-3, мелкие неточности игнорируй" — для быстрого просмотра - Формат вывода → попроси "только шаги с ошибками" вместо полного разбора — короче и быстрее - Цепочка в одном диалоге → попроси модель сначала порассуждать, потом сразу проверить себя по таксономии — один запрос вместо двух


📋

Шаблон промпта

Ты — аудитор логики. Проверь цепочку рассуждений по таксономии.

ТАКСОНОМИЯ ОШИБОК:

[Категория 1 — Разбор задачи]
1a Неверная интерпретация: понял задачу не так
1b Пропущенные ограничения: проигнорировал условие из {задача}
1c Ошибка маппинга: неверно перевёл понятие в логику

[Категория 2 — Выполнение]
2a Логическая ошибка: вывод не следует из посылок
2b Вычислительная ошибка: ошибка в подсчётах или формулах
2c Противоречие: этот шаг противоречит другому шагу цепочки

[Категория 3 — Управление процессом]
3a Зацикливание: повторяет уже сказанное без продвижения
3b Уход от цели: рассуждение съехало с {задача}
3c Преждевременный вывод: ответ дан без достаточного обоснования

ПРАВИЛА:
- Оценивай каждый шаг независимо
- Учитывай контекст предыдущих шагов
- Не считай ошибкой исследование гипотез и рассмотрение вариантов
- Сигналь на ошибку только если она реально нарушает логику

ФОРМАТ ОТВЕТА:
Шаг [N]: [ОК] или [ОШИБКА — тип: объяснение]
...
ИТОГ: [Цепочка надёжна / Сломалась на шаге N / Требует проверки]

ЦЕПОЧКА РАССУЖДЕНИЙ:
{цепочка_рассуждений}

Плейсхолдеры: - {задача} — краткое описание исходной задачи (2-5 слов): "оценка рисков инвестиции", "анализ юридического договора" - {цепочка_рассуждений} — вываливаешь сюда полный текст рассуждений из первого запроса


🚀 Быстрый старт — вставь в чат:

Вот шаблон Reasoning Safety Monitor для аудита рассуждений LLM. 
Адаптируй под мою задачу: {опиши задачу}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какую задачу ты давал модели и что за рассуждение хочешь проверить — потому что ей нужен контекст задачи для правильной калибровки ошибок категории 1 (неверная интерпретация — это относительно исходного вопроса). Она возьмёт структуру с таксономией и адаптирует под твой кейс.


⚠️

Ограничения

⚠️ Субъективные задачи: Таксономия хорошо работает там, где есть логическая структура — анализ, расчёты, правовые вопросы, планирование. Для творческих задач без чёткого критерия правильности (напиши стихотворение, придумай название) — почти не применима.

⚠️ Аудит не гарантирует правильность: Модель может не заметить ошибку, которую сама и совершила. Авторы это признают. Аудит снижает риск, но не устраняет его. Второй взгляд человека на важные решения остаётся обязательным.

⚠️ Короткие ответы: Метод работает только когда рассуждение развёрнуто и видно. Если модель дала ответ без шагов — нечего проверять. Сначала попроси "думать вслух".

⚠️ Сильно вложенные ошибки: Если ошибка совершена на первом шаге (неверная интерпретация задачи), все последующие шаги могут быть внутренне логичны — и аудитор пропустит системный сбой, увидев только корректные шаги.


🔗

Ресурсы

Работа: Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models

Авторы: Xunguang Wang, Yuguang Zhou, Qingyue Wang, Zongjie Li, Ruixuan Huang, Zhenlan Ji, Pingchuan Ma, Shuai Wang (corresponding)

Организации: The Hong Kong University of Science and Technology (HKUST), Zhejiang University of Technology

Связанные работы из исследования: BadChain, OverThink (DoS-атаки на рассуждения), ProcessBench (бенчмарк для оценки пошагового рассуждения), SelfCheckGPT (детектор галлюцинаций, с которым сравнивали)


📋 Дайджест исследования

Ключевая суть

Правильный ответ — ещё не гарантия правильного рассуждения: модель способна прийти к верному итогу через дырявую логику, и никакая проверка финального текста это не обнаружит. Reasoning Safety Monitor позволяет проверить не ответ, а сам ход мыслей — и поймать ошибку до того, как она закопалась под слоями правдоподобного текста. Фишка: вшей таксономию из 9 типов ошибок в отдельный аудировочный промпт — и обычная модель перестаёт генерировать и начинает классифицировать: это она делает значительно лучше. Никакого кода и дообучения — всё работает прямо в чате.

Принцип работы

Два шага вместо одного. Сначала попроси модель думать вслух: Показывай каждый шаг рассуждения, нумеруй. Получишь цепочку, где каждый шаг виден. Потом запусти отдельный аудит. Задача «найди соответствие категории из списка» принципиально отличается от задачи «придумай ответ» — и модель справляется с ней куда точнее. Категории 1–2 ловят конкретные сломы логики: неверную интерпретацию, пропущенные условия, ошибки в подсчётах. Категория 3 (зацикливание, резкий уход от темы) — диагностика другого рода: если видишь её, проблема в твоём промпте, а не в задаче.

Почему работает

Модель генерирует текст последовательно — вперёд. Ошибка в шаге 2 молча просачивается в шаги 3, 4, 5. К финалу она уже закопана под слоями связного правдоподобного текста. Смотреть только на итог — всё равно что оценивать мост по красоте перил. Ключевой момент: задача «проверь по чек-листу» — это не то же самое, что «придумай и сам себя проверь». Первую LLM решает качественно, вторую — плохо. Бонус: ошибки категории 3 (зацикливание, уход от темы) в нормальной работе почти не встречаются. Появились — значит промпт противоречив или в нём конфликтующие инструкции. Это сигнал переписать запрос, а не перезапустить модель.

Когда применять

Финансовые и юридические решения → когда AI помогает оценить риски, разобрать договор или спланировать бюджет. Особенно когда на кону реальные деньги или последствия. Сложный многошаговый анализ → любой кейс со структурой «если А, то Б, следовательно В»: конкурентный анализ, оценка гипотез, разбор технических решений. НЕ подходит для творческих задач без чёткого критерия правильности — таксономия логических ошибок бессмысленна там, где нет логики как таковой.

Мини-рецепт

1. Попроси думать вслух: Добавь к любому сложному запросу: Показывай каждый шаг рассуждения. Нумеруй шаги. Дай итог после шагов. Это обязательное условие — нечего аудировать, если рассуждение скрыто.

2. Запусти аудит отдельным сообщением: Вставь аудировочный промпт с таксономией из 9 ошибок. Или попроси ту же модель: Теперь проверь своё рассуждение выше по таксономии — [вставь список]. Работает в том же диалоге.

3. Читай категорию 3 как диагноз: Если аудит нашёл зацикливание (3a) или уход от темы (3b) — не перезапускай задачу. Перепиши свой исходный промпт: скорее всего, в нём противоречивые условия.

4. Фильтруй шум через порог: Если нужен быстрый просмотр, добавь в аудировочный промпт: Сигналь только на ошибки категории 2 и 3. Мелкие неточности пропускай.

Примеры

[ПЛОХО] : Оцени риски вложения 500 000 ₽ в доставку еды по Екатеринбургу → Получишь связный текст с выводами. Проверить, не сломалась ли где-то логика — невозможно, рассуждение скрыто.
[ХОРОШО] : Шаг 1 — Оцени риски вложения 500 000 ₽ в небольшой сервис доставки еды в Екатеринбурге. Думай вслух: показывай каждый шаг рассуждения, нумеруй. Итоговый вывод — после шагов. Шаг 2 — Ты — аудитор логики. Проверь рассуждение выше по шагам. Таксономия ошибок: 1a — неверная интерпретация задачи 1b — пропущенное условие 1c — неверный перевод понятия в логику 2a — вывод не следует из посылок 2b — ошибка в подсчётах 2c — шаг противоречит другому шагу 3a — зацикливание 3b — уход от темы 3c — ответ без обоснования Формат: Шаг [N]: [ОК] или [ОШИБКА — тип: объяснение] ИТОГ: цепочка надёжна / сломалась на шаге N / требует проверки → Получишь разбор по каждому шагу — например, на шаге 3 не учтены конкуренты (1b), на шаге 6 вывод о рентабельности не следует из данных (2a). И внятный вердикт: доверять выводу или нет.
Источник: Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models
ArXiv ID: 2603.25412 | Сгенерировано: 2026-03-27 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Ошибка в рассуждении прячется за правильным ответомМодель генерирует шаги последовательно. Ошибка на раннем шаге тихо тянется дальше. К финалу она «закопана» под слоями правдоподобного текста. Ответ звучит убедительно — но стоит на ложных посылках. Проверять только финальный ответ бесполезно. Это касается любой задачи с разветвлённой логикой: анализ, расчёты, юридические выводы, планированиеПопроси модель думать вслух и нумеровать шаги. Потом запусти отдельный аудировочный промпт с таксономией ошибок. Проверяй шаги, не ответ

Методы

МетодСуть
Двухшаговый аудит рассуждений через таксономиюШаг 1. Попроси модель развернуть рассуждение: "Думай вслух, показывай каждый шаг, нумеруй их". Шаг 2. В новом запросе вставь цепочку и попроси проверить её по таксономии из 9 типов ошибок. Таксономия разбита на три группы: ошибки разбора задачи (неверная интерпретация, пропущенные условия, ошибка перевода понятий в логику), ошибки выполнения (неверный вывод из посылок, ошибка в подсчётах, шаги противоречат друг другу), ошибки управления процессом (зацикливание, уход от темы, ответ без обоснования). Формат: Шаг [N]: [ОК] или [ОШИБКА — тип: объяснение]. Почему работает: LLM плохо проверяет себя в момент генерации. Но она хорошо классифицирует текст по заданным категориям. Когда типы ошибок вшиты в промпт и задача — «найди соответствие», модель работает как редактор с чек-листом. Генерация и проверка — разные режимы. Когда применять: сложный анализ, финансовые и юридические выводы, многошаговые расчёты. Когда не работает: короткие ответы без шагов, творческие задачи без критерия правильности

Тезисы

ТезисКомментарий
Зацикливание и уход от темы — сигнал сломанного промптаВ нормальной работе эти ошибки почти не встречаются. Если модель топчется по кругу или съезжает на другую тему — это не случайность. Это признак: промпт противоречивый, или условия задачи конфликтуют между собой. Применяй: увидел зацикливание или резкий уход от темы — не перезапускай запрос, а переформулируй сам промпт
📖 Простыми словами

Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities inLargeLanguageModels

arXiv: 2603.25412

Проблема в том, что современные нейронки научились виртуозно врать, сохраняя при этом лицо. Традиционные фильтры безопасности ищут в ответах мат или рецепты бомб, но они абсолютно слепы к ошибкам в логике. Модель может выдать тебе идеально структурированный текст, который звучит как речь профессора, но внутри него сидит фундаментальный косяк. Это и есть уязвимость рассуждений: когда цепочка мыслей гнилая изначально, но финальный вывод выглядит как конфетка.

Это как нанять бухгалтера, который сдает тебе идеальный отчет, где дебет сходится с кредитом, но по пути он случайно перепутал рубли с тугриками. Ты смотришь на итоговую цифру — она красивая. Ты смотришь на оформление — оно безупречное. Но вся конструкция держится на честном слове, и как только ты начнешь тратить эти деньги, окажется, что бюджета не существует. Модель просто «галлюцинирует логикой», подгоняя решение под ответ, который кажется ей правдоподобным.

Авторы выделили 9 типов логических провалов, которые убивают доверие к результату. Самое смешное, что ловить эти косяки лучше всего умеет сама же нейронка, если дать ей правильную инструкцию. Метод работает просто: мы заставляем модель-контролера проверять не «что получилось», а «как мы к этому пришли». Оказалось, что обычный промпт с четкой таксономией ошибок находит логические дыры эффективнее, чем любые сложные алгоритмы, которые годами писали для проверки кода или математики.

Представь, что ты просишь AI оценить бизнес-план или риски по кредиту. Модель может выдать кучу графиков и умных слов, но если на втором шаге она неверно оценила объем рынка, то все последующие выводы — это бесполезный мусор. Исследование доказывает, что принцип проверки хода мыслей универсален: он одинаково важен и для инвестиций, и для написания кода, и для медицинских советов. Безопасность рассуждений становится важнее, чем просто отсутствие мата в выдаче.

Короче: пора перестать верить моделям на слово только потому, что они пишут без ошибок. Если ты используешь LLM для принятия решений, тебе нужен мониторинг рассуждений в реальном времени, а не просто проверка финального текста. Либо ты встраиваешь проверку логики в свой процесс, либо однажды примешь решение, опираясь на красиво упакованную пустоту. Кто научится фильтровать ход мыслей AI, тот выживет в эпоху галлюцинаций.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с