TL;DR
LLM может ответить правильно — и при этом рассуждать неправильно. Это не баг, а системная особенность: финальный ответ и цепочка рассуждений живут независимо друг от друга. Данное исследование формализует шесть измерений качества рассуждений — точность, согласованность, устойчивость, логическая связность, эффективность, стабильность — и показывает, что каждое из них измеряет что-то своё, не дублируя остальные.
Главная находка: правильный ответ ≠ хорошее рассуждение. Корреляция между «логической связностью» и «точностью» — практически ноль (_r_ = −0.17). Маленькие модели (2.7B параметров) дают связные, внутренне непротиворечивые цепочки рассуждений — и при этом ошибаются в ответах. Крупные модели делают наоборот: отвечают правильно, но «добираются» до ответа через шаги, которые логически не связаны между собой. Вы видите результат, но не можете доверять процессу.
Фреймворк предлагает шесть линз вместо одной: смотри не только на то, правильный ли ответ, но и на то, переформулируется ли вопрос без потери ответа, стабилен ли ответ при повторных запросах, не противоречат ли шаги рассуждений друг другу, и насколько ёмко модель дала ответ. Для каждого сценария использования (юридика, медицина, встроенные системы) — своя комбинация весов.
Схема метода
6 ИЗМЕРЕНИЙ — смотришь на ответ через разные линзы:
CQ — Точность: Ответ совпадает с правильным?
CS — Согласованность: Одинаковый ответ при 3 повторных запросах?
RS — Устойчивость: Ответ держится при переформулировке вопроса?
LS — Связность: Шаги рассуждений не противоречат друг другу?
ES — Эффективность: Ответ краткий при высокой точности?
SS — Стабильность: Сам ход рассуждений схож в разных запусках?
АГРЕГАЦИЯ — выбираешь профиль под задачу:
Юридика/Compliance → LS + CS (60% веса) > CQ
Медицина → CQ + RS (70% веса) > ES
Edge/IoT → ES (50% веса) > всё остальное
Обычная задача → равномерно по всем шести
Все шесть линз применяются к одному ответу. Итог — не оценка «хорошо/плохо», а профиль: где сильно, где слабо.
Пример применения
Задача: Ты пишешь юридическое заключение для клиента о рисках оферты на сайте интернет-магазина. Попросил Claude составить анализ — получил развёрнутый ответ. Теперь нужно понять, можно ли ему доверять.
Промпт:
Ты только что дал мне анализ юридических рисков оферты.
Теперь оцени свой ответ по шести критериям:
1. ТОЧНОСТЬ — насколько уверен, что ответ фактически верен?
Укажи 1-2 пункта, где уверенность ниже всего.
2. СОГЛАСОВАННОСТЬ — если я задам тот же вопрос другими словами,
изменится ли ответ? Где наиболее вероятно расхождение?
3. УСТОЙЧИВОСТЬ — как изменится анализ, если:
а) оферта написана на английском,
б) магазин продаёт цифровые товары, а не физические?
4. ЛОГИЧЕСКАЯ СВЯЗНОСТЬ — проверь: есть ли в твоих рассуждениях шаги,
которые противоречат друг другу или не вытекают один из другого?
5. ЭФФЕКТИВНОСТЬ — какую треть ответа можно убрать без потери смысла?
6. СТАБИЛЬНОСТЬ — какие части анализа ты дал бы одинаково
при любом повторном запросе, а какие — вероятно, по-другому?
В конце: какому критерию мой исходный вопрос уделял меньше всего внимания —
и что мне стоит уточнить, чтобы получить более надёжный ответ?
Результат: Модель пройдёт по каждому из шести критериев и укажет слабые места собственного ответа — места с низкой уверенностью, логические разрывы, разделы, которые могут поменяться при переформулировке. В конце предложит уточняющий вопрос, который повысит надёжность. Это не гарантия правоты — это карта рисков ответа: где доверять, где проверять.
Почему это работает
LLM генерирует текст пошагово, слева направо — каждый следующий токен зависит от предыдущего. Финальный ответ может «угадываться» по паттерну задачи ещё до того, как рассуждение завершилось. Поэтому правильный ответ и правильное рассуждение — разные вещи. Проверяь только ответ — всё равно что оценивать книгу по последней странице.
У модели нет встроенного «критика», который проверяет: «а не противоречу ли я себе в шаге 3 тому, что сказал в шаге 1?». Она просто продолжает текст. Попросить модель явно оценить себя по конкретным критериям — значит создать этого критика искусственно. Модель переключается из режима «генерирую» в режим «проверяю».
Шесть измерений работают именно потому, что каждое ловит разное. Ответ может быть точным, но нестабильным (каждый раз другие аргументы). Или связным, но неустойчивым к перефразировке. Эти сигналы ортогональны — один не заменяет другой. Когда ты знаешь, какое измерение важно для твоей задачи — фокусируешь проверку туда.
Рычаги управления: - Сценарий использования → меняй приоритеты (для юрзаключения акцент на LS + CS, для медицины — на CQ + RS) - Глубина проверки → можно попросить проверить только 2-3 измерения, а не все шесть - Формат вывода → добавь «дай оценку 1-10 по каждому критерию» для сравнения нескольких ответов - Само-аудит vs внешний аудит → можешь попросить вторую модель (другой чат) оценить ответ первой по тем же шести критериям
Шаблон промпта
Оцени свой ответ по шести критериям качества рассуждений.
Задача была: {описание задачи}
1. ТОЧНОСТЬ — где в ответе уверенность ниже всего?
Назови 1-2 конкретных утверждения.
2. СОГЛАСОВАННОСТЬ — что изменится, если я спрошу то же самое
другими словами? Где наиболее вероятно расхождение?
3. УСТОЙЧИВОСТЬ — как изменится ответ при таких вариациях задачи:
{вариация_1}, {вариация_2}?
4. ЛОГИЧЕСКАЯ СВЯЗНОСТЬ — есть ли шаги в рассуждении, которые
противоречат друг другу или не вытекают один из другого?
5. ЭФФЕКТИВНОСТЬ — что можно убрать без потери смысла?
6. СТАБИЛЬНОСТЬ — какие части ответа ты дал бы одинаково при
любом повторном запросе, а какие — вероятно, по-другому?
Итог: какой критерий наиболее важен для {контекст_использования} —
и что уточнить в вопросе, чтобы повысить надёжность по нему?
Что подставлять:
- {описание задачи} — что ты просил сделать (кратко)
- {вариация_1}, {вариация_2} — конкретные изменения условий (другой рынок, другой формат, другая аудитория)
- {контекст_использования} — где будет использоваться ответ (юридический документ, публичный пост, внутреннее решение)
🚀 Быстрый старт — вставь в чат:
Вот шаблон для само-аудита ответа LLM по шести критериям.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про контекст задачи, важные вариации условий и то, где будет использоваться ответ — потому что без этого неясно, какие критерии приоритетны и какие вариации проверять на устойчивость.
Ограничения
⚠️ Само-аудит ≠ внешняя проверка: Когда модель оценивает свой же ответ, она работает с тем же «внутренним состоянием», которое породило ответ. Слепые пятна модели останутся слепыми пятнами и в само-оценке. Для критически важных задач — проверяй ответ в отдельном чате или другой моделью.
⚠️ Логическая связность ≠ правота: Ответ может быть идеально внутренне связным — и при этом опираться на ложную предпосылку. Критерий LS ловит противоречия внутри рассуждения, но не проверяет соответствие реальности.
⚠️ Многошаговые задачи работают лучше: Если задача решается в одно утверждение («столица России»), само-аудит почти бессмысленен. Метод раскрывается на сложных, многошаговых задачах с рассуждением.
⚠️ CS (согласованность) системно низкая: Почти у всех моделей при температуре 0.7 — ответы варьируются от запроса к запросу. Это не баг конкретной модели, это особенность генерации при ненулевой температуре.
Как исследовали
Исследователи взяли семь моделей — от GPT-4o-mini и Claude Haiku до крошечных локальных Phi-2 (2.7B) и Qwen2.5-1.5B — и прогнали 975 задач через четыре бенчмарка: математические задачки, тесты на знание (MMLU), здравый смысл (StrategyQA) и специально созданные «ловушки» с логическими противоречиями и перефразировками. Каждую задачу запрашивали трижды (для замера согласованности) и в трёх перефразировках (для замера устойчивости).
Самое неожиданное: маленькие модели оказались логически связнее крупных. Phi-2 (2.7B) даёт правильные ответы лишь в 49% случаев — но логическая связность цепочек рассуждений у неё выше, чем у DeepSeek-V3. Это опровергает интуицию «больше модель = лучше рассуждает». Просто большие модели «знают» ответ раньше, чем заканчивают рассуждение — и дорисовывают шаги постфактум.
Ещё один сюрприз — переворот рейтингов. По точности ответов DeepSeek-V3 занимает второе место (CQ = 0.83). Но в юридическом сценарии — падает на пятое, пропуская вперёд GPT-4o-mini. Причина: у DeepSeek самая низкая логическая связность и одна из самых низких согласованностей среди всех участников. Для юридики именно это критично. Один бенчмарк по точности этого не покажет никогда.
Оригинал из исследования (таблица сценариев)
Table 2. Weight vectors for evaluation scenarios. All weights sum to 1.0.
Scenario | CQ | CS | RS | LS | ES | SS
------------------|------|------|------|------|------|------
Balanced | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6
Safety Priority | 0.30 | 0.20 | 0.30 | 0.10 | 0.05 | 0.05
Accuracy Priority | 0.40 | 0.25 | 0.15 | 0.10 | 0.05 | 0.05
Efficiency Prior. | 0.20 | 0.15 | 0.15 | 0.10 | 0.30 | 0.10
Medical Triage | 0.40 | 0.05 | 0.30 | 0.20 | 0.03 | 0.02
Legal/Compliance | 0.15 | 0.25 | 0.20 | 0.35 | 0.03 | 0.02
Edge Device/IoT | 0.30 | 0.03 | 0.10 | 0.05 | 0.50 | 0.02
Контекст: Таблица весов из методологии фреймворка. Показывает, как разные сценарии использования требуют разного баланса шести измерений. Юридический сценарий радикально отличается от медицинского — не в точности, а в логике расстановки приоритетов.
Адаптации и экстраполяции
1. Адаптация: само-аудит перед отправкой
💡 Адаптация для контент-маркетинга: Перед публикацией поста или рассылки — быстрая проверка по сокращённому набору критериев.
Оцени этот текст перед публикацией по трём параметрам:
ТОЧНОСТЬ — есть ли утверждения, которые я должен проверить фактически
перед публикацией? Назови конкретно.
УСТОЙЧИВОСТЬ — как изменится восприятие текста, если читатель:
а) уже знаком с темой, б) впервые слышит о ней?
Где текст может сработать иначе, чем я планировал?
СВЯЗНОСТЬ — есть ли в тексте переходы или утверждения,
которые логически не вытекают из предыдущего?
Текст: {вставить текст}
2. Техника: сравнение двух моделей по профилю
🔧 Техника: попроси разные модели оценить одно и то же — и сравни профили, а не ответы
Открой два чата — Claude и GPT-4o. Задай один и тот же сложный вопрос. Затем попроси каждую модель сделать само-аудит по шести критериям. Сравни не ответы, а профили уверенности: где каждая модель видит свои слабые места. Там, где обе модели указывают на низкую уверенность — реальное слабое место. Там, где расходятся — стоит копнуть глубже.
3. Экстраполяция: шесть измерений как чек-лист при постановке задачи
Принцип работает и в обратную сторону: перед тем как задать вопрос, подумай через те же шесть линз — что ты хочешь от ответа.
Перед тем как ответить, уточни, что для меня важнее всего в этой задаче:
[ ] Точность факта (нужен правильный ответ, пусть и длинный)
[ ] Согласованность (важно, чтобы вывод не менялся при переформулировке)
[ ] Устойчивость (ответ должен работать в нескольких сценариях: ...)
[ ] Связность (нужна цепочка рассуждений с явными шагами)
[ ] Эффективность (нужен краткий ответ, без лишнего)
[ ] Стабильность (ответ будет показан другим — нужна воспроизводимость)
Задача: {задача}
Ответь, сделав акцент на отмеченных параметрах.
Ресурсы
Работа: Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework — submitted to Big Data and Cognitive Computing, 2026.
Авторы: Ali Şenol (Tarsus University, Турция), Garima Agrawal (Arizona State University + HumaConn AI Consulting), Huan Liu (Arizona State University)
Ключевые ссылки из исследования: Lanham et al. [5] — о том, что цепочки рассуждений часто не отражают реальный процесс; Liu et al. [22] — о диссоциации между согласованностью вывода и стабильностью процесса; Bogavelli et al. [21] — о 40% флуктуации производительности от формата промпта в enterprise-среде.
