3,583 papers
arXiv:2605.24661 72 23 мая 2026 г. FREE

Multi-Dim Reasoning Framework: шесть измерений для оценки ответов LLM вместо «правильно/неправильно»

КЛЮЧЕВАЯ СУТЬ
Парадокс: корреляция между логической связностью рассуждений и точностью ответа — _r_ = −0.17. Минус. Почти ноль. LLM может ответить правильно и рассуждать в никуда — одновременно, и ни одна оценка «правильно/неправильно» это не поймает. Фреймворк из шести критериев позволяет проверять не только финальный ответ, но и измерять надёжность самого хода рассуждений — видеть где логика ломается, где ответ нестабилен, где модель сама не уверена. Попроси модель оценить свой ответ по шести линзам — она переключается из режима «генерирую» в режим «проверяю» и сама указывает, где её рассуждение шатается. Правильный ответ перестаёт быть единственным сигналом доверия.
Адаптировать под запрос

TL;DR

LLM может ответить правильно — и при этом рассуждать неправильно. Это не баг, а системная особенность: финальный ответ и цепочка рассуждений живут независимо друг от друга. Данное исследование формализует шесть измерений качества рассуждений — точность, согласованность, устойчивость, логическая связность, эффективность, стабильность — и показывает, что каждое из них измеряет что-то своё, не дублируя остальные.

Главная находка: правильный ответ ≠ хорошее рассуждение. Корреляция между «логической связностью» и «точностью» — практически ноль (_r_ = −0.17). Маленькие модели (2.7B параметров) дают связные, внутренне непротиворечивые цепочки рассуждений — и при этом ошибаются в ответах. Крупные модели делают наоборот: отвечают правильно, но «добираются» до ответа через шаги, которые логически не связаны между собой. Вы видите результат, но не можете доверять процессу.

Фреймворк предлагает шесть линз вместо одной: смотри не только на то, правильный ли ответ, но и на то, переформулируется ли вопрос без потери ответа, стабилен ли ответ при повторных запросах, не противоречат ли шаги рассуждений друг другу, и насколько ёмко модель дала ответ. Для каждого сценария использования (юридика, медицина, встроенные системы) — своя комбинация весов.


🔬

Схема метода

6 ИЗМЕРЕНИЙ — смотришь на ответ через разные линзы:

CQ — Точность:       Ответ совпадает с правильным?
CS — Согласованность: Одинаковый ответ при 3 повторных запросах?
RS — Устойчивость:   Ответ держится при переформулировке вопроса?
LS — Связность:      Шаги рассуждений не противоречат друг другу?
ES — Эффективность:  Ответ краткий при высокой точности?
SS — Стабильность:   Сам ход рассуждений схож в разных запусках?

АГРЕГАЦИЯ — выбираешь профиль под задачу:

Юридика/Compliance → LS + CS (60% веса) > CQ
Медицина           → CQ + RS (70% веса) > ES
Edge/IoT           → ES (50% веса) > всё остальное
Обычная задача     → равномерно по всем шести

Все шесть линз применяются к одному ответу. Итог — не оценка «хорошо/плохо», а профиль: где сильно, где слабо.


🚀

Пример применения

Задача: Ты пишешь юридическое заключение для клиента о рисках оферты на сайте интернет-магазина. Попросил Claude составить анализ — получил развёрнутый ответ. Теперь нужно понять, можно ли ему доверять.

Промпт:

Ты только что дал мне анализ юридических рисков оферты. 
Теперь оцени свой ответ по шести критериям:

1. ТОЧНОСТЬ — насколько уверен, что ответ фактически верен? 
   Укажи 1-2 пункта, где уверенность ниже всего.

2. СОГЛАСОВАННОСТЬ — если я задам тот же вопрос другими словами, 
   изменится ли ответ? Где наиболее вероятно расхождение?

3. УСТОЙЧИВОСТЬ — как изменится анализ, если: 
   а) оферта написана на английском, 
   б) магазин продаёт цифровые товары, а не физические?

4. ЛОГИЧЕСКАЯ СВЯЗНОСТЬ — проверь: есть ли в твоих рассуждениях шаги, 
   которые противоречат друг другу или не вытекают один из другого?

5. ЭФФЕКТИВНОСТЬ — какую треть ответа можно убрать без потери смысла?

6. СТАБИЛЬНОСТЬ — какие части анализа ты дал бы одинаково 
   при любом повторном запросе, а какие — вероятно, по-другому?

В конце: какому критерию мой исходный вопрос уделял меньше всего внимания — 
и что мне стоит уточнить, чтобы получить более надёжный ответ?

Результат: Модель пройдёт по каждому из шести критериев и укажет слабые места собственного ответа — места с низкой уверенностью, логические разрывы, разделы, которые могут поменяться при переформулировке. В конце предложит уточняющий вопрос, который повысит надёжность. Это не гарантия правоты — это карта рисков ответа: где доверять, где проверять.


🧠

Почему это работает

LLM генерирует текст пошагово, слева направо — каждый следующий токен зависит от предыдущего. Финальный ответ может «угадываться» по паттерну задачи ещё до того, как рассуждение завершилось. Поэтому правильный ответ и правильное рассуждение — разные вещи. Проверяь только ответ — всё равно что оценивать книгу по последней странице.

У модели нет встроенного «критика», который проверяет: «а не противоречу ли я себе в шаге 3 тому, что сказал в шаге 1?». Она просто продолжает текст. Попросить модель явно оценить себя по конкретным критериям — значит создать этого критика искусственно. Модель переключается из режима «генерирую» в режим «проверяю».

Шесть измерений работают именно потому, что каждое ловит разное. Ответ может быть точным, но нестабильным (каждый раз другие аргументы). Или связным, но неустойчивым к перефразировке. Эти сигналы ортогональны — один не заменяет другой. Когда ты знаешь, какое измерение важно для твоей задачи — фокусируешь проверку туда.

Рычаги управления: - Сценарий использования → меняй приоритеты (для юрзаключения акцент на LS + CS, для медицины — на CQ + RS) - Глубина проверки → можно попросить проверить только 2-3 измерения, а не все шесть - Формат вывода → добавь «дай оценку 1-10 по каждому критерию» для сравнения нескольких ответов - Само-аудит vs внешний аудит → можешь попросить вторую модель (другой чат) оценить ответ первой по тем же шести критериям


📋

Шаблон промпта

Оцени свой ответ по шести критериям качества рассуждений.
Задача была: {описание задачи}

1. ТОЧНОСТЬ — где в ответе уверенность ниже всего? 
   Назови 1-2 конкретных утверждения.

2. СОГЛАСОВАННОСТЬ — что изменится, если я спрошу то же самое 
   другими словами? Где наиболее вероятно расхождение?

3. УСТОЙЧИВОСТЬ — как изменится ответ при таких вариациях задачи: 
   {вариация_1}, {вариация_2}?

4. ЛОГИЧЕСКАЯ СВЯЗНОСТЬ — есть ли шаги в рассуждении, которые 
   противоречат друг другу или не вытекают один из другого?

5. ЭФФЕКТИВНОСТЬ — что можно убрать без потери смысла?

6. СТАБИЛЬНОСТЬ — какие части ответа ты дал бы одинаково при 
   любом повторном запросе, а какие — вероятно, по-другому?

Итог: какой критерий наиболее важен для {контекст_использования} — 
и что уточнить в вопросе, чтобы повысить надёжность по нему?

Что подставлять: - {описание задачи} — что ты просил сделать (кратко) - {вариация_1}, {вариация_2} — конкретные изменения условий (другой рынок, другой формат, другая аудитория) - {контекст_использования} — где будет использоваться ответ (юридический документ, публичный пост, внутреннее решение)


🚀 Быстрый старт — вставь в чат:

Вот шаблон для само-аудита ответа LLM по шести критериям. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про контекст задачи, важные вариации условий и то, где будет использоваться ответ — потому что без этого неясно, какие критерии приоритетны и какие вариации проверять на устойчивость.


⚠️

Ограничения

⚠️ Само-аудит ≠ внешняя проверка: Когда модель оценивает свой же ответ, она работает с тем же «внутренним состоянием», которое породило ответ. Слепые пятна модели останутся слепыми пятнами и в само-оценке. Для критически важных задач — проверяй ответ в отдельном чате или другой моделью.

⚠️ Логическая связность ≠ правота: Ответ может быть идеально внутренне связным — и при этом опираться на ложную предпосылку. Критерий LS ловит противоречия внутри рассуждения, но не проверяет соответствие реальности.

⚠️ Многошаговые задачи работают лучше: Если задача решается в одно утверждение («столица России»), само-аудит почти бессмысленен. Метод раскрывается на сложных, многошаговых задачах с рассуждением.

⚠️ CS (согласованность) системно низкая: Почти у всех моделей при температуре 0.7 — ответы варьируются от запроса к запросу. Это не баг конкретной модели, это особенность генерации при ненулевой температуре.


🔍

Как исследовали

Исследователи взяли семь моделей — от GPT-4o-mini и Claude Haiku до крошечных локальных Phi-2 (2.7B) и Qwen2.5-1.5B — и прогнали 975 задач через четыре бенчмарка: математические задачки, тесты на знание (MMLU), здравый смысл (StrategyQA) и специально созданные «ловушки» с логическими противоречиями и перефразировками. Каждую задачу запрашивали трижды (для замера согласованности) и в трёх перефразировках (для замера устойчивости).

Самое неожиданное: маленькие модели оказались логически связнее крупных. Phi-2 (2.7B) даёт правильные ответы лишь в 49% случаев — но логическая связность цепочек рассуждений у неё выше, чем у DeepSeek-V3. Это опровергает интуицию «больше модель = лучше рассуждает». Просто большие модели «знают» ответ раньше, чем заканчивают рассуждение — и дорисовывают шаги постфактум.

Ещё один сюрприз — переворот рейтингов. По точности ответов DeepSeek-V3 занимает второе место (CQ = 0.83). Но в юридическом сценарии — падает на пятое, пропуская вперёд GPT-4o-mini. Причина: у DeepSeek самая низкая логическая связность и одна из самых низких согласованностей среди всех участников. Для юридики именно это критично. Один бенчмарк по точности этого не покажет никогда.


📄

Оригинал из исследования (таблица сценариев)

Table 2. Weight vectors for evaluation scenarios. All weights sum to 1.0.

Scenario          | CQ   | CS   | RS   | LS   | ES   | SS
------------------|------|------|------|------|------|------
Balanced          | 1/6  | 1/6  | 1/6  | 1/6  | 1/6  | 1/6
Safety Priority   | 0.30 | 0.20 | 0.30 | 0.10 | 0.05 | 0.05
Accuracy Priority | 0.40 | 0.25 | 0.15 | 0.10 | 0.05 | 0.05
Efficiency Prior. | 0.20 | 0.15 | 0.15 | 0.10 | 0.30 | 0.10
Medical Triage    | 0.40 | 0.05 | 0.30 | 0.20 | 0.03 | 0.02
Legal/Compliance  | 0.15 | 0.25 | 0.20 | 0.35 | 0.03 | 0.02
Edge Device/IoT   | 0.30 | 0.03 | 0.10 | 0.05 | 0.50 | 0.02

Контекст: Таблица весов из методологии фреймворка. Показывает, как разные сценарии использования требуют разного баланса шести измерений. Юридический сценарий радикально отличается от медицинского — не в точности, а в логике расстановки приоритетов.


💡

Адаптации и экстраполяции

1. Адаптация: само-аудит перед отправкой

💡 Адаптация для контент-маркетинга: Перед публикацией поста или рассылки — быстрая проверка по сокращённому набору критериев.

Оцени этот текст перед публикацией по трём параметрам:

ТОЧНОСТЬ — есть ли утверждения, которые я должен проверить фактически 
перед публикацией? Назови конкретно.

УСТОЙЧИВОСТЬ — как изменится восприятие текста, если читатель: 
а) уже знаком с темой, б) впервые слышит о ней? 
Где текст может сработать иначе, чем я планировал?

СВЯЗНОСТЬ — есть ли в тексте переходы или утверждения, 
которые логически не вытекают из предыдущего?

Текст: {вставить текст}

2. Техника: сравнение двух моделей по профилю

🔧 Техника: попроси разные модели оценить одно и то же — и сравни профили, а не ответы

Открой два чата — Claude и GPT-4o. Задай один и тот же сложный вопрос. Затем попроси каждую модель сделать само-аудит по шести критериям. Сравни не ответы, а профили уверенности: где каждая модель видит свои слабые места. Там, где обе модели указывают на низкую уверенность — реальное слабое место. Там, где расходятся — стоит копнуть глубже.


3. Экстраполяция: шесть измерений как чек-лист при постановке задачи

Принцип работает и в обратную сторону: перед тем как задать вопрос, подумай через те же шесть линз — что ты хочешь от ответа.

Перед тем как ответить, уточни, что для меня важнее всего в этой задаче:

[ ] Точность факта  (нужен правильный ответ, пусть и длинный)
[ ] Согласованность (важно, чтобы вывод не менялся при переформулировке)  
[ ] Устойчивость    (ответ должен работать в нескольких сценариях: ...)
[ ] Связность       (нужна цепочка рассуждений с явными шагами)
[ ] Эффективность   (нужен краткий ответ, без лишнего)
[ ] Стабильность    (ответ будет показан другим — нужна воспроизводимость)

Задача: {задача}

Ответь, сделав акцент на отмеченных параметрах.

🔗

Ресурсы

Работа: Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework — submitted to Big Data and Cognitive Computing, 2026.

Авторы: Ali Şenol (Tarsus University, Турция), Garima Agrawal (Arizona State University + HumaConn AI Consulting), Huan Liu (Arizona State University)

Ключевые ссылки из исследования: Lanham et al. [5] — о том, что цепочки рассуждений часто не отражают реальный процесс; Liu et al. [22] — о диссоциации между согласованностью вывода и стабильностью процесса; Bogavelli et al. [21] — о 40% флуктуации производительности от формата промпта в enterprise-среде.


📋 Дайджест исследования

Ключевая суть

Парадокс: корреляция между логической связностью рассуждений и точностью ответа — _r_ = −0.17. Минус. Почти ноль. LLM может ответить правильно и рассуждать в никуда — одновременно, и ни одна оценка «правильно/неправильно» это не поймает. Фреймворк из шести критериев позволяет проверять не только финальный ответ, но и измерять надёжность самого хода рассуждений — видеть где логика ломается, где ответ нестабилен, где модель сама не уверена. Попроси модель оценить свой ответ по шести линзам — она переключается из режима «генерирую» в режим «проверяю» и сама указывает, где её рассуждение шатается. Правильный ответ перестаёт быть единственным сигналом доверия.

Принцип работы

Каждый следующий токен LLM зависит от предыдущего — модель просто продолжает текст. Финальный ответ может «угадаться» по паттерну задачи ещё до того, как рассуждение завершилось. Это как студент, который пишет «таким образом, вывод» в конце, не думая о связи с серединой. Поэтому ответ и рассуждение живут независимо. Шесть критериев — не просто список вопросов, а шесть сигналов, которые не пересекаются друг с другом: ответ бывает точным, но нестабильным — каждый раз с другими аргументами. Или связным внутри, но разваливающимся при малейшем изменении вопроса. Один критерий не заменяет другой — именно поэтому нужны все шесть.

Почему работает

У модели нет встроенного «критика», который замечает: «в шаге 3 я противоречу тому, что сказал в шаге 1». Она просто продолжает текст. Явный запрос оценить ответ по конкретным критериям — создаёт этого критика искусственно. Исследование показало: корреляции между шестью измерениями близки к нулю — каждое ловит то, что остальные пропускают. Смотришь только на точность — не видишь, что ответ разный при каждом повторном запросе. Смотришь только на согласованность — не видишь, что логика в рассуждении рвётся на шаге 2. Маленькие модели (2.7B параметров) в экспериментах давали стройные, внутренне непротиворечивые цепочки рассуждений — и при этом ошибались в ответах. Большие — наоборот. Это не частный случай, это системная особенность архитектуры.

Когда применять

Многошаговые задачи с рассуждением — юридический анализ, оценка рисков, медицинская диагностика, стратегические решения — особенно когда ответ пойдёт в реальный документ и цена ошибки высока. Профили приоритетов под задачу: юридика и соответствие требованиям — логическая связность + согласованность (60% внимания), медицина — точность + устойчивость к переформулировке (70% внимания), встроенные или быстрые системы — эффективность (50% внимания). НЕ подходит для простых фактических запросов — «столица Франции», «переведи слово», «какой сегодня день» — там само-аудит бессмысленен, задача решается одним шагом без рассуждений.

Мини-рецепт

1. Получи ответ на сложную задачу: Задай модели что-то многошаговое — юридический анализ, план, оценку рисков, разбор сценария.
2. Выбери 2-3 критерия под свой контекст: Юридика — логическая связность + согласованность. Медицина — точность + устойчивость. Нужна скорость — эффективность.
3. Отправь запрос само-аудита отдельным сообщением: Не редактируй исходный вопрос — именно в новом сообщении попроси оценить ответ по выбранным критериям (где уверенность ниже всего, что изменится при переформулировке, есть ли противоречия в рассуждении).
4. Найди красные флаги: Модель называет конкретные утверждения с низкой уверенностью или места, где логика держится слабо — вот туда и направляй внешнюю проверку.
5. Для критичных задач — добавь второй голос: Скопируй ответ в новый чат или другую модель и попроси оценить те же критерии. Слепые пятна само-оценки и внешней оценки, скорее всего, не совпадут — это и есть самое интересное.

Примеры

[ПЛОХО] : Составь юридический анализ рисков договора оферты на сайте интернет-магазина
[ХОРОШО] : Сначала получаешь анализ обычным запросом. Потом — отдельным сообщением: Оцени свой ответ по четырём критериям: 1. Точность — назови 2-3 конкретных утверждения, где уверенность ниже всего. 2. Устойчивость — как изменится анализ, если магазин продаёт цифровые товары, а не физические? 3. Логическая связность — есть ли шаги в рассуждении, которые противоречат друг другу или не вытекают один из другого? 4. Стабильность — какие части ты дал бы одинаково при любом повторном запросе, а какие — вероятно, иначе? В конце: что стоит уточнить в исходном вопросе, чтобы повысить надёжность анализа?
Источник: Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework
ArXiv ID: 2605.24661 | Сгенерировано: 2026-05-26 07:30

Проблемы LLM

ПроблемаСутьКак обойти
Правильный ответ скрывает качество рассужденияВидишь финальный ответ — и не знаешь, как модель к нему пришла. Ответ может угадываться по паттерну задачи до завершения рассуждения. Проверяешь вывод — и думаешь, что всё хорошо. Но ход рассуждений может быть несвязным, нестабильным, рассыпаться при перефразировке. Особенно критично для задач где важен процесс: юридика, медицина, анализ рисковПопроси модель оценить ход рассуждений отдельно от ответа. Не "правильно ли?", а "где шаги противоречат друг другу?", "что изменится при перефразировке?", "какие части ответа нестабильны?"

Методы

МетодСуть
Само-аудит по шести критериям — карта рисков ответаПопроси модель оценить свой ответ по шести вопросам: Точность — где уверенность ниже всего? Согласованность — что изменится при других формулировках? Устойчивость — как меняется ответ при вариациях задачи? Связность — есть ли противоречия между шагами рассуждения? Эффективность — что убрать без потери смысла? Стабильность — какие части ответа будут разными при повторном запросе? Шаблон: Оцени свой ответ по шести критериям качества рассуждений. Задача была: {задача}. [вопросы по всем шести]. Итог: какой критерий важнее всего для {контекст} — и что уточнить? Почему работает: явный запрос на само-оценку переключает модель из режима "генерирую" в режим "проверяю". Встроенного критика нет — ты создаёшь его запросом. Когда применять: многошаговые задачи, рассуждения, юридика, анализ. Когда не работает: простые фактические ответы ("столица России"), однослойные задачи без рассуждений. Ограничение: слепые пятна модели остаются слепыми пятнами. Для критически важного — проверяй в отдельном чате или другой моделью

Тезисы

ТезисКомментарий
Разные стороны качества рассуждений не связаны между собойТочность ответа, стабильность, связность шагов, устойчивость к перефразировке — это разные вещи. Ответ может быть точным, но нестабильным (каждый раз другие аргументы). Или внутренне связным, но рассыпаться при малейшей вариации задачи. Проверяя одно, ты ничего не узнаёшь об остальных. Применяй: выбирай критерий под задачу. Юридика — проверяй связность и согласованность. Медицина — точность и устойчивость. Встроенные системы — эффективность. Не нужно проверять всё шесть — нужно знать, что важно тебе
📖 Простыми словами

Measuring Reasoning Quality inLLMs: A Multi-Dimensional Behavioral Framework

arXiv: 2605.24661

Нейросети умеют выдавать правильный ответ, вообще не понимая, как они к нему пришли. Это фундаментальный баг архитектуры: модель генерирует текст пошагово, и финальный результат часто «выстреливает» просто потому, что похожий паттерн встречался в обучающих данных. В итоге цепочка рассуждений и итоговый ответ живут в разных мирах. Ты можешь получить верную цифру после абсолютно бредовых вычислений, и это создает опасную иллюзию того, что AI «умный», хотя он просто удачно ткнул пальцем в небо.

Это как если бы школьник на контрольной по физике списал ответ с задней парты, а потом попытался подогнать под него решение, совершив три ошибки в арифметике. Формально всё сошлось, оценка получена, но мост, построенный таким инженером, рухнет при первом же ветре. В LLM это происходит постоянно: модель сначала «угадывает» финал, а потом мучительно пытается оправдать его текстом, который выглядит логичным только на первый взгляд.

Чтобы перестать играть в эту лотерею, ввели шесть измерений качества, среди которых согласованность, устойчивость и логическая связность. Теперь мы не просто смотрим, попал ли AI в яблочко, а проверяем, не развалится ли его логика, если чуть-чуть изменить условие (стабильность) или попросить решить задачу короче (эффективность). Если модель выдает правильный ответ, но при малейшем уточнении начинает противоречить самой себе — значит, перед нами галлюцинация в красивой обертке, а не реальное рассуждение.

Этот подход — спасение для всех, кто использует AI в серьезных делах, от юриспруденции до кодинга. Тестировали метод на сложных логических задачах, но принцип универсален: если ты просишь Claude составить юридическое заключение, тебе плевать на красивый вывод в конце, если внутри аргументация держится на соплях. Точность ответа больше не показатель, теперь мы смотрим на «здоровье» всего процесса мышления, чтобы понять, можно ли доверять системе в критических ситуациях.

Короче: хватит оценивать нейронки по принципу «ну, вроде правильно ответила». Нужно препарировать само рассуждение через многомерный фреймворк, иначе в один прекрасный день ты доверишься верному ответу, за которым стоит полная ахинея. Либо ты проверяешь логику по всем шести пунктам, либо играешь в русскую рулетку с генератором текста. Кто научится мерить качество процесса, а не только результат, тот выживет в эпоху, когда казаться умным для AI стало проще, чем быть им.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с