3,583 papers
arXiv:2510.20603 86 23 окт. 2025 г. FREE

Relevance + Coherence: два измерения качества рассуждений LLM

КЛЮЧЕВАЯ СУТЬ
Модель может сделать математически правильный шаг, но он будет не про задачу. Или правильный, но без связи с предыдущим контекстом. Такие рассуждения ломаются в два раза чаще – правильный ответ в 24% случаев против 52% у решений с сохранением релевантности и связности. Метод добавляет в промпт два явных критерия: релевантность (шаг решает конкретную часть задачи) и связность (шаг следует из предыдущих). Это работает как внутренний чеклист для модели – не просто "реши правильно", а "каждый шаг должен быть про задачу И логично вытекать из предыдущих". +1.1 точности на AIME24/AIME25 без дообучения – просто изменение системного промпта.
Адаптировать под запрос

TL;DR

Исследователи показали, что качество рассуждений LLM определяется не только правильностью ответа, но и двумя критериями на уровне каждого шага: релевантность (шаг решает конкретную часть задачи) и связность (шаг логически следует из предыдущих). В промпте можно явно попросить модель следить за этими аспектами — и точность улучшается.

Главная находка: Решения с неправильными шагами, но сохраняющие релевантность и связность, в 2 раза чаще дают правильный финальный ответ, чем те, где нарушен хотя бы один аспект (52% против 24%). Модели часто делают локально корректные, но нерелевантные шаги (не про задачу) или несвязные (не следуют из предыдущего контекста) — это ломает цепочку рассуждений, даже если математика верна.

Суть метода: Добавь в промпт определения релевантности и связности + инструкцию следовать им на каждом шаге. Это работает как внутренний чеклист для модели: не просто "реши правильно", а "каждый шаг должен быть про задачу И логично следовать из предыдущих". Тесты на AIME24/AIME25 показали +1.1 accuracy без дообучения — просто изменение системного промпта.


🔬

Схема метода

ШАГ 1: Определи в промпте релевантность и связность
ШАГ 2: Попроси модель следовать этим критериям на каждом шаге рассуждения
→ Модель генерирует решение с явным контролем качества

Всё происходит в одном промпте, без дополнительных запросов.


🚀

Пример применения

Задача: Ты менеджер маркетплейса, анализируешь идею запуска новой категории — "умная техника для дома" на Wildberries. Нужно оценить перспективность.

Промпт:

Ты эксперт по стратегии маркетплейсов. При анализе следуй двум принципам:

**Релевантность:** Каждый аргумент должен напрямую касаться запуска категории "умная техника для дома" на Wildberries — не общие рассуждения про рынок.

**Связность:** Каждый вывод должен логически следовать из предыдущих фактов и аргументов.

Вопрос: Стоит ли запускать категорию "умная техника для дома" на Wildberries в 2026 году? 

Проанализируй: спрос, конкуренцию, логистические барьеры, маржинальность.

Результат:

Модель выдаст структурированный анализ по каждому пункту (спрос, конкуренция, логистика, маржа), где каждый аргумент будет про конкретную категорию на WB (релевантность), а выводы будут логически следовать из фактов выше (связность). Например: "Спрос растёт на 30% → высокая конкуренция с Озоном → нужна премиум-доставка → снижает маржу → вывод: категория рискованна без уникального УТП".

Без этих критериев модель может выдать общие рассуждения про "рынок умной техники растёт" (нерелевантно для WB) или прыгать между темами без связи (несвязно).


🧠

Почему это работает

Слабость LLM: Модели генерируют токен за токеном, не видя всю цепочку рассуждений заранее. Они могут сделать корректный шаг локально, но этот шаг может быть не про задачу (нерелевантен) или не следовать из предыдущего контекста (несвязен). Пример: при анализе бизнес-идеи модель может уйти в общие рассуждения про экономику или перепрыгнуть с темы на тему без логического перехода.

Сильная сторона LLM: Модели хорошо следуют явным инструкциям в промпте, особенно если они формализованы и повторяются. Когда в промпте чётко написано "каждый шаг должен решать часть задачи" и "должен следовать из предыдущих" — модель использует это как внутренний чеклист при генерации.

Как метод использует это: Добавление определений релевантности и связности в промпт создаёт фреймворк для самопроверки. Модель на каждом шаге "держит в голове" эти критерии и генерирует текст так, чтобы им соответствовать. Это особенно эффективно для рассуждающих моделей (QwQ, DeepSeek-R1), которые умеют делать длинные цепочки шагов — критерии направляют их в нужное русло.

Рычаги управления промптом:

  • Детализация критериев → добавь примеры "хорошего" и "плохого" шага для каждого аспекта → модель точнее понимает что требуется
  • Числовые параметры → "оцени релевантность каждого шага от 1 до 5" → модель делает промежуточную самооценку, это усиливает контроль
  • Инструкции вывода → убери "without explanation" → увидишь как модель проверяет себя по критериям
  • Уровень формализации → замени определения на конкретные примеры из твоей области → модель адаптирует критерии под контекст

📋

Шаблон промпта

Ты эксперт в {область}. При решении задачи следуй двум принципам:

**Релевантность:** Каждый шаг должен напрямую касаться {задача} и решать конкретную её часть. Избегай общих рассуждений, не связанных с вопросом.

**Связность:** Каждый следующий шаг должен логически следовать из предыдущих выводов и фактов. Не делай скачков без объяснения перехода.

Задача: {задача}

{дополнительный_контекст}

Плейсхолдеры:

  • {область} — твоя экспертная зона (стратегия, маркетинг, финансы, юриспруденция)
  • {задача} — конкретный вопрос или проблема
  • {дополнительный_контекст} — факты, данные, ограничения (опционально)

Адаптация: Можешь добавить конкретные примеры "релевантного" и "нерелевантного" шага для твоей области — модель точнее поймёт критерии.


⚠️

Ограничения

⚠️ Избыточность для простых задач: Если вопрос решается в 1-2 шага (например, "сколько стоит доллар?"), явные критерии только раздувают промпт без пользы. Используй метод для многошаговых рассуждений: анализ, планирование, принятие решений.

⚠️ Добавляет токены: Определения + инструкции занимают ~100-150 токенов. Для коротких запросов это заметный overhead. Компенсируется качеством для сложных задач.

⚠️ Не гарантирует корректность: Метод улучшает структуру рассуждений (релевантность, связность), но не защищает от фактических ошибок. Модель может релевантно и связно рассуждать на основе неверной предпосылки. Для критичных задач добавь проверку фактов или используй web search.


🔍

Как исследовали

Команда создала два бенчмарка: MRa-GSM8K и MRa-MATH — взяли решения математических задач, сгенерированные разными моделями, и попросили экспертов по математическому образованию оценить каждый шаг по трём критериям: правильность, релевантность, связность. Получили 6 аннотаторов с Upwork, каждый разметил 100 задач. Интересно: 5 из 6 сказали, что оценивать релевантность и связность отдельно от правильности — это полезно для понимания качества рассуждений.

Главное открытие: Среди решений с неправильными шагами, те, что сохраняли релевантность и связность, в 2 раза чаще давали правильный финальный ответ (52% против 24%). Это показало, что эти аспекты — не абстрактные метрики, а предикторы успеха в решении задачи.

Проверили на inference-time guidance: добавили в системный промпт QwQ-32B и DeepSeek-R1-70B определения релевантности и связности + инструкцию следовать им. Результат: +1.1 accuracy на AIME24/AIME25 (сложные математические олимпиады) без какого-либо дообучения. Сравнивали с контролем, где просили только "шаги должны быть корректны" — эффект меньше. Вывод: релевантность и связность — это не то же самое, что правильность, и они дают дополнительное улучшение.

Разработали метод CaSE (Causal Stepwise Evaluation), который оценивает каждый шаг рассуждения, используя только предшествующий контекст — как будто читаешь решение по порядку, не зная финала. Это избегает hindsight bias (когда судишь шаг, зная что дальше). Протестировали на 7 моделях от 3.5B до 72B параметров — CaSE лучше совпадает с экспертными оценками, чем baseline (где модель видит всё решение сразу). Эффект особенно силён на маленьких моделях (Phi-3.5-mini, Qwen2.5-7B), которые склонны "подглядывать" в будущие шаги.

Применили CaSE для фильтрации данных для дообучения: отсеяли шаги с низкой релевантностью/связностью из датасета s1K. Модели, обученные на отфильтрованных данных, показали выше accuracy на MATH, GPQA, AIME24 — +6.67 на релевантности, +13.33 на связности для Qwen-32B. Важный нюанс: улучшение было даже на маленьких моделях (4B), значит, качество данных важнее размера модели на ранних этапах.

Почему это сработало: Исследователи опирались на практику математического образования, где учителя оценивают не только правильность ответа, но и процесс решения — понимание задачи, логика переходов, обоснование шагов. Перенесли этот подход на LLM: если модель "учится" на данных с высокой релевантностью и связностью, она лучше интернализует структуру хороших рассуждений, а не просто запоминает паттерны.


📄

Оригинал из исследования

Контекст: Исследователи модифицировали системный промпт для QwQ-32B и DeepSeek-R1-70B, добавив определения релевантности и связности. Это пример для QwQ-32B (из Figure 10 в статье):

<|im_start|>system
You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step. When solving reasoning problems:

**Relevance**: Every step must be well-grounded in the question and address a necessary part of the solution.

**Coherence**: Every step must logically follow from the preceding steps, forming a consistent chain of reasoning.

Make sure each step satisfies both criteria.<|im_end|>

Пояснение: Добавлены три строки (выделены в оригинале): определение релевантности, определение связности, инструкция проверять оба критерия на каждом шаге. Остальное — стандартный системный промпт модели. Для DeepSeek-70B структура аналогична, но с адаптацией под формат модели.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для дебага сложных рассуждений

Если модель выдала длинную цепочку рассуждений, но ответ неверный — попроси её оценить каждый шаг по релевантности и связности:

Вот моё решение задачи [задача]:

[твоё решение]

Оцени каждый шаг по двум критериям:
1. Релевантность: шаг решает часть задачи? (да/нет + почему)
2. Связность: шаг следует из предыдущих? (да/нет + почему)

Найди первый шаг, где нарушен хотя бы один критерий.

Модель укажет где сломалась логика — это точнее, чем просить "найди ошибку" (она может упустить нерелевантность или скачок в логике).

📌

🔧 Техника: Числовая самооценка → видимость качества

Добавь промежуточные оценки после каждого шага:

После каждого шага рассуждения оцени:
- Релевантность (1-5): насколько шаг касается задачи
- Связность (1-5): насколько логично следует из предыдущих

Формат:
[Шаг N] {твой шаг}
[Оценка] Релевантность: X/5, Связность: Y/5

Если оценка < 4 — пересмотри шаг.

Эффект: Модель делает самопроверку явной, ты видишь где она сомневается. Если оценки падают к концу цепочки — вероятно, логика сбилась.

📌

💡 Адаптация для командной работы / мультиагентных дискуссий

Комбинируй с методами типа INoT (многоагентная дискуссия): каждый агент не только предлагает решение, но и критикует предыдущие шаги по релевантности и связности:

Agent_A: Предложи решение задачи.

Agent_B: Оцени решение Agent_A:
- Какие шаги нерелевантны (не про задачу)?
- Где нарушена связность (скачки в логике)?

Agent_A: Скорректируй решение на основе критики.

Эффект: Критика становится конкретнее — не "это неправильно", а "шаг 3 не следует из шага 2" или "шаг 5 вообще не про вопрос".


🔗

Ресурсы

What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation

Heejin Do, Jaehui Hwang, Dongyoon Han, Seong Joon Oh, Sangdoo Yun

ETH Zürich, NAVER AI Lab, University of Tübingen

Релизнули бенчмарки MRa-GSM8K и MRa-MATH с экспертными оценками шагов.

Упоминают работы:

  • MR-GSM8K (Zeng et al., 2025) и MR-MATH (Xia et al., 2025) — исходные meta-reasoning бенчмарки
  • PRM (Lightman et al., 2024) — Process Reward Models
  • s1K dataset (Muennighoff et al., 2025) — baseline для SFT

📋 Дайджест исследования

Ключевая суть

Модель может сделать математически правильный шаг, но он будет не про задачу. Или правильный, но без связи с предыдущим контекстом. Такие рассуждения ломаются в два раза чаще – правильный ответ в 24% случаев против 52% у решений с сохранением релевантности и связности. Метод добавляет в промпт два явных критерия: релевантность (шаг решает конкретную часть задачи) и связность (шаг следует из предыдущих). Это работает как внутренний чеклист для модели – не просто "реши правильно", а "каждый шаг должен быть про задачу И логично вытекать из предыдущих". +1.1 точности на AIME24/AIME25 без дообучения – просто изменение системного промпта.

Принцип работы

Модель генерирует токен за токеном, не видя всю цепочку заранее. Может сделать локально корректный шаг, но нерелевантный (не про задачу) или несвязный (без логической связи с предыдущим). Пример: при анализе бизнес-идеи модель уходит в общие рассуждения про экономику или прыгает между темами без переходов. Явные критерии в промпте создают фреймворк самопроверки. На каждом шаге модель "держит в голове" релевантность и связность, генерирует текст так, чтобы им соответствовать. Это как чеклист на производстве – каждая деталь проходит два контроля ("про задачу?" и "следует из предыдущего?") перед тем как попасть в финальную сборку.

Почему работает

LLM следуют явным инструкциям лучше, чем неявным ожиданиям. Когда в промпте написано "каждый шаг должен решать часть задачи" и "должен следовать из предыдущих" – модель использует это как внутренний фильтр при генерации. Фокус на структуре рассуждений, а не только на правильности ответа. Модели часто делают правильную математику, но в вакууме – шаг корректен сам по себе, но не связан с задачей. Критерии заставляют проверять не "правильно ли?", а "про что этот шаг?" и "почему он следует сейчас?". Это особенно мощно для рассуждающих моделей (QwQ, DeepSeek-R1), которые делают длинные цепочки шагов – критерии направляют их в нужное русло, вместо блужданий по касательным темам.

Когда применять

Многошаговый анализ и планирование – когда задача требует 5+ шагов рассуждений. Конкретно: стратегический анализ бизнес-идей, юридическая оценка ситуации, проектирование архитектуры системы, финансовое моделирование с несколькими переменными. Особенно полезно когда модель уходит в общие рассуждения или прыгает между темами. Критерии возвращают фокус на конкретную задачу. НЕ подходит для простых вопросов ("сколько стоит доллар?", "переведи текст") – там критерии только раздувают промпт без пользы. Используй для задач где видишь "модель правильно рассуждает, но не про то".

Мини-рецепт

1. Добавь определения в начало промпта:
- Релевантность: каждый шаг напрямую касается задачи, решает её конкретную часть
- Связность: каждый шаг логически следует из предыдущих выводов

2. Попроси следовать критериям: "При решении следуй двум принципам: релевантность и связность на каждом шаге"

3. Опционально – дай примеры: Покажи "хороший" и "плохой" шаг для твоей области. Модель точнее поймёт что требуется. Например, для бизнес-анализа: плохой шаг = "рынок растёт" (слишком общо), хороший = "категория умной техники на WB выросла на 30% за год" (конкретно про задачу).

4. Для усиления контроля: Добавь "оцени релевантность каждого шага от 1 до 5" – модель делает промежуточную самооценку, это направляет генерацию.

Примеры

[ПЛОХО] : Ты эксперт по стратегии. Оцени идею запуска категории "умная техника" на Wildberries в 2026. Проанализируй спрос, конкуренцию, логистику, маржу. (Модель выдаст общие рассуждения про "рынок умной техники растёт", "конкуренция высокая" – без привязки к специфике WB и без логических переходов между темами)
[ХОРОШО] : Ты эксперт по стратегии маркетплейсов. При анализе следуй двум принципам: Релевантность: Каждый аргумент напрямую касается запуска категории "умная техника" на Wildberries – не общие рассуждения про рынок. Связность: Каждый вывод логически следует из предыдущих фактов. Вопрос: Стоит ли запускать категорию в 2026? Проанализируй: спрос, конкуренцию, логистику, маржу. (Модель выдаст структурированный анализ: "Спрос на WB растёт 30% → высокая конкуренция с Озоном → нужна премиум-доставка → снижает маржу → категория рискованна без УТП". Каждый шаг про WB, каждый следует из предыдущего)
Источник: What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation
ArXiv ID: 2510.20603 | Сгенерировано: 2026-01-11 23:33

Методы

МетодСуть
Два измерения качества шагов — релевантность + связностьЧто делать: Добавь в системный промпт определения двух критериев. Релевантность: шаг решает конкретную часть задачи, не уходит в общие рассуждения. Связность: шаг логически следует из предыдущих, нет скачков без объяснения. Попроси модель следовать этим критериям на каждом шаге рассуждения. Шаблон: "При решении следуй двум принципам: [определение релевантности], [определение связности]". Почему работает: Явные критерии в промпте = внутренний чеклист при генерации. Модель на каждом токене "держит в голове" эти правила и корректирует вывод. Особенно эффективно для длинных цепочек рассуждений. Когда применять: многошаговый анализ (5+ шагов), планирование, принятие решений, стратегические вопросы. Когда НЕ работает: простые вопросы из 1-2 шагов (избыточность), задачи где "связность" не критична (списки, перечисления)

Тезисы

ТезисКомментарий
Нерелевантные или несвязные шаги убивают точность в 2 разаЧто это: Модель может сделать математически корректный шаг, но он будет не про задачу (нерелевантен) или не следовать из предыдущего контекста (несвязен). Пример: в бизнес-анализе модель уходит в общие рассуждения про экономику (нерелевантно) или прыгает с темы на тему без связи (несвязно). Механика: Такие шаги ломают всю цепочку. Даже если остальные шаги верны, один нерелевантный/несвязный снижает шанс правильного финального ответа с 52% до 24%. Применяй: В сложных задачах явно пропиши что каждый шаг должен быть про конкретную часть вопроса И следовать из предыдущих. Не надейся на автоматическую связность
📖 Простыми словами

Relevance + Coherence: два измерения качества рассуждений LLM

arXiv: 2510.20603

Суть в том, что нейронки рассуждают не как гении, а как генераторы вероятностей, которые выплевывают слова по очереди. Проблема в том, что модель может выдать правильный ответ, но прийти к нему через полную дичь, или наоборот — писать очень красиво, но абсолютно не по делу. Исследование 2510.20603 доказывает: чтобы AI перестал тупить, нужно оценивать не весь текст целиком, а каждый отдельный шаг через фильтр релевантности и связности. Если шаг не двигает решение вперед или взялся из ниоткуда — вся цепочка рассуждений идет коту под хвост.

Это как если бы ты попросил друга помочь с ремонтом, а он начал бы с того, что купил обои, потом вдруг переключился на обсуждение цен на нефть, а в конце заявил, что ремонт закончен, потому что он помыл руки. Формально действия совершены, но связи между ними нет, а обсуждение нефти вообще не приближает тебя к поклеенным обоям. Модели часто ведут себя именно так: они галлюцинируют логикой, создавая видимость работы там, где на самом деле происходит бессвязный набор фактов.

Чтобы это исправить, в промпте нужно четко прописать два правила: релевантность (каждое предложение должно решать кусок конкретной задачи) и связность (каждая новая мысль должна железно вытекать из предыдущей). Когда ты заставляешь модель проверять саму себя по этим критериям на каждом шаге, точность взлетает. Это работает как внутренний редактор, который бьет модель по рукам каждый раз, когда она пытается уйти в философские дебри или перепрыгнуть через три логических ступеньки.

Метод тестировали на сложных задачах, но принцип универсален для любого бизнеса. Если ты менеджер на маркетплейсе и просишь AI проанализировать нишу «умного дома», без этих ограничений модель выдаст тебе общую справку из Википедии. Но если внедрить пошаговый контроль, она будет вынуждена сначала оценить спрос, затем логически перейти к конкурентам и только потом — к финмодели. Логика на привязи превращает бесполезный чат-бот в аналитический инструмент, который не просто «болтает», а реально решает проблему.

Короче: хватит надеяться на «магию» больших моделей — они лажают в логике чаще, чем кажется. Нужно внедрять многоаспектную оценку шагов прямо в инструкции, заставляя AI следить за чистотой своих мыслей. Либо ты контролируешь каждый поворот её извилистой мысли, либо получаешь уверенно написанную чушь с правильным ответом в конце, который совпал чисто случайно. Кто научит свои промпты фильтровать этот белый шум, тот получит предсказуемый результат вместо лотереи.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с