TL;DR
Исследователи показали, что качество рассуждений LLM определяется не только правильностью ответа, но и двумя критериями на уровне каждого шага: релевантность (шаг решает конкретную часть задачи) и связность (шаг логически следует из предыдущих). В промпте можно явно попросить модель следить за этими аспектами — и точность улучшается.
Главная находка: Решения с неправильными шагами, но сохраняющие релевантность и связность, в 2 раза чаще дают правильный финальный ответ, чем те, где нарушен хотя бы один аспект (52% против 24%). Модели часто делают локально корректные, но нерелевантные шаги (не про задачу) или несвязные (не следуют из предыдущего контекста) — это ломает цепочку рассуждений, даже если математика верна.
Суть метода: Добавь в промпт определения релевантности и связности + инструкцию следовать им на каждом шаге. Это работает как внутренний чеклист для модели: не просто "реши правильно", а "каждый шаг должен быть про задачу И логично следовать из предыдущих". Тесты на AIME24/AIME25 показали +1.1 accuracy без дообучения — просто изменение системного промпта.
Схема метода
ШАГ 1: Определи в промпте релевантность и связность
ШАГ 2: Попроси модель следовать этим критериям на каждом шаге рассуждения
→ Модель генерирует решение с явным контролем качества
Всё происходит в одном промпте, без дополнительных запросов.
Пример применения
Задача: Ты менеджер маркетплейса, анализируешь идею запуска новой категории — "умная техника для дома" на Wildberries. Нужно оценить перспективность.
Промпт:
Ты эксперт по стратегии маркетплейсов. При анализе следуй двум принципам:
**Релевантность:** Каждый аргумент должен напрямую касаться запуска категории "умная техника для дома" на Wildberries — не общие рассуждения про рынок.
**Связность:** Каждый вывод должен логически следовать из предыдущих фактов и аргументов.
Вопрос: Стоит ли запускать категорию "умная техника для дома" на Wildberries в 2026 году?
Проанализируй: спрос, конкуренцию, логистические барьеры, маржинальность.
Результат:
Модель выдаст структурированный анализ по каждому пункту (спрос, конкуренция, логистика, маржа), где каждый аргумент будет про конкретную категорию на WB (релевантность), а выводы будут логически следовать из фактов выше (связность). Например: "Спрос растёт на 30% → высокая конкуренция с Озоном → нужна премиум-доставка → снижает маржу → вывод: категория рискованна без уникального УТП".
Без этих критериев модель может выдать общие рассуждения про "рынок умной техники растёт" (нерелевантно для WB) или прыгать между темами без связи (несвязно).
Почему это работает
Слабость LLM: Модели генерируют токен за токеном, не видя всю цепочку рассуждений заранее. Они могут сделать корректный шаг локально, но этот шаг может быть не про задачу (нерелевантен) или не следовать из предыдущего контекста (несвязен). Пример: при анализе бизнес-идеи модель может уйти в общие рассуждения про экономику или перепрыгнуть с темы на тему без логического перехода.
Сильная сторона LLM: Модели хорошо следуют явным инструкциям в промпте, особенно если они формализованы и повторяются. Когда в промпте чётко написано "каждый шаг должен решать часть задачи" и "должен следовать из предыдущих" — модель использует это как внутренний чеклист при генерации.
Как метод использует это: Добавление определений релевантности и связности в промпт создаёт фреймворк для самопроверки. Модель на каждом шаге "держит в голове" эти критерии и генерирует текст так, чтобы им соответствовать. Это особенно эффективно для рассуждающих моделей (QwQ, DeepSeek-R1), которые умеют делать длинные цепочки шагов — критерии направляют их в нужное русло.
Рычаги управления промптом:
- Детализация критериев → добавь примеры "хорошего" и "плохого" шага для каждого аспекта → модель точнее понимает что требуется
- Числовые параметры → "оцени релевантность каждого шага от 1 до 5" → модель делает промежуточную самооценку, это усиливает контроль
- Инструкции вывода → убери "without explanation" → увидишь как модель проверяет себя по критериям
- Уровень формализации → замени определения на конкретные примеры из твоей области → модель адаптирует критерии под контекст
Шаблон промпта
Ты эксперт в {область}. При решении задачи следуй двум принципам:
**Релевантность:** Каждый шаг должен напрямую касаться {задача} и решать конкретную её часть. Избегай общих рассуждений, не связанных с вопросом.
**Связность:** Каждый следующий шаг должен логически следовать из предыдущих выводов и фактов. Не делай скачков без объяснения перехода.
Задача: {задача}
{дополнительный_контекст}
Плейсхолдеры:
{область}— твоя экспертная зона (стратегия, маркетинг, финансы, юриспруденция){задача}— конкретный вопрос или проблема{дополнительный_контекст}— факты, данные, ограничения (опционально)
Адаптация: Можешь добавить конкретные примеры "релевантного" и "нерелевантного" шага для твоей области — модель точнее поймёт критерии.
Ограничения
⚠️ Избыточность для простых задач: Если вопрос решается в 1-2 шага (например, "сколько стоит доллар?"), явные критерии только раздувают промпт без пользы. Используй метод для многошаговых рассуждений: анализ, планирование, принятие решений.
⚠️ Добавляет токены: Определения + инструкции занимают ~100-150 токенов. Для коротких запросов это заметный overhead. Компенсируется качеством для сложных задач.
⚠️ Не гарантирует корректность: Метод улучшает структуру рассуждений (релевантность, связность), но не защищает от фактических ошибок. Модель может релевантно и связно рассуждать на основе неверной предпосылки. Для критичных задач добавь проверку фактов или используй web search.
Как исследовали
Команда создала два бенчмарка: MRa-GSM8K и MRa-MATH — взяли решения математических задач, сгенерированные разными моделями, и попросили экспертов по математическому образованию оценить каждый шаг по трём критериям: правильность, релевантность, связность. Получили 6 аннотаторов с Upwork, каждый разметил 100 задач. Интересно: 5 из 6 сказали, что оценивать релевантность и связность отдельно от правильности — это полезно для понимания качества рассуждений.
Главное открытие: Среди решений с неправильными шагами, те, что сохраняли релевантность и связность, в 2 раза чаще давали правильный финальный ответ (52% против 24%). Это показало, что эти аспекты — не абстрактные метрики, а предикторы успеха в решении задачи.
Проверили на inference-time guidance: добавили в системный промпт QwQ-32B и DeepSeek-R1-70B определения релевантности и связности + инструкцию следовать им. Результат: +1.1 accuracy на AIME24/AIME25 (сложные математические олимпиады) без какого-либо дообучения. Сравнивали с контролем, где просили только "шаги должны быть корректны" — эффект меньше. Вывод: релевантность и связность — это не то же самое, что правильность, и они дают дополнительное улучшение.
Разработали метод CaSE (Causal Stepwise Evaluation), который оценивает каждый шаг рассуждения, используя только предшествующий контекст — как будто читаешь решение по порядку, не зная финала. Это избегает hindsight bias (когда судишь шаг, зная что дальше). Протестировали на 7 моделях от 3.5B до 72B параметров — CaSE лучше совпадает с экспертными оценками, чем baseline (где модель видит всё решение сразу). Эффект особенно силён на маленьких моделях (Phi-3.5-mini, Qwen2.5-7B), которые склонны "подглядывать" в будущие шаги.
Применили CaSE для фильтрации данных для дообучения: отсеяли шаги с низкой релевантностью/связностью из датасета s1K. Модели, обученные на отфильтрованных данных, показали выше accuracy на MATH, GPQA, AIME24 — +6.67 на релевантности, +13.33 на связности для Qwen-32B. Важный нюанс: улучшение было даже на маленьких моделях (4B), значит, качество данных важнее размера модели на ранних этапах.
Почему это сработало: Исследователи опирались на практику математического образования, где учителя оценивают не только правильность ответа, но и процесс решения — понимание задачи, логика переходов, обоснование шагов. Перенесли этот подход на LLM: если модель "учится" на данных с высокой релевантностью и связностью, она лучше интернализует структуру хороших рассуждений, а не просто запоминает паттерны.
Оригинал из исследования
Контекст: Исследователи модифицировали системный промпт для QwQ-32B и DeepSeek-R1-70B, добавив определения релевантности и связности. Это пример для QwQ-32B (из Figure 10 в статье):
<|im_start|>system
You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step. When solving reasoning problems:
**Relevance**: Every step must be well-grounded in the question and address a necessary part of the solution.
**Coherence**: Every step must logically follow from the preceding steps, forming a consistent chain of reasoning.
Make sure each step satisfies both criteria.<|im_end|>
Пояснение: Добавлены три строки (выделены в оригинале): определение релевантности, определение связности, инструкция проверять оба критерия на каждом шаге. Остальное — стандартный системный промпт модели. Для DeepSeek-70B структура аналогична, но с адаптацией под формат модели.
Адаптации и экстраполяции
💡 Адаптация для дебага сложных рассуждений
Если модель выдала длинную цепочку рассуждений, но ответ неверный — попроси её оценить каждый шаг по релевантности и связности:
Вот моё решение задачи [задача]:
[твоё решение]
Оцени каждый шаг по двум критериям:
1. Релевантность: шаг решает часть задачи? (да/нет + почему)
2. Связность: шаг следует из предыдущих? (да/нет + почему)
Найди первый шаг, где нарушен хотя бы один критерий.
Модель укажет где сломалась логика — это точнее, чем просить "найди ошибку" (она может упустить нерелевантность или скачок в логике).
🔧 Техника: Числовая самооценка → видимость качества
Добавь промежуточные оценки после каждого шага:
После каждого шага рассуждения оцени:
- Релевантность (1-5): насколько шаг касается задачи
- Связность (1-5): насколько логично следует из предыдущих
Формат:
[Шаг N] {твой шаг}
[Оценка] Релевантность: X/5, Связность: Y/5
Если оценка < 4 — пересмотри шаг.
Эффект: Модель делает самопроверку явной, ты видишь где она сомневается. Если оценки падают к концу цепочки — вероятно, логика сбилась.
💡 Адаптация для командной работы / мультиагентных дискуссий
Комбинируй с методами типа INoT (многоагентная дискуссия): каждый агент не только предлагает решение, но и критикует предыдущие шаги по релевантности и связности:
Agent_A: Предложи решение задачи.
Agent_B: Оцени решение Agent_A:
- Какие шаги нерелевантны (не про задачу)?
- Где нарушена связность (скачки в логике)?
Agent_A: Скорректируй решение на основе критики.
Эффект: Критика становится конкретнее — не "это неправильно", а "шаг 3 не следует из шага 2" или "шаг 5 вообще не про вопрос".
Ресурсы
What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation
Heejin Do, Jaehui Hwang, Dongyoon Han, Seong Joon Oh, Sangdoo Yun
ETH Zürich, NAVER AI Lab, University of Tübingen
Релизнули бенчмарки MRa-GSM8K и MRa-MATH с экспертными оценками шагов.
Упоминают работы:
- MR-GSM8K (Zeng et al., 2025) и MR-MATH (Xia et al., 2025) — исходные meta-reasoning бенчмарки
- PRM (Lightman et al., 2024) — Process Reward Models
- s1K dataset (Muennighoff et al., 2025) — baseline для SFT
