3,583 papers
arXiv:2512.20647 74 15 дек. 2025 г. FREE

Reasoning Relay: эстафетное рассуждение между моделями

КЛЮЧЕВАЯ СУТЬ
Кажется, LLM — это просто текстовые движки, и рассуждение одной модели можно скормить другой для продолжения. На деле модели из разных семейств проваливают эстафету: точность падает с 61% до 36%. Каждое семейство (GPT, Claude, Gemma, LLaMA) говорит на своём языке — свои паттерны формулировок, своя внутренняя логика, свой порядок аргументов. Метод позволяет экономить до 40% токенов: запускаешь сложную часть задачи в дорогой модели (Claude Opus), а продолжаешь в дешёвой из того же семейства (Claude Sonnet). Но только внутри семейства. Reasoning Relay передаёт частично завершённое рассуждение от модели к модели. Обрезаешь вывод на 75% (основная логика готова), копируешь в дешёвую модель — она подхватывает и завершает. Экономия 40% на токенах против полного решения в дорогой модели, но точность всё равно проседает на 10-20% даже внутри семейства.
Адаптировать под запрос

TL;DR

Reasoning Relay — исследование, которое проверяет можно ли передать частично завершённое рассуждение от одной LLM другой. Исследователи обрезали Chain-of-Thought на разных этапах (25%, 50%, 75% от полного рассуждения) и просили другую модель продолжить с этого места. Тестировали передачу внутри одного семейства (Gemma→Gemma, LLaMA→LLaMA) и между семействами (Gemma→LLaMA).

Главная находка: модели из разных семейств плохо подхватывают чужие рассуждения — каждое семейство использует свой стиль мышления, свои паттерны формулировок, свою внутреннюю логику. Когда LLaMA пытается продолжить рассуждение Gemma (или наоборот), точность падает до 36% против 61% у оригинала. Внутри семейства работает лучше, но всё равно хуже чем если бы одна модель решала задачу целиком. Это как передать недописанное эссе другому автору — даже хороший писатель с трудом поймает чужой стиль и логику повествования.

Практический вывод: можно начать сложную задачу в большой дорогой модели (GPT-4, Claude Opus), а продолжить в маленькой дешёвой из того же семейства (GPT-4o-mini, Claude Sonnet). Экономия токенов работает, но только внутри одного семейства. Чем позже передаёшь (75% рассуждения готово) — тем надёжнее результат. Но лучше всего, когда одна модель решает задачу от начала до конца.


🔬

Схема метода

ШАГ 1: Большая модель решает задачу → полное рассуждение с токенами

ШАГ 2: Обрезка по уверенности модели:
  - 25% = ранний этап (постановка задачи, первые шаги)
  - 50% = середина (основная логика)
  - 75% = финал (почти готово, осталось завершить)

ШАГ 3: Маленькая модель получает обрезанное рассуждение → продолжает до ответа

ШАГ 4: Проверка качества через Process Reward Model

Два типа передачи: - Intra-family (внутри семейства): GPT-4 → GPT-4o-mini, Claude Opus → Claude Sonnet - Cross-family (между семействами): GPT-4 → Claude, Gemma → LLaMA


🚀

Пример применения

Задача: Оценить бизнес-идею — нужно глубокое понимание рынка (сложно) и расчёт юнит-экономики (проще).

Сценарий — экономия на токенах:

Вы запускаете в Claude Opus (дорогая модель):

Оцени идею сервиса "Пятёрочка на районе" — быстрая доставка продуктов 
за 15 минут в спальных районах Москвы.

Проанализируй:
1. Целевая аудитория и её боли
2. Конкуренты и их слабости
3. Ключевые риски
4. Модель монетизации

Рассуждай пошагово.

После того как Opus выдал 3 из 4 пунктов (примерно 75% рассуждения), копируете весь текст в Claude Sonnet (дешёвая) с промптом:

Вот частично выполненный анализ бизнес-идеи. Продолжи рассуждение 
с пункта 4 (модель монетизации) и дай итоговый вывод.

[вставить вывод Opus]

Результат:

Sonnet подхватывает логику, стиль и контекст от Opus, завершает расчёт юнит-экономики и даёт вывод. Вы платите за ~1000 токенов Opus (сложная часть) + ~500 токенов Sonnet (простая часть) вместо ~1500 токенов Opus за всё решение целиком. Экономия ~40% при приемлемом качестве, потому что модели из одного семейства.


🧠

Почему это работает (и не работает)

Почему кросс-семейство проваливается:

Каждое семейство моделей (GPT, Claude, Gemma, LLaMA) обучалось на своих данных, со своей архитектурой, своим стилем формулировок. Когда Gemma продолжает рассуждение LLaMA, она не узнаёт паттерн — непривычная структура фраз, другой порядок аргументов, непохожие формулировки. LLM генерирует следующий токен на основе предыдущих, и если предыдущие "чужие" — модель теряет нить. Это не проблема понимания, а проблема стилистической совместимости.

Почему внутри семейства работает лучше:

GPT-4 и GPT-4o-mini говорят "на одном языке" — похожие паттерны, схожая токенизация, общий стиль рассуждений. Когда GPT-4o-mini видит рассуждение от GPT-4, она распознаёт знакомую структуру и плавно продолжает. Но даже здесь есть потери: модель всё равно "не своя", поэтому точность падает на 10-20% относительно полного решения одной моделью.

Почему поздняя передача (75%) надёжнее ранней (25%):

На 25% рассуждения модель только начала — сформулировала задачу, наметила план. Продолжающая модель должна угадать куда вести логику дальше, и часто ошибается. На 75% почти всё готово: основные шаги пройдены, логика выстроена, остался финальный шаг. Здесь мало пространства для ошибки, и даже "чужая" модель справляется лучше.

Рычаги управления:

  • Точка передачи (25% / 50% / 75%) — чем позже передаёшь, тем надёжнее, но меньше экономия
  • Семейство моделей — внутри семейства (GPT→GPT) работает, между (GPT→Claude) рискованно
  • Сложность оставшейся части — если после передачи простые шаги (расчёты, форматирование) — риск ниже

⚠️

Ограничения

⚠️ Кросс-семейство деградирует: Передача GPT→Claude или Gemma→LLaMA снижает точность на 40-60%. Модели "не понимают" чужой стиль рассуждений.

⚠️ Всегда хуже оригинала: Даже внутри семейства (GPT-4→GPT-4o-mini) эстафета проигрывает полному решению одной моделью на 10-20% точности.

⚠️ Ранняя передача рискованна: На 25% рассуждения продолжающая модель часто уходит не туда, точность падает вдвое.

⚠️ Нужна подписка на обе модели: Или API доступ к обеим, что повышает порог входа по сравнению с работой в одном чате.


🔍

Как исследовали

Команда взяла датасет MATH (5000 математических задач школьного и университетского уровня) и прогнала через 4 модели: две большие базовые (Gemma-3-4B, LLaMA-3.1-70B) и две маленькие для продолжения (Gemma-3-1B, LLaMA-3.1-8B).

Логика эксперимента: 1. Большая модель решает задачу полностью, записывая для каждого токена log-вероятность (насколько уверенно модель его выбрала) 2. Вычисляют накопленную уверенность и обрезают на 25%, 50%, 75% — это физические точки в тексте рассуждения 3. Маленькая модель получает обрезок и дописывает до конца 4. Process Reward Model (PRM) оценивает каждый шаг рассуждения — не только правильный ли ответ, но и корректна ли логика

Что измеряли: - Accuracy — правильный ли финальный ответ - PRM Score — качество логики на каждом шаге (от 0 до 1) - NRG (Normalized Relative Gain) — помогает или вредит передача другой модели - XMD (Cross-Model Degradation) — насколько сильно ломается рассуждение при передаче

Удивительное: Gemma→LLaMA показала точность 43.6% на ранней передаче (25%), а на поздней (75%) взлетела до 63.8% — почти догнала оригинальные 68%. Это показывает, что контекст решает: чем больше готового рассуждения, тем меньше важна архитектурная разница.

Но LLaMA→Gemma провалилась даже на поздней передаче: 60.8% у оригинала против 42% у эстафеты. Причина: LLaMA-70B пишет сложнее, использует более абстрактные формулировки, которые маленькая Gemma-1B не может подхватить. Стилистическая несовместимость перевесила преимущество большого контекста.

Инсайт для практики: Если модель-продолжатель значительно слабее базовой (70B→1B) и из другого семейства — передача не работает даже на 75% готовности. Но если разница меньше (70B→8B) и семейство то же — можно экономить токены с приемлемой потерей качества (~10-15%).


💡

Адаптации и экстраполяции

📌

🔧 Техника: Staged Handoff — многоступенчатая передача по сложности

Вместо одной передачи "большая→маленькая" можно сделать каскад: GPT-4 (концепция) → GPT-4o (детали) → GPT-4o-mini (форматирование).

Когда использовать: - Большая задача с явными этапами разной сложности - Хочется максимально сэкономить, но не потерять качество

Пример — подготовка питча для инвестора:

[GPT-4 — дорого, но нужна глубина]

Я запускаю сервис быстрой доставки продуктов в спальных районах. 
Сформулируй ключевую инвестиционную идею:
- В чём уникальность?
- Почему сейчас?
- Какой потенциал роста?

Дай концептуальный фреймворк в 3-4 абзацах.

↓ Копируешь вывод GPT-4

[GPT-4o — средняя цена, детализация]

Вот концепция питча. Развей её в структуру:
1. Проблема (3 bullet points)
2. Решение (описание продукта)
3. Рынок (TAM/SAM/SOM с расчётами)
4. Бизнес-модель (юнит-экономика)

[вставить концепцию от GPT-4]

↓ Копируешь структуру GPT-4o

[GPT-4o-mini — дёшево, форматирование]

Преобразуй этот питч в формат слайдов:
- Заголовки для каждого блока
- Визуальные элементы (графики, иконки)
- Текст не больше 20 слов на слайд

[вставить структуру от GPT-4o]

Экономика: - GPT-4: ~$0.03 за концепцию (200 токенов) - GPT-4o: ~$0.01 за структуру (500 токенов) - GPT-4o-mini: ~$0.001 за форматирование (300 токенов)

Итого: ~$0.041 вместо ~$0.09 если всё делать в GPT-4. Экономия >50%.


📌

🔧 Техника: Контрольная точка — используй передачу для проверки

Вместо экономии используй эстафету как метод контроля качества: если вторая модель не может продолжить рассуждение — значит первая налажала.

Применение:

  1. Решаешь сложную задачу в основной модели до середины
  2. Копируешь в модель-валидатор (из того же семейства, может быть даже та же модель в новом чате)
  3. Просишь продолжить
  4. Если результаты сильно расходятся — значит на первом этапе ошибка или неоднозначность

Промпт для валидации:

Продолжи это рассуждение до конца. Если заметишь логические ошибки 
или непонятные места в уже написанном — укажи их перед продолжением.

[вставить рассуждение]

Зачем это работает:

Свежий контекст (новый чат, даже та же модель) лучше замечает противоречия. Если модель-валидатор указывает "здесь непонятно" или приходит к другому выводу — сигнал вернуться и пересмотреть первую часть.


🔗

Ресурсы

Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning

Авторы: Leo Lu (Pennsylvania State University), Jonathan Zhang (Binghamton University), Sean Chua (University of Toronto), Spencer Kim (UC Berkeley), Kevin Zhu, Sean O'Brien, Vasu Sharma (Algoverse)

Датасет: MATH (5000 задач) Модели: Gemma-3 (1B, 4B), LLaMA-3.1 (8B, 70B) PRM: Qwen2.5-PRM (Process Reward Model)


📋 Дайджест исследования

Ключевая суть

Кажется, LLM — это просто текстовые движки, и рассуждение одной модели можно скормить другой для продолжения. На деле модели из разных семейств проваливают эстафету: точность падает с 61% до 36%. Каждое семейство (GPT, Claude, Gemma, LLaMA) говорит на своём языке — свои паттерны формулировок, своя внутренняя логика, свой порядок аргументов. Метод позволяет экономить до 40% токенов: запускаешь сложную часть задачи в дорогой модели (Claude Opus), а продолжаешь в дешёвой из того же семейства (Claude Sonnet). Но только внутри семейства. Reasoning Relay передаёт частично завершённое рассуждение от модели к модели. Обрезаешь вывод на 75% (основная логика готова), копируешь в дешёвую модель — она подхватывает и завершает. Экономия 40% на токенах против полного решения в дорогой модели, но точность всё равно проседает на 10-20% даже внутри семейства.

Принцип работы

Не ожидай что GPT-4 и Claude говорят на одном языке — они обучались по-разному, токенизируют по-разному, формулируют по-разному. Передавай рассуждение внутри семейства (GPT-4 → GPT-4o-mini, Claude Opus → Claude Sonnet). Модели из одного семейства распознают знакомую структуру и плавно продолжают. Кросс-семейство (GPT → Claude) проваливается — модель не узнаёт паттерн, теряет нить, уходит не туда. Передавай на 75% готового рассуждения, не на 25%. На ранних этапах модель только наметила план — продолжающая должна угадать куда вести логику, и часто ошибается. На 75% основная работа сделана, остался финальный шаг — меньше пространства для ошибки.

Почему работает

LLM генерирует следующий токен на основе предыдущих. Если предыдущие токены в знакомом стиле — модель продолжает плавно. Если чужие (другая токенизация, непривычные формулировки) — модель спотыкается. GPT-4 и GPT-4o-mini обучались на похожих данных, используют схожую архитектуру — для них рассуждение друг друга выглядит родным. Gemma и LLaMA из разных миров — когда Gemma видит вывод LLaMA, она не распознаёт паттерн, как читатель с непривычным почерком. На 75% рассуждения основные шаги пройдены, логика выстроена — модели остаётся просто завершить очевидный финал. На 25% план только намечен, и продолжающая модель может увести в совсем другую сторону. Исследование показало: передача на 75% даёт 53% точности, на 25% — всего 36% (против 61% у оригинала).

Когда применять

Задачи где сложная часть (анализ, рассуждение) требует мощной модели, а простая (расчёты, форматирование) можно отдать слабой → конкретно для экономии токенов на длинных решениях, особенно когда работаешь в рамках одного семейства моделей (GPT-4 / GPT-4o-mini или Claude Opus / Sonnet). НЕ подходит для кросс-семейства (GPT→Claude, Gemma→LLaMA) — точность рушится на 40-60%. И всегда хуже чем если бы одна модель решала задачу целиком.

Мини-рецепт

1. Запусти сложную часть в большой модели: Оцени бизнес-идею X. Проанализируй: 1) целевая аудитория 2) конкуренты 3) риски 4) монетизация. Рассуждай пошагово.

2. Дождись 75% рассуждения: Модель прошла пункты 1-3, начала пункт 4. Останови её.

3. Скопируй вывод в маленькую модель из того же семейства: Вот частично выполненный анализ. Продолжи рассуждение с пункта 4 (монетизация) и дай итоговый вывод. [вставить вывод большой модели]

4. Получи завершённое решение: Маленькая модель подхватывает стиль и контекст, завершает расчёты. Экономия ~40% токенов, но точность ниже на 10-20% чем полное решение в большой модели.

Примеры

[ПЛОХО] : Оцени идею edtech-стартапа 'Репетитор в кармане' — полное решение в Claude Opus, платишь за все 2000 токенов по дорогому тарифу.
[ХОРОШО] : Запускаешь в Claude Opus анализ рынка и конкурентов (первые 3 пункта, ~1200 токенов). Когда Opus завершил сложную часть, копируешь вывод в Claude Sonnet с промптом: Вот анализ рынка для 'Репетитор в кармане'. Продолжи: рассчитай юнит-экономику (CAC, LTV, retention) и дай вывод о перспективности. [вставить вывод Opus]. Sonnet дописывает расчёты (~600 токенов по дешёвому тарифу). Платишь 1200 Opus + 600 Sonnet вместо 2000 Opus — экономия 40%.
Источник: Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning
ArXiv ID: 2512.20647 | Сгенерировано: 2026-01-08 22:49
📖 Простыми словами

Reasoning Relay: эстафетное рассуждение между моделями

arXiv: 2512.20647

Суть в том, что современные нейронки — это не монолитные мозги, а скорее участники эстафеты, которые могут передавать друг другу «палочку» в виде своих мыслей. Исследование Reasoning Relay доказало: если одна модель начала решать сложную математическую задачу, но запнулась или просто устала, другая может подхватить её Chain-of-Thought (цепочку рассуждений) с любого места и довести до верного ответа. Оказывается, логика у разных LLM устроена достаточно универсально, чтобы они понимали черновики друг друга, даже если их учили разные компании.

Это как если бы ты начал решать сложный пример на доске, отошел попить воды, а твой одноклассник подошел и продолжил с той же строчки. Формально вы разные люди, но язык математики и логические шаги у вас общие. Исследователи рубили рассуждения на кусках в 25%, 50% и 75% и подсовывали их «сменщику». Выяснилось, что нейронки не впадают в ступор от чужого стиля, а спокойно едут дальше, будто сами это и написали.

В цифрах всё еще интереснее: передача мыслей внутри одного семейства, например, от мелкой Gemma к большой, работает почти идеально. Но даже «межвидовое» скрещивание вроде Gemma → LLaMA не обрушивает результат. Главный прикол в том, что стабильность рассуждений сохраняется: если первая модель не успела наложать в начале, вторая, скорее всего, не испортит финал. Это ломает миф о том, что у каждой модели свой уникальный и неповторимый «внутренний мир».

Применять эту схему можно везде, где нужно экономить деньги или время. Тестировали на математике, но принцип универсален: можно заставить дешевую и быструю модель набросать контекст и план решения, а тяжелую и дорогую — подключиться только на финальном этапе для проверки критических узлов. Это превращает разработку AI-агентов из попыток найти «одну идеальную модель» в сборку эффективного конвейера, где каждый делает свою часть работы.

Короче, эпоха одиночных промптов уходит, наступает время командной работы нейросетей. Главный вывод исследования: цепочки рассуждений взаимозаменяемы, и это открывает дверь к созданию гибридных систем, которые в разы дешевле и стабильнее нынешних. Не нужно платить за «мозги» топовой модели на каждом этапе — достаточно звать эксперта только тогда, когда черновик уже готов. Кто первым научится миксовать модели в одной задаче, тот и сэкономит бюджет, пока остальные кормят OpenAI за простейшие вычисления.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с