TL;DR
Reasoning Relay — исследование, которое проверяет можно ли передать частично завершённое рассуждение от одной LLM другой. Исследователи обрезали Chain-of-Thought на разных этапах (25%, 50%, 75% от полного рассуждения) и просили другую модель продолжить с этого места. Тестировали передачу внутри одного семейства (Gemma→Gemma, LLaMA→LLaMA) и между семействами (Gemma→LLaMA).
Главная находка: модели из разных семейств плохо подхватывают чужие рассуждения — каждое семейство использует свой стиль мышления, свои паттерны формулировок, свою внутреннюю логику. Когда LLaMA пытается продолжить рассуждение Gemma (или наоборот), точность падает до 36% против 61% у оригинала. Внутри семейства работает лучше, но всё равно хуже чем если бы одна модель решала задачу целиком. Это как передать недописанное эссе другому автору — даже хороший писатель с трудом поймает чужой стиль и логику повествования.
Практический вывод: можно начать сложную задачу в большой дорогой модели (GPT-4, Claude Opus), а продолжить в маленькой дешёвой из того же семейства (GPT-4o-mini, Claude Sonnet). Экономия токенов работает, но только внутри одного семейства. Чем позже передаёшь (75% рассуждения готово) — тем надёжнее результат. Но лучше всего, когда одна модель решает задачу от начала до конца.
Схема метода
ШАГ 1: Большая модель решает задачу → полное рассуждение с токенами
ШАГ 2: Обрезка по уверенности модели:
- 25% = ранний этап (постановка задачи, первые шаги)
- 50% = середина (основная логика)
- 75% = финал (почти готово, осталось завершить)
ШАГ 3: Маленькая модель получает обрезанное рассуждение → продолжает до ответа
ШАГ 4: Проверка качества через Process Reward Model
Два типа передачи: - Intra-family (внутри семейства): GPT-4 → GPT-4o-mini, Claude Opus → Claude Sonnet - Cross-family (между семействами): GPT-4 → Claude, Gemma → LLaMA
Пример применения
Задача: Оценить бизнес-идею — нужно глубокое понимание рынка (сложно) и расчёт юнит-экономики (проще).
Сценарий — экономия на токенах:
Вы запускаете в Claude Opus (дорогая модель):
Оцени идею сервиса "Пятёрочка на районе" — быстрая доставка продуктов
за 15 минут в спальных районах Москвы.
Проанализируй:
1. Целевая аудитория и её боли
2. Конкуренты и их слабости
3. Ключевые риски
4. Модель монетизации
Рассуждай пошагово.
После того как Opus выдал 3 из 4 пунктов (примерно 75% рассуждения), копируете весь текст в Claude Sonnet (дешёвая) с промптом:
Вот частично выполненный анализ бизнес-идеи. Продолжи рассуждение
с пункта 4 (модель монетизации) и дай итоговый вывод.
[вставить вывод Opus]
Результат:
Sonnet подхватывает логику, стиль и контекст от Opus, завершает расчёт юнит-экономики и даёт вывод. Вы платите за ~1000 токенов Opus (сложная часть) + ~500 токенов Sonnet (простая часть) вместо ~1500 токенов Opus за всё решение целиком. Экономия ~40% при приемлемом качестве, потому что модели из одного семейства.
Почему это работает (и не работает)
Почему кросс-семейство проваливается:
Каждое семейство моделей (GPT, Claude, Gemma, LLaMA) обучалось на своих данных, со своей архитектурой, своим стилем формулировок. Когда Gemma продолжает рассуждение LLaMA, она не узнаёт паттерн — непривычная структура фраз, другой порядок аргументов, непохожие формулировки. LLM генерирует следующий токен на основе предыдущих, и если предыдущие "чужие" — модель теряет нить. Это не проблема понимания, а проблема стилистической совместимости.
Почему внутри семейства работает лучше:
GPT-4 и GPT-4o-mini говорят "на одном языке" — похожие паттерны, схожая токенизация, общий стиль рассуждений. Когда GPT-4o-mini видит рассуждение от GPT-4, она распознаёт знакомую структуру и плавно продолжает. Но даже здесь есть потери: модель всё равно "не своя", поэтому точность падает на 10-20% относительно полного решения одной моделью.
Почему поздняя передача (75%) надёжнее ранней (25%):
На 25% рассуждения модель только начала — сформулировала задачу, наметила план. Продолжающая модель должна угадать куда вести логику дальше, и часто ошибается. На 75% почти всё готово: основные шаги пройдены, логика выстроена, остался финальный шаг. Здесь мало пространства для ошибки, и даже "чужая" модель справляется лучше.
Рычаги управления:
- Точка передачи (25% / 50% / 75%) — чем позже передаёшь, тем надёжнее, но меньше экономия
- Семейство моделей — внутри семейства (GPT→GPT) работает, между (GPT→Claude) рискованно
- Сложность оставшейся части — если после передачи простые шаги (расчёты, форматирование) — риск ниже
Ограничения
⚠️ Кросс-семейство деградирует: Передача GPT→Claude или Gemma→LLaMA снижает точность на 40-60%. Модели "не понимают" чужой стиль рассуждений.
⚠️ Всегда хуже оригинала: Даже внутри семейства (GPT-4→GPT-4o-mini) эстафета проигрывает полному решению одной моделью на 10-20% точности.
⚠️ Ранняя передача рискованна: На 25% рассуждения продолжающая модель часто уходит не туда, точность падает вдвое.
⚠️ Нужна подписка на обе модели: Или API доступ к обеим, что повышает порог входа по сравнению с работой в одном чате.
Как исследовали
Команда взяла датасет MATH (5000 математических задач школьного и университетского уровня) и прогнала через 4 модели: две большие базовые (Gemma-3-4B, LLaMA-3.1-70B) и две маленькие для продолжения (Gemma-3-1B, LLaMA-3.1-8B).
Логика эксперимента: 1. Большая модель решает задачу полностью, записывая для каждого токена log-вероятность (насколько уверенно модель его выбрала) 2. Вычисляют накопленную уверенность и обрезают на 25%, 50%, 75% — это физические точки в тексте рассуждения 3. Маленькая модель получает обрезок и дописывает до конца 4. Process Reward Model (PRM) оценивает каждый шаг рассуждения — не только правильный ли ответ, но и корректна ли логика
Что измеряли: - Accuracy — правильный ли финальный ответ - PRM Score — качество логики на каждом шаге (от 0 до 1) - NRG (Normalized Relative Gain) — помогает или вредит передача другой модели - XMD (Cross-Model Degradation) — насколько сильно ломается рассуждение при передаче
Удивительное: Gemma→LLaMA показала точность 43.6% на ранней передаче (25%), а на поздней (75%) взлетела до 63.8% — почти догнала оригинальные 68%. Это показывает, что контекст решает: чем больше готового рассуждения, тем меньше важна архитектурная разница.
Но LLaMA→Gemma провалилась даже на поздней передаче: 60.8% у оригинала против 42% у эстафеты. Причина: LLaMA-70B пишет сложнее, использует более абстрактные формулировки, которые маленькая Gemma-1B не может подхватить. Стилистическая несовместимость перевесила преимущество большого контекста.
Инсайт для практики: Если модель-продолжатель значительно слабее базовой (70B→1B) и из другого семейства — передача не работает даже на 75% готовности. Но если разница меньше (70B→8B) и семейство то же — можно экономить токены с приемлемой потерей качества (~10-15%).
Адаптации и экстраполяции
🔧 Техника: Staged Handoff — многоступенчатая передача по сложности
Вместо одной передачи "большая→маленькая" можно сделать каскад: GPT-4 (концепция) → GPT-4o (детали) → GPT-4o-mini (форматирование).
Когда использовать: - Большая задача с явными этапами разной сложности - Хочется максимально сэкономить, но не потерять качество
Пример — подготовка питча для инвестора:
[GPT-4 — дорого, но нужна глубина]
Я запускаю сервис быстрой доставки продуктов в спальных районах.
Сформулируй ключевую инвестиционную идею:
- В чём уникальность?
- Почему сейчас?
- Какой потенциал роста?
Дай концептуальный фреймворк в 3-4 абзацах.
↓ Копируешь вывод GPT-4
[GPT-4o — средняя цена, детализация]
Вот концепция питча. Развей её в структуру:
1. Проблема (3 bullet points)
2. Решение (описание продукта)
3. Рынок (TAM/SAM/SOM с расчётами)
4. Бизнес-модель (юнит-экономика)
[вставить концепцию от GPT-4]
↓ Копируешь структуру GPT-4o
[GPT-4o-mini — дёшево, форматирование]
Преобразуй этот питч в формат слайдов:
- Заголовки для каждого блока
- Визуальные элементы (графики, иконки)
- Текст не больше 20 слов на слайд
[вставить структуру от GPT-4o]
Экономика: - GPT-4: ~$0.03 за концепцию (200 токенов) - GPT-4o: ~$0.01 за структуру (500 токенов) - GPT-4o-mini: ~$0.001 за форматирование (300 токенов)
Итого: ~$0.041 вместо ~$0.09 если всё делать в GPT-4. Экономия >50%.
🔧 Техника: Контрольная точка — используй передачу для проверки
Вместо экономии используй эстафету как метод контроля качества: если вторая модель не может продолжить рассуждение — значит первая налажала.
Применение:
- Решаешь сложную задачу в основной модели до середины
- Копируешь в модель-валидатор (из того же семейства, может быть даже та же модель в новом чате)
- Просишь продолжить
- Если результаты сильно расходятся — значит на первом этапе ошибка или неоднозначность
Промпт для валидации:
Продолжи это рассуждение до конца. Если заметишь логические ошибки
или непонятные места в уже написанном — укажи их перед продолжением.
[вставить рассуждение]
Зачем это работает:
Свежий контекст (новый чат, даже та же модель) лучше замечает противоречия. Если модель-валидатор указывает "здесь непонятно" или приходит к другому выводу — сигнал вернуться и пересмотреть первую часть.
Ресурсы
Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning
Авторы: Leo Lu (Pennsylvania State University), Jonathan Zhang (Binghamton University), Sean Chua (University of Toronto), Spencer Kim (UC Berkeley), Kevin Zhu, Sean O'Brien, Vasu Sharma (Algoverse)
Датасет: MATH (5000 задач) Модели: Gemma-3 (1B, 4B), LLaMA-3.1 (8B, 70B) PRM: Qwen2.5-PRM (Process Reward Model)
