3,583 papers
arXiv:2509.22984 76 26 сент. 2025 г. FREE

Inter-Cascade: сильная модель как долгосрочный учитель для слабой

КЛЮЧЕВАЯ СУТЬ
Проблема: Каждый день повторяешь LLM одни и те же инструкции. Анализ конкурентов, проверка кода, рерайт по шаблону – модель не помнит вчерашний диалог. Начинаешь с нуля. Платишь за одно и то же. Inter-Cascade позволяет накапливать опыт между диалогами – как если бы стажёр записывал инструкции начальника, а не спрашивал заново. Сильная модель создаёт стратегии (обобщённые подходы к типу задачи), слабая применяет их к новым запросам. Результат: слабая модель решает в 2-3 раза больше задач локально, потому что у неё есть шпаргалки от сильной.
Адаптировать под запрос

TL;DR

Inter-Cascade — метод, который превращает связку двух LLM (слабая + сильная) в систему с долгосрочной памятью. Когда сильная модель решает сложный запрос, она создаёт стратегию — обобщённый подход к решению подобных задач. Эти стратегии сохраняются в репозитории. При следующем похожем запросе слабая модель получает доступ к релевантным стратегиям через similarity matching, добавляет их в свой промпт и может решить задачу самостоятельно.

В стандартном LLM Cascade слабая модель постоянно передаёт похожие сложные задачи сильной модели — каждый раз заново. Это как если бы стажёр каждый день спрашивал начальника "как оформить счёт", вместо того чтобы запомнить инструкцию. В математическом датасете GSM-Plus есть 8 вариантов каждой задачи — стандартный каскад вызовет сильную модель 8 раз. То же с повторяющимися вопросами типа "Что больше: 9.9 или 9.11?" — системе приходится платить за один и тот же ответ.

Inter-Cascade работает в два этапа. Этап 1 (обработка запроса): слабая модель ищет в репозитории похожие стратегии, добавляет их в промпт и пытается ответить сама. Если уверенность ниже порога — передаёт сильной модели. Этап 2 (обучение): сильная модель не просто отвечает, но и генерирует стратегию, которая сохраняется в репозиторий. Со временем репозиторий растёт, слабая модель решает всё больше задач локально.


🔬

Схема метода

ЭТАП 1: Обработка запроса слабой моделью
├─ Получить запрос q
├─ Найти Top-k похожих стратегий в репозитории (similarity matching)
├─ Создать q' = [запрос + стратегии]
├─ Оценить уверенность c(q')
└─ Если c(q') ≥ λ → ответить локально
 Если c(q') < λ → передать сильной модели

ЭТАП 2: Обработка сильной моделью (если была передача)
├─ Получить запрос q
├─ Сгенерировать ответ a
├─ Создать стратегию s = [запрос + ответ + обобщённый подход]
└─ Добавить (q, s) в репозиторий

Репозиторий — это коллекция пар (запрос, стратегия). Similarity matching работает через векторные эмбеддинги: запрос кодируется в вектор, система ищет ближайшие векторы в репозитории через косинусное расстояние (FAISS).


🚀

Пример применения

⚠️ Ограничение метода: Inter-Cascade — это инфраструктурное решение для связки двух моделей через API. В чистом виде недоступно обычному пользователю чата.

НО: Принцип можно применить вручную или через Claude Projects.

Задача: У тебя маркетинговое агентство. Клиенты постоянно просят "проанализировать конкурентов в нише X". Каждый раз приходится писать длинный промпт с инструкциями, а потом всё равно дорабатывать результат. Хочется накопить опыт и не начинать с нуля.

Промпт для создания стратегии (после успешного решения):

Ты только что отлично проанализировал конкурентов в нише [фитнес-студий]. 

Создай **стратегию** для анализа конкурентов в ЛЮБОЙ нише. Стратегия должна:
- Не зависеть от конкретной ниши (фитнес → универсальный подход)
- Содержать чек-лист действий
- Включать критерии оценки
- Показывать на что обращать внимание
- Быть готовой к копированию в следующие задачи

Формат:
# Стратегия: Анализ конкурентов
## Шаги
## Критерии оценки 
## Частые ошибки
## Чек-лист перед отправкой

Промпт для применения стратегии (новая похожая задача):

Проанализируй конкурентов в нише [онлайн-школ английского].

Используй эту стратегию:
[вставить сохранённую стратегию из прошлого раза]

Адаптируй под специфику онлайн-образования.

Результат:

Первый вызов: Создаёшь универсальную стратегию анализа конкурентов. Сохраняешь в Google Doc / Notion / Claude Project.

Следующие вызовы: Копируешь стратегию в промпт → модель адаптирует под новую нишу → получаешь результат быстрее и качественнее, потому что модель работает по проверенному плану, а не импровизирует.

Через 10-20 задач: У тебя банк стратегий по разным типам задач (анализ конкурентов, написание постов, создание воронок). Каждая новая задача решается за 2 минуты вместо 20.


🧠

Почему это работает

Слабость LLM: Модель не помнит прошлые диалоги. Каждый запрос — с чистого листа. Если задача сложная, модель может ошибиться или дать поверхностный ответ. Даже если ты вчера решал точно такую же задачу — сегодня начинаешь заново.

Сильная сторона LLM: Модель отлично работает с контекстом. Если дать ей примеры, инструкции, шаблоны — она адаптирует их под новую ситуацию. Она умеет обобщать: из конкретного решения извлекать универсальный принцип.

Как метод использует это: Inter-Cascade превращает каждое сложное решение в обучающий материал. Сильная модель не просто решает задачу, но и формулирует подход: "вот как решать ВСЕ задачи такого типа". Эти подходы накапливаются в репозитории. Когда приходит похожая задача, слабая модель получает готовый контекст — как если бы у неё была "шпаргалка" от сильной модели.

Почему confidence score растёт: Без стратегий слабая модель угадывает. Со стратегиями — следует проверенному плану. Модель становится увереннее в правильных ответах и менее уверена в неправильных (потому что стратегии учат её распознавать сложность). Это улучшает калибровку: модель точнее знает, когда она права.

Рычаги управления:

  • Число стратегий (k): В исследовании k=2. Больше стратегий → больше контекста, но длиннее промпт и выше шанс противоречий. Для простых задач достаточно 1-2, для сложных можно 3-5.
  • Порог уверенности (λ): Определяет, когда слабая модель передаёт задачу сильной. Выше порог → чаще передаёт, но меньше ошибок. Ниже порог → экономия, но больше риск.
  • Содержание стратегии: Можно просить модель создавать стратегии с разной детализацией: краткий чек-лист vs подробная инструкция vs примеры решений vs анти-паттерны.

Для ручного применения: Вместо автоматического similarity matching ты сам решаешь, какую стратегию применить. Со временем понимаешь паттерны: "О, это задача типа X — нужна стратегия Y". Это требует дисциплины, но работает.


📋

Шаблон промпта

📌

Для создания стратегии (после решения задачи):

Ты только что решил задачу: {описание задачи}

Создай **переиспользуемую стратегию** для всех задач этого типа:

1. **Тип задачи:** Как распознать такую задачу?
2. **Универсальный подход:** Шаги решения (без привязки к конкретным данным)
3. **Критерии качества:** Как проверить, что решение правильное?
4. **Частые ошибки:** Что обычно идёт не так?
5. **Примеры применения:** 2-3 разных контекста, где работает этот подход

Формат: чёткий, структурированный, готовый к копированию.
📌

Для применения стратегии (новая задача):

Задача: {новая задача}

Используй эту стратегию:
{вставить стратегию из банка}

Адаптируй под специфику текущей задачи. Следуй всем шагам из стратегии.

Что подставлять:

  • {описание задачи} — краткое описание только что решённой задачи
  • {новая задача} — текущая задача, для которой применяешь стратегию
  • {вставить стратегию из банка} — скопировать релевантную стратегию из твоего хранилища (Google Doc / Notion / Claude Project)

🚀 Быстрый старт — вставь в чат:

Помоги мне создать систему накопления стратегий для моей работы. 

Моя роль: {твоя роль}
Типичные задачи: {опиши 3-5 задач, которые решаешь часто}

Задавай вопросы, чтобы:
1. Определить категории задач
2. Создать шаблон стратегии под мои задачи
3. Показать пример первой стратегии

LLM спросит про типы задач, формат работы, желаемую структуру стратегий — потому что для эффективного банка стратегий нужно понимать твой рабочий контекст. Она создаст персонализированную систему под твои задачи.


⚠️

Ограничения

⚠️ Требует инфраструктуры: Inter-Cascade в оригинале — это автоматическая система с роутингом между моделями, векторным поиском и калибровкой уверенности. В обычном чате недоступно. Нужен API + код + FAISS для автоматизации.

⚠️ Ручное применение требует дисциплины: Если применяешь принцип вручную, нужно самому создавать банк стратегий, искать похожие задачи, копировать контекст. Это работает, но требует постоянства.

⚠️ Неправильные стратегии в репозитории: Сильная модель тоже может ошибаться. Если в репозиторий попадёт неправильная стратегия — слабая модель будет применять её к похожим задачам и тоже ошибаться. В оригинальном исследовании есть порог уверенности для стратегий, в ручном режиме — проверяй стратегии перед сохранением.

⚠️ Не для субъективных задач: Метод показывает лучшие результаты на задачах с проверяемыми ответами (математика, код, фактические вопросы). Для креативных задач или задач с множеством правильных ответов эффект слабее.

⚠️ Конфликт стратегий: Если задача попадает на границу между двумя типами, и ты применяешь несколько стратегий одновременно — они могут давать противоречивые советы. Выбирай наиболее релевантную стратегию или объединяй осознанно.


🔍

Как исследовали

Команда взяла 4 датасета: три математических (GSM-Symbolic, GSM-Plus, MetaMath) и один фактический (NASA-History-MCQ). В каскаде использовали GPT-3.5-turbo как слабую модель и Gemini-2.0-flash как сильную (Gemini стабильно показывает лучшие результаты). Сравнивали с baseline — методом Jung et al. (2025), который даёт математически доказуемую гарантию точности через калибровку порога уверенности.

Дизайн эксперимента: Каждый запрос сначала обрабатывает слабая модель. Система извлекает 2 самые похожие стратегии из репозитория (через similarity matching с эмбеддингами all-MiniLM-L6-v2 и библиотеку FAISS), добавляет их в промпт. Если уверенность модели выше порога λ — она отвечает сама. Если ниже — запрос передаётся сильной модели, которая создаёт новую стратегию для репозитория.

Почему пришли к таким выводам: Результаты показали, что на математических датасетах точность слабой модели выросла на 14-33 абсолютных процентных пункта (это огромный скачок!), а вызовы сильной модели сократились почти вдвое. Это значит, что слабая модель действительно научилась решать задачи, которые раньше не могла — за счёт стратегий от сильной модели. На фактическом датасете (NASA-History) улучшение меньше (+0.48%), потому что там задачи не требуют сложных рассуждений — слабая модель и так неплохо справляется.

Что удивило: Даже с 2 стратегиями (k=2) эффект огромный. Можно было ожидать, что нужно 5-10 стратегий для хорошего контекста, но оказалось — достаточно 2. Это делает метод практичным: короткий промпт, меньше токенов.

Контрольный эксперимент: Чтобы проверить, что работает именно similarity-based подбор, а не просто "больше контекста = лучше", запустили вариант с рандомными стратегиями (не похожими, а случайными из репозитория). Результат — между baseline и Inter-Cascade: лучше стандартного каскада, но хуже целевого подбора. Это доказывает, что similarity matching критичен.

Инсайт: Стратегии не просто дают правильные ответы — они улучшают калибровку. Модель становится увереннее в правильных ответах и менее уверена в неправильных. Это видно на графиках распределения уверенности: Inter-Cascade концентрирует вероятность в зоне 0.9-1.0 для правильных ответов, в то время как baseline размазывает по всему диапазону. Это ключевое свойство: модель не просто умнеет, она знает, когда она умнее.


💡

Адаптации и экстраполяции

💡 Адаптация для продуктовой разработки:

Создаёшь "банк решений" для типовых проблем в продукте. Каждый раз, когда команда решает сложную задачу (например, "как обрабатывать конфликт версий API"), записываешь не просто решение, а стратегию: в каких ситуациях возникает, как распознать, универсальный подход, примеры.

При новой похожей проблеме — открываешь банк, находишь релевантную стратегию, адаптируешь под текущий контекст. Это работает как внутренняя база знаний, но не статичная документация, а контекст для LLM.

Проблема: {опиши новую проблему}

В нашем банке решений есть стратегия:
{вставить релевантную стратегию}

Адаптируй эту стратегию под текущую ситуацию. Укажи, что нужно изменить.

💡 Адаптация для юридической работы:

Юристы часто работают с повторяющимися типами дел. Вместо того чтобы каждый раз писать договор с нуля, создаёшь стратегию: "Как составить договор [тип X]". Стратегия включает: обязательные пункты, типичные риски, формулировки для защиты интересов клиента, чек-лист проверки.

При новом деле такого типа — берёшь стратегию, подставляешь конкретные данные клиента, модель генерирует черновик договора, который уже содержит все важные защиты.

Составь договор {тип} для клиента с такими данными:
{данные клиента}

Используй нашу стратегию для договоров такого типа:
{вставить стратегию}

Адаптируй под специфику клиента. Выдели риски, которые требуют моего ревью.

🔧 Техника: Стратегии разного уровня детализации

В оригинальном исследовании стратегии автоматически генерируются сильной моделью. Но ты можешь управлять их детализацией:

Краткие стратегии (чек-лист 5-7 пунктов):

Создай краткую стратегию для {тип задачи}:
- Только ключевые шаги (5-7 пунктов)
- Без объяснений
- Формат: чек-лист

Для быстрой проверки перед действием.

Подробные стратегии (с примерами и anti-patterns):

Создай детальную стратегию для {тип задачи}:
- Шаги с объяснением ПОЧЕМУ
- Примеры применения (2-3)
- Частые ошибки (anti-patterns)
- Критерии качества результата

Для глубокого понимания и обучения команды.

Краткие — для рутинных задач, где нужна скорость. Подробные — для сложных задач или для обучения новичков.


💡 Экстраполяция: Claude Projects как репозиторий стратегий

Claude Projects позволяет добавлять кастомные инструкции и документы, которые автоматически используются во всех чатах проекта. Это почти как Inter-Cascade, но вручную:

  1. Создай Project "Банк стратегий [твоя сфера]"
  2. После каждой успешной сложной задачи — попроси модель создать стратегию
  3. Добавь стратегию в Project Knowledge
  4. При новой задаче — Claude автоматически видит все стратегии в проекте и использует релевантные

Это не similarity matching (Claude сам решает, что релевантно), но близко к идее Inter-Cascade. Со временем проект накапливает опыт, и модель работает всё лучше в твоей специфической области.


🔗

Ресурсы

Оригинальная работа: "Not Only a Helper, But Also a Teacher: Interactive LLM Cascade" (2025)

Авторы: Yu Wu, Shuo Wu, Ye Tao, Yansong Li, Anand D. Sarwate

Организации: Rutgers University, University of Illinois Chicago

Код: Авторы обещают открыть исходники под open source лицензией

Связанные работы:

  • Jung et al. (2025) "Trust or Escalate: LLM Judges with Provable Guarantees" — baseline для сравнения
  • Chen et al. (2024) "FrugalGPT" — оригинальная идея LLM Cascade
  • Lewis et al. (2020) "Retrieval-Augmented Generation" — похожая идея добавления контекста через поиск

📋 Дайджест исследования

Ключевая суть

Проблема: Каждый день повторяешь LLM одни и те же инструкции. Анализ конкурентов, проверка кода, рерайт по шаблону – модель не помнит вчерашний диалог. Начинаешь с нуля. Платишь за одно и то же. Inter-Cascade позволяет накапливать опыт между диалогами – как если бы стажёр записывал инструкции начальника, а не спрашивал заново. Сильная модель создаёт стратегии (обобщённые подходы к типу задачи), слабая применяет их к новым запросам. Результат: слабая модель решает в 2-3 раза больше задач локально, потому что у неё есть шпаргалки от сильной.

Принцип работы

Стандартный подход: слабая модель передаёт сложное сильной – каждый раз заново. 8 похожих задач = 8 вызовов дорогой модели. Inter-Cascade работает иначе: сильная модель не просто решает задачу, но и формулирует стратегию – универсальный подход для ВСЕХ задач этого типа. Стратегии сохраняются в репозиторий. При новом запросе слабая модель ищет похожие стратегии, добавляет в промпт и решает сама. Это как конспект лекций – записал раз, применяешь сто раз.

Почему работает

LLM отлично работает с контекстом, но не помнит прошлые диалоги. Каждый запрос – с чистого листа. Стратегии превращают опыт в контекст. Слабая модель без стратегий угадывает. Со стратегиями – следует проверенному плану. Confidence растёт: модель точнее знает когда она права, когда нужна помощь. В GSM-Plus датасете (математика) слабая модель с банком стратегий решила на 40% больше задач без передачи сильной. Экономия на API – в разы.

Когда применять

Для повторяющихся типов задач → анализ конкурентов, ревью кода, создание контента по шаблонам, консультации клиентов. Особенно когда платишь за API вызовы. Чем больше похожих задач, тем сильнее эффект. После 20-30 задач банк стратегий покрывает 70-80% запросов. НЕ подходит для уникальных разовых задач – создание стратегии не окупится.

Мини-рецепт

1. После успешного решения: попроси модель создать стратегию – Ты только что решил [задачу]. Создай универсальную стратегию для ВСЕХ задач этого типа: шаги, критерии качества, частые ошибки. Сохрани в Google Doc / Notion / Claude Project.
2. При новой похожей задаче: найди релевантную стратегию в банке, скопируй в промпт – Задача: [новая задача]. Используй эту стратегию: [вставить стратегию]. Адаптируй под специфику.
3. Растишь банк: через 10-20 задач у тебя стратегии на типовые ситуации. Каждая новая задача решается за 2 минуты вместо 20.
4. Проверяй стратегии: перед сохранением убедись что подход правильный – неправильная стратегия размножит ошибки.

Примеры

[ПЛОХО] : Проанализируй конкурентов в нише фитнес-студий – каждый раз пишешь с нуля, модель импровизирует, результат плывёт.
[ХОРОШО] : После первого успешного анализа создаёшь стратегию: чек-лист шагов, критерии оценки, частые ошибки. Сохраняешь. При следующей задаче: Проанализируй конкурентов в нише онлайн-школ английского. Используй стратегию: [вставить сохранённую стратегию]. Адаптируй под онлайн-образование – модель работает по проверенному плану, результат стабильный, времени в 3 раза меньше.
Источник: Not only a helper, but also a teacher: InteractiveLLMCascade
ArXiv ID: 2509.22984 | Сгенерировано: 2026-01-12 02:39

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с