TL;DR
Inter-Cascade — метод, который превращает связку двух LLM (слабая + сильная) в систему с долгосрочной памятью. Когда сильная модель решает сложный запрос, она создаёт стратегию — обобщённый подход к решению подобных задач. Эти стратегии сохраняются в репозитории. При следующем похожем запросе слабая модель получает доступ к релевантным стратегиям через similarity matching, добавляет их в свой промпт и может решить задачу самостоятельно.
В стандартном LLM Cascade слабая модель постоянно передаёт похожие сложные задачи сильной модели — каждый раз заново. Это как если бы стажёр каждый день спрашивал начальника "как оформить счёт", вместо того чтобы запомнить инструкцию. В математическом датасете GSM-Plus есть 8 вариантов каждой задачи — стандартный каскад вызовет сильную модель 8 раз. То же с повторяющимися вопросами типа "Что больше: 9.9 или 9.11?" — системе приходится платить за один и тот же ответ.
Inter-Cascade работает в два этапа. Этап 1 (обработка запроса): слабая модель ищет в репозитории похожие стратегии, добавляет их в промпт и пытается ответить сама. Если уверенность ниже порога — передаёт сильной модели. Этап 2 (обучение): сильная модель не просто отвечает, но и генерирует стратегию, которая сохраняется в репозиторий. Со временем репозиторий растёт, слабая модель решает всё больше задач локально.
Схема метода
ЭТАП 1: Обработка запроса слабой моделью
├─ Получить запрос q
├─ Найти Top-k похожих стратегий в репозитории (similarity matching)
├─ Создать q' = [запрос + стратегии]
├─ Оценить уверенность c(q')
└─ Если c(q') ≥ λ → ответить локально
Если c(q') < λ → передать сильной модели
ЭТАП 2: Обработка сильной моделью (если была передача)
├─ Получить запрос q
├─ Сгенерировать ответ a
├─ Создать стратегию s = [запрос + ответ + обобщённый подход]
└─ Добавить (q, s) в репозиторий
Репозиторий — это коллекция пар (запрос, стратегия). Similarity matching работает через векторные эмбеддинги: запрос кодируется в вектор, система ищет ближайшие векторы в репозитории через косинусное расстояние (FAISS).
Пример применения
⚠️ Ограничение метода: Inter-Cascade — это инфраструктурное решение для связки двух моделей через API. В чистом виде недоступно обычному пользователю чата.
НО: Принцип можно применить вручную или через Claude Projects.
Задача: У тебя маркетинговое агентство. Клиенты постоянно просят "проанализировать конкурентов в нише X". Каждый раз приходится писать длинный промпт с инструкциями, а потом всё равно дорабатывать результат. Хочется накопить опыт и не начинать с нуля.
Промпт для создания стратегии (после успешного решения):
Ты только что отлично проанализировал конкурентов в нише [фитнес-студий].
Создай **стратегию** для анализа конкурентов в ЛЮБОЙ нише. Стратегия должна:
- Не зависеть от конкретной ниши (фитнес → универсальный подход)
- Содержать чек-лист действий
- Включать критерии оценки
- Показывать на что обращать внимание
- Быть готовой к копированию в следующие задачи
Формат:
# Стратегия: Анализ конкурентов
## Шаги
## Критерии оценки
## Частые ошибки
## Чек-лист перед отправкой
Промпт для применения стратегии (новая похожая задача):
Проанализируй конкурентов в нише [онлайн-школ английского].
Используй эту стратегию:
[вставить сохранённую стратегию из прошлого раза]
Адаптируй под специфику онлайн-образования.
Результат:
Первый вызов: Создаёшь универсальную стратегию анализа конкурентов. Сохраняешь в Google Doc / Notion / Claude Project.
Следующие вызовы: Копируешь стратегию в промпт → модель адаптирует под новую нишу → получаешь результат быстрее и качественнее, потому что модель работает по проверенному плану, а не импровизирует.
Через 10-20 задач: У тебя банк стратегий по разным типам задач (анализ конкурентов, написание постов, создание воронок). Каждая новая задача решается за 2 минуты вместо 20.
Почему это работает
Слабость LLM: Модель не помнит прошлые диалоги. Каждый запрос — с чистого листа. Если задача сложная, модель может ошибиться или дать поверхностный ответ. Даже если ты вчера решал точно такую же задачу — сегодня начинаешь заново.
Сильная сторона LLM: Модель отлично работает с контекстом. Если дать ей примеры, инструкции, шаблоны — она адаптирует их под новую ситуацию. Она умеет обобщать: из конкретного решения извлекать универсальный принцип.
Как метод использует это: Inter-Cascade превращает каждое сложное решение в обучающий материал. Сильная модель не просто решает задачу, но и формулирует подход: "вот как решать ВСЕ задачи такого типа". Эти подходы накапливаются в репозитории. Когда приходит похожая задача, слабая модель получает готовый контекст — как если бы у неё была "шпаргалка" от сильной модели.
Почему confidence score растёт: Без стратегий слабая модель угадывает. Со стратегиями — следует проверенному плану. Модель становится увереннее в правильных ответах и менее уверена в неправильных (потому что стратегии учат её распознавать сложность). Это улучшает калибровку: модель точнее знает, когда она права.
Рычаги управления:
- Число стратегий (k): В исследовании k=2. Больше стратегий → больше контекста, но длиннее промпт и выше шанс противоречий. Для простых задач достаточно 1-2, для сложных можно 3-5.
- Порог уверенности (λ): Определяет, когда слабая модель передаёт задачу сильной. Выше порог → чаще передаёт, но меньше ошибок. Ниже порог → экономия, но больше риск.
- Содержание стратегии: Можно просить модель создавать стратегии с разной детализацией: краткий чек-лист vs подробная инструкция vs примеры решений vs анти-паттерны.
Для ручного применения: Вместо автоматического similarity matching ты сам решаешь, какую стратегию применить. Со временем понимаешь паттерны: "О, это задача типа X — нужна стратегия Y". Это требует дисциплины, но работает.
Шаблон промпта
Для создания стратегии (после решения задачи):
Ты только что решил задачу: {описание задачи}
Создай **переиспользуемую стратегию** для всех задач этого типа:
1. **Тип задачи:** Как распознать такую задачу?
2. **Универсальный подход:** Шаги решения (без привязки к конкретным данным)
3. **Критерии качества:** Как проверить, что решение правильное?
4. **Частые ошибки:** Что обычно идёт не так?
5. **Примеры применения:** 2-3 разных контекста, где работает этот подход
Формат: чёткий, структурированный, готовый к копированию.
Для применения стратегии (новая задача):
Задача: {новая задача}
Используй эту стратегию:
{вставить стратегию из банка}
Адаптируй под специфику текущей задачи. Следуй всем шагам из стратегии.
Что подставлять:
{описание задачи}— краткое описание только что решённой задачи{новая задача}— текущая задача, для которой применяешь стратегию{вставить стратегию из банка}— скопировать релевантную стратегию из твоего хранилища (Google Doc / Notion / Claude Project)
🚀 Быстрый старт — вставь в чат:
Помоги мне создать систему накопления стратегий для моей работы.
Моя роль: {твоя роль}
Типичные задачи: {опиши 3-5 задач, которые решаешь часто}
Задавай вопросы, чтобы:
1. Определить категории задач
2. Создать шаблон стратегии под мои задачи
3. Показать пример первой стратегии
LLM спросит про типы задач, формат работы, желаемую структуру стратегий — потому что для эффективного банка стратегий нужно понимать твой рабочий контекст. Она создаст персонализированную систему под твои задачи.
Ограничения
⚠️ Требует инфраструктуры: Inter-Cascade в оригинале — это автоматическая система с роутингом между моделями, векторным поиском и калибровкой уверенности. В обычном чате недоступно. Нужен API + код + FAISS для автоматизации.
⚠️ Ручное применение требует дисциплины: Если применяешь принцип вручную, нужно самому создавать банк стратегий, искать похожие задачи, копировать контекст. Это работает, но требует постоянства.
⚠️ Неправильные стратегии в репозитории: Сильная модель тоже может ошибаться. Если в репозиторий попадёт неправильная стратегия — слабая модель будет применять её к похожим задачам и тоже ошибаться. В оригинальном исследовании есть порог уверенности для стратегий, в ручном режиме — проверяй стратегии перед сохранением.
⚠️ Не для субъективных задач: Метод показывает лучшие результаты на задачах с проверяемыми ответами (математика, код, фактические вопросы). Для креативных задач или задач с множеством правильных ответов эффект слабее.
⚠️ Конфликт стратегий: Если задача попадает на границу между двумя типами, и ты применяешь несколько стратегий одновременно — они могут давать противоречивые советы. Выбирай наиболее релевантную стратегию или объединяй осознанно.
Как исследовали
Команда взяла 4 датасета: три математических (GSM-Symbolic, GSM-Plus, MetaMath) и один фактический (NASA-History-MCQ). В каскаде использовали GPT-3.5-turbo как слабую модель и Gemini-2.0-flash как сильную (Gemini стабильно показывает лучшие результаты). Сравнивали с baseline — методом Jung et al. (2025), который даёт математически доказуемую гарантию точности через калибровку порога уверенности.
Дизайн эксперимента: Каждый запрос сначала обрабатывает слабая модель. Система извлекает 2 самые похожие стратегии из репозитория (через similarity matching с эмбеддингами all-MiniLM-L6-v2 и библиотеку FAISS), добавляет их в промпт. Если уверенность модели выше порога λ — она отвечает сама. Если ниже — запрос передаётся сильной модели, которая создаёт новую стратегию для репозитория.
Почему пришли к таким выводам: Результаты показали, что на математических датасетах точность слабой модели выросла на 14-33 абсолютных процентных пункта (это огромный скачок!), а вызовы сильной модели сократились почти вдвое. Это значит, что слабая модель действительно научилась решать задачи, которые раньше не могла — за счёт стратегий от сильной модели. На фактическом датасете (NASA-History) улучшение меньше (+0.48%), потому что там задачи не требуют сложных рассуждений — слабая модель и так неплохо справляется.
Что удивило: Даже с 2 стратегиями (k=2) эффект огромный. Можно было ожидать, что нужно 5-10 стратегий для хорошего контекста, но оказалось — достаточно 2. Это делает метод практичным: короткий промпт, меньше токенов.
Контрольный эксперимент: Чтобы проверить, что работает именно similarity-based подбор, а не просто "больше контекста = лучше", запустили вариант с рандомными стратегиями (не похожими, а случайными из репозитория). Результат — между baseline и Inter-Cascade: лучше стандартного каскада, но хуже целевого подбора. Это доказывает, что similarity matching критичен.
Инсайт: Стратегии не просто дают правильные ответы — они улучшают калибровку. Модель становится увереннее в правильных ответах и менее уверена в неправильных. Это видно на графиках распределения уверенности: Inter-Cascade концентрирует вероятность в зоне 0.9-1.0 для правильных ответов, в то время как baseline размазывает по всему диапазону. Это ключевое свойство: модель не просто умнеет, она знает, когда она умнее.
Адаптации и экстраполяции
💡 Адаптация для продуктовой разработки:
Создаёшь "банк решений" для типовых проблем в продукте. Каждый раз, когда команда решает сложную задачу (например, "как обрабатывать конфликт версий API"), записываешь не просто решение, а стратегию: в каких ситуациях возникает, как распознать, универсальный подход, примеры.
При новой похожей проблеме — открываешь банк, находишь релевантную стратегию, адаптируешь под текущий контекст. Это работает как внутренняя база знаний, но не статичная документация, а контекст для LLM.
Проблема: {опиши новую проблему}
В нашем банке решений есть стратегия:
{вставить релевантную стратегию}
Адаптируй эту стратегию под текущую ситуацию. Укажи, что нужно изменить.
💡 Адаптация для юридической работы:
Юристы часто работают с повторяющимися типами дел. Вместо того чтобы каждый раз писать договор с нуля, создаёшь стратегию: "Как составить договор [тип X]". Стратегия включает: обязательные пункты, типичные риски, формулировки для защиты интересов клиента, чек-лист проверки.
При новом деле такого типа — берёшь стратегию, подставляешь конкретные данные клиента, модель генерирует черновик договора, который уже содержит все важные защиты.
Составь договор {тип} для клиента с такими данными:
{данные клиента}
Используй нашу стратегию для договоров такого типа:
{вставить стратегию}
Адаптируй под специфику клиента. Выдели риски, которые требуют моего ревью.
🔧 Техника: Стратегии разного уровня детализации
В оригинальном исследовании стратегии автоматически генерируются сильной моделью. Но ты можешь управлять их детализацией:
Краткие стратегии (чек-лист 5-7 пунктов):
Создай краткую стратегию для {тип задачи}:
- Только ключевые шаги (5-7 пунктов)
- Без объяснений
- Формат: чек-лист
Для быстрой проверки перед действием.
Подробные стратегии (с примерами и anti-patterns):
Создай детальную стратегию для {тип задачи}:
- Шаги с объяснением ПОЧЕМУ
- Примеры применения (2-3)
- Частые ошибки (anti-patterns)
- Критерии качества результата
Для глубокого понимания и обучения команды.
Краткие — для рутинных задач, где нужна скорость. Подробные — для сложных задач или для обучения новичков.
💡 Экстраполяция: Claude Projects как репозиторий стратегий
Claude Projects позволяет добавлять кастомные инструкции и документы, которые автоматически используются во всех чатах проекта. Это почти как Inter-Cascade, но вручную:
- Создай Project "Банк стратегий [твоя сфера]"
- После каждой успешной сложной задачи — попроси модель создать стратегию
- Добавь стратегию в Project Knowledge
- При новой задаче — Claude автоматически видит все стратегии в проекте и использует релевантные
Это не similarity matching (Claude сам решает, что релевантно), но близко к идее Inter-Cascade. Со временем проект накапливает опыт, и модель работает всё лучше в твоей специфической области.
Ресурсы
Оригинальная работа: "Not Only a Helper, But Also a Teacher: Interactive LLM Cascade" (2025)
Авторы: Yu Wu, Shuo Wu, Ye Tao, Yansong Li, Anand D. Sarwate
Организации: Rutgers University, University of Illinois Chicago
Код: Авторы обещают открыть исходники под open source лицензией
Связанные работы:
- Jung et al. (2025) "Trust or Escalate: LLM Judges with Provable Guarantees" — baseline для сравнения
- Chen et al. (2024) "FrugalGPT" — оригинальная идея LLM Cascade
- Lewis et al. (2020) "Retrieval-Augmented Generation" — похожая идея добавления контекста через поиск
