TL;DR
TRSG — метод превращения большого потока документов в компактную двухуровневую структуру: сначала группируешь похожие тексты и делаешь фактические резюме каждой группы, потом группируешь резюме и делаешь стратегические резюме групп. Получается иерархия: детали внизу, паттерны и тренды наверху. ORACLE — система для финского университета, которая применяет этот метод к новостям: каждую неделю строит свежий граф и сравнивает с прошлой неделей, показывая что появилось, что исчезло, что изменилось.
Проблема: Когда информации много (сотни новостей, десятки отчётов), человек тонет в деталях. Одно большое резюме размазывает фокус — не видно ни конкретики, ни общей картины. Простое резюме теряет нюансы. Детальное резюме — снова каша. LLM хорошо резюмирует 5-10 текстов, но при масштабе 100+ начинается потеря информации или выход за лимиты контекста.
Суть: Метод работает в два прохода — как зум от микроскопа к панораме. Первый уровень (L1): группируешь похожие тексты, для каждой группы делаешь резюме с максимумом фактов (имена, даты, цифры, связи). Второй уровень (L2): группируешь резюме L1, для каждой группы делаешь резюме с максимумом абстракции (паттерны, тренды, импликации, минимум конкретики). Если группа слишком большая — применяешь рекурсивное резюмирование: делишь на части, резюмируешь каждую, потом резюмируешь резюме. Получается структура где можно нырнуть в детали или взлететь к трендам.
Схема метода
ШАГ 1: Группировка похожих текстов
→ Кластеры похожих документов
ШАГ 2 (L1): Фактическое резюме каждого кластера
Промпт: "Факты, имена, даты, цифры, связи. Без оценок."
→ Набор фактических резюме
ШАГ 3: Группировка резюме L1
→ Мета-кластеры
ШАГ 4 (L2): Стратегическое резюме каждого мета-кластера
Промпт: "Паттерны, тренды, импликации. Без деталей."
→ Набор стратегических резюме
ШАГ 5 (опционально): Сравнение с прошлой версией
→ Что добавилось, исчезло, изменилось
Рекурсивное резюмирование (если кластер > лимита контекста): - Делишь тексты на части - Резюмируешь каждую часть - Резюмируешь резюме → финальное резюме
Все шаги можно делать вручную в чате или автоматизировать через API.
Пример применения
Задача: Ты готовишь квартальный отчёт для совета директоров. За 3 месяца накопилось 80+ внутренних отчётов отделов, новостей рынка, отзывов клиентов, аналитики конкурентов. Нужно показать (1) что конкретно происходило и (2) какие тренды это формирует для стратегии.
Шаг 1 — Группировка:
Сначала вручную или попросив LLM раскидай тексты по темам. Например: - Кластер 1: Отзывы клиентов о мобильном приложении (12 документов) - Кластер 2: Новости про конкурента А — запуск нового продукта (8 документов) - Кластер 3: Внутренние отчёты продаж в Москве (15 документов) - Кластер 4: Аналитика рынка B2B-сегмента (10 документов) - ...
Шаг 2 — L1 (фактические резюме):
Для каждого кластера:
Промпт L1:
Создай фактическое резюме этой группы текстов.
ТРЕБОВАНИЯ:
- Максимум конкретики: имена, даты, цифры, суммы, названия
- Ключевые факты и связи между ними
- Структурируй логично
- НЕ давай оценок, рекомендаций, предположений
- Пиши связным текстом
ТЕКСТЫ:
[вставляешь все тексты кластера]
Результат L1: Получишь 8-10 резюме (по числу кластеров), каждое на 200-400 слов, с максимумом фактов. Например:
"Отзывы о мобильном приложении (март-май): 73% упоминаний связаны с проблемами авторизации через СМС (задержка 3-5 минут). Клиенты из Петербурга (28 отзывов) жалуются на вылеты при открытии раздела «История операций». Москва (41 отзыв) — основная боль в медленной загрузке главного экрана (8-12 секунд). 15 мая техподдержка зафиксировала пик обращений (340 за день) после релиза версии 2.3.1..."
Шаг 3 — Группировка резюме:
Теперь группируешь резюме L1 по более широким темам. Например: - Мета-кластер 1: Клиентский опыт (резюме про отзывы + резюме про техподдержку) - Мета-кластер 2: Конкурентная среда (резюме про конкурентов А, Б, В) - Мета-кластер 3: Внутренние операции (резюме про продажи + резюме про производство)
Шаг 4 — L2 (стратегические резюме):
Для каждого мета-кластера:
Промпт L2:
Создай стратегическое резюме на основе этих фактических резюме.
ТРЕБОВАНИЯ:
- Выяви паттерны, тренды, системные явления
- Покажи связи между темами
- Абстрагируйся от деталей — фокус на трансформациях и силах изменений
- НЕ сравнивай и НЕ оценивай — только синтез
- Пиши как брифинг для топ-менеджмента
РЕЗЮМЕ L1:
[вставляешь резюме из мета-кластера]
Результат L2: Получишь 3-4 стратегических резюме, каждое на 150-250 слов, показывающих общую картину. Например:
"Клиентский опыт: Наблюдается системный сдвиг в ожиданиях пользователей — порог терпимости к задержкам упал с 30 секунд (2023) до 5-8 секунд (2024). Технические проблемы авторизации формируют негативный якорь первого касания, распространяясь через соцсети и снижая конверсию новых установок. География жалоб коррелирует с возрастом инфраструктуры бэкенда..."
Шаг 5 — Сравнение (если делаешь регулярно):
Через 3 месяца повторяешь процесс и сравниваешь резюме L2: - Что появилось нового (новые тренды) - Что исчезло (решённые проблемы или потерявшие актуальность темы) - Что изменилось (усиление/ослабление трендов)
Почему это работает
Слабость LLM: Модель хорошо обобщает 5-10 текстов, но при масштабе 50-100+ начинается коллапс внимания — важные детали теряются, появляются галлюцинации, или вообще выход за лимит контекста. Одно резюме на 100 текстов получается либо поверхностным (общие слова), либо перегруженным (каша фактов). Компромисса нет — нужно выбирать между детальностью и обзорностью.
Сильная сторона LLM: Модель отлично работает с явной структурой и пошаговыми инструкциями. Если задача разбита на уровни абстракции, LLM переключается между режимами: "репортёр" (факты) → "аналитик" (паттерны). Это как давать разные роли — в каждой модель фокусируется на своём срезе и не смешивает уровни.
Как метод использует это: TRSG разделяет масштаб (сколько текстов) и абстракцию (насколько обобщённо). Сначала дробишь массив на управляемые куски (10-15 текстов) и резюмируешь фактически — модель в режиме "собрать все важные детали". Потом берёшь резюме (их уже меньше — 8-10 штук) и резюмируешь стратегически — модель в режиме "найти паттерны". Получается зум от деталей к трендам без потери информации. Финальная структура читается на двух скоростях: нужны детали — идёшь в L1, нужна картина — смотришь L2.
Рычаги управления:
Размер кластера (сколько текстов в группе): 5-10 для высокой детальности, 15-20 для экономии запросов. Если кластер превышает лимит контекста — включается рекурсивное резюмирование.
Инструкция для L1 (фактическое резюме): добавь "приоритет цифрам и датам" если нужна точность, или "связи между событиями" если нужен нарратив. Убери "без оценок" если хочешь видеть интерпретации уже на L1.
Инструкция для L2 (стратегическое резюме): добавь "фокус на рисках" или "фокус на возможностях" чтобы окрасить синтез в нужную сторону. Замени "паттерны" на "аномалии" если ищешь слабые сигналы.
Число уровней: можешь сделать L3 (резюме резюме резюме) если исходных текстов 500+. Или остановиться на L1 если нужны только факты без синтеза.
Частота сравнения: делай snapshot каждую неделю/месяц/квартал и сравнивай — увидишь динамику. Или делай разово — получишь структурированный дайджест.
Рекурсивное резюмирование — отдельный рычаг. Если один кластер содержит 30 текстов и не влезает в контекст: 1. Делишь на 3 части по 10 текстов 2. Резюмируешь каждую часть с промптом L1 3. Три резюме объединяешь и резюмируешь снова с промптом L1 4. Получаешь финальное резюме без потери полноты
Это как сжатие с потерями, но контролируемое — ты решаешь на каком уровне детализации остановиться.
Шаблон промпта
L1 — Фактическое резюме кластера
Создай фактическое резюме этой группы текстов.
ТРЕБОВАНИЯ:
- Определи главную тему группы
- Извлеки ключевые факты: имена, даты, цифры, суммы, названия компаний/продуктов/мест
- Покажи связи между событиями и фактами
- Структурируй логично
- НЕ давай оценок, рекомендаций, предположений — только факты
- Пиши связным текстом, как информационный отчёт
ТЕКСТЫ:
{список_текстов}
Плейсхолдеры:
- {список_текстов} — вставь все тексты из группы через разделитель, например ---
L2 — Стратегическое резюме мета-кластера
Создай стратегическое резюме на основе этих фактических резюме.
ТРЕБОВАНИЯ:
- Выяви паттерны и тренды, проходящие через несколько тем
- Покажи системные явления и трансформации
- Акцент на силах изменений и их направлении
- Минимум конкретных деталей — они уже в исходных резюме
- НЕ сравнивай и НЕ оценивай — только синтез
- Пиши как стратегический брифинг
РЕЗЮМЕ L1:
{список_резюме_L1}
Плейсхолдеры:
- {список_резюме_L1} — вставь несколько фактических резюме через разделитель
Рекурсивное резюмирование (если кластер слишком большой)
Если группа текстов превышает лимит контекста:
ШАГ 1: Подели тексты на части по 10-15 штук
ШАГ 2: Для каждой части используй промпт L1 выше
ШАГ 3: Когда получишь резюме всех частей, объедини их и снова используй промпт L1:
---
Создай финальное фактическое резюме на основе этих промежуточных резюме.
ТРЕБОВАНИЯ:
- Объедини информацию, сохраняя все ключевые факты
- Убери дублирование
- Структурируй логично
- Пиши связным текстом
ПРОМЕЖУТОЧНЫЕ РЕЗЮМЕ:
{резюме_частей}
Плейсхолдеры:
- {резюме_частей} — вставь все промежуточные резюме
Сравнение версий (для отслеживания изменений)
Сравни два набора резюме — старую и новую версию.
ЗАДАЧА:
Для каждого резюме из новой версии найди наиболее похожее в старой версии и определи:
- СТАБИЛЬНОЕ — тема практически не изменилась (очень похожи)
- ИЗМЕНЁННОЕ — тема развилась, появились новые аспекты (похожи, но есть различия)
- НОВОЕ — тема отсутствовала в старой версии (нет похожих)
Также найди темы из старой версии, которые ИСЧЕЗЛИ в новой.
СТАРАЯ ВЕРСИЯ:
{старые_резюме}
НОВАЯ ВЕРСИЯ:
{новые_резюме}
ФОРМАТ ОТВЕТА:
Для каждой категории (Новое, Изменённое, Исчезло) дай краткое название темы и 1-2 предложения описания.
Плейсхолдеры:
- {старые_резюме} — резюме из прошлого периода (L1 или L2)
- {новые_резюме} — резюме из текущего периода (L1 или L2)
🚀 Быстрый старт — вставь в чат:
Вот метод TRSG для работы с большими объёмами информации. Адаптируй под мою задачу: [твоя задача — например, "резюмировать 50 статей про ИИ за месяц" или "структурировать фидбек от 80 клиентов"].
Задавай вопросы, чтобы помочь мне:
1. Разбить тексты на логические группы
2. Создать фактические резюме групп (L1)
3. Создать стратегические резюме (L2)
[вставить шаблоны L1 и L2 выше]
LLM спросит: сколько у тебя текстов, какая главная цель (детали или общая картина), есть ли естественная группировка (по темам/датам/источникам), нужно ли сравнение с прошлой версией. Она возьмёт двухуровневую структуру TRSG и проведёт тебя через процесс.
Ограничения
⚠️ Ручная группировка: Если делаешь вручную, группировка текстов на первом шаге — субъективна. Разные люди сгруппируют по-разному, итоговые резюме будут отличаться. Метод работает лучше когда есть явная структура (папки, теги, даты).
⚠️ Потеря нюансов: Двухуровневая иерархия сжимает информацию. Редкие, но важные факты могут не попасть в резюме, если они не типичны для кластера. Решение — делать кластеры меньше (больше групп) или добавлять третий уровень детализации.
⚠️ Стоимость токенов: Если автоматизируешь через API, при больших объёмах (100+ текстов) метод съест много токенов. Резюмирование каждого кластера + резюмирование резюме = два прохода. Для разовой работы в чате — не проблема, для ежедневного автоматического процесса — может быть дорого.
⚠️ Не для динамического анализа: Метод создаёт снапшот — картину на момент времени. Если тебе нужно отслеживать как конкретная тема развивается день за днём (а не неделя к неделе), потребуется другой подход — трекинг отдельных нарративов, а не пересборка всей структуры.
⚠️ Сравнение версий — приблизительное: Когда сравниваешь две версии графа, определение "похожести" тем — эвристика. Тема могла трансформироваться так, что метод посчитает её "новой", хотя это продолжение старой. Или наоборот — свяжет разные темы по случайному совпадению формулировок.
Ресурсы
ORACLE: Time-Dependent Recursive Summary Graphs for Foresight on News Data Using LLMs
Lev Kharlashkin, Eiaki Morooka, Yehor Tereshchenko, Mika Hämäläinen
Metropolia University of Applied Sciences, Helsinki, Finland
Упоминаемые техники и подходы: - SBERT, SimCSE (semantic embeddings) - Louvain, Leiden (community detection) - BERTopic (topic modeling) - PESTEL framework (strategic analysis dimensions) - LexRank, TextRank (extractive summarization)
Как исследовали
Исследователи построили работающую систему для финского университета прикладных наук. Система автоматически краулит финские новости (RSS-фиды источников типа Yle), каждый день:
- Собирает новости и вычисляет хэш контента — если статья обновилась, сохраняется новая версия
- Фильтрует по релевантности для университета в два этапа:
- Лексический: простой поиск по ключевым словам (названия университета, образование, R&D, местная индустрия)
- Семантический: сравнение embeddings с эталонными примерами (например, новости про финансирование образования, реформы программ, региональные инновации)
- Встраивает в векторную БД (Milvus) и классифицирует по PESTEL-измерениям через лёгкий supervised classifier
Каждую неделю система строит TRSG: - L0 → L1: Строит граф похожести между новостями недели (cosine similarity на embeddings), запускает Leiden-кластеризацию, для каждого кластера генерирует фактическое резюме через LLM (Gemini 2.0 Flash) - L1 → L2: Кластеризует резюме L1, для каждого мета-кластера генерирует стратегическое резюме через тот же LLM
Сравнение версий: Берёт резюме текущей недели и прошлой недели, для каждого нового резюме ищет наиболее похожее старое (cosine similarity): - Похожесть ≥ 0.90 → Стабильная тема - Похожесть 0.70-0.90 → Изменённая тема - Похожесть < 0.70 → Новая тема - Старые резюме без пары → Исчезнувшие темы
Изменения группируются в темы через два шага: (1) LLM генерирует микро-лейблы для каждого текста, (2) TF-IDF + агломеративная кластеризация (cosine distance) группирует лейблы в канонические названия тем. Для каждой темы запускается PESTEL-анализ через schema-constrained промпт — выдаёт название темы, анализ, уровень важности [0,1]. Результаты кэшируются в MySQL для воспроизводимости.
Use case — curriculum intelligence: Аналитик университета выбирает перспективы Political + Technological, сравнивает 23-ю и 28-ю недели. TRSG показывает две новые темы на L2: "Финансирование цифровых навыков от ЕС" и "Импульс в политике по квантовым вычислениям". На L1 видны конкретные факты: названия программ, суммы, институты. PESTEL-анализ рекомендует: (1) выровнять элективные модули с EU skill frameworks, (2) добавить стек по квантовым основам (концепты + лабы), (3) искать партнёрства с локальными индустриальными лабораториями.
Техническая реализация: Система работает в продакшне. Embeddings через OpenAI TextEmbedding-3, кластеризация Leiden, резюмирование Gemini 2.0 Flash, векторная БД Milvus, метаданные и кэши в MySQL. Пороги подобраны эмпирически: L0→L1 cosine ≥ 0.75, L1→L2 cosine ≥ 0.55. Для малых графов используется прямой cosine, для больших — FAISS с range thresholds. Еженедельные снапшоты сохраняются (pickle) для аудита и быстрого перезапуска.
Оригинал из исследования
Исследование содержит точные промпты для двух уровней. Привожу оригинальные формулировки (переведённые на русский), чтобы ты видел как авторы разделяли абстракцию:
L1 — Тематическое резюме (Thematic Summary)
Создай исчерпывающее тематическое резюме уровня L1 на английском языке.
НЕ давай оценок и НЕ давай предложений.
Определи главную тему, структурируй логично и включи ключевые факты —
названия организаций, даты, цифры, изменения в политике и региональные детали.
Пиши полноценный фактический отчёт без вступительных фраз.
Что делает промпт: - Запрещает оценки и рекомендации → только факты - Требует конкретики: "названия организаций, даты, цифры, политика, география" - "Исчерпывающее" → не упускай детали - "Фактический отчёт" → тон репортажа, не аналитики
L2 — Стратегический синтез (Strategic Synthesis)
Создай единый стратегический брифинг уровня L2 на английском языке.
НЕ оценивай и НЕ сравнивай.
Извлеки общие паттерны и системные тренды, акцентируя силы трансформации
в разных доменах.
Представь как связный разведывательный отчёт без мета-комментариев.
Что делает промпт: - Запрещает оценки и сравнения → только синтез - Требует абстракции: "паттерны", "системные тренды", "силы трансформации" - "Единый" → объединяй темы, ищи связи - "Разведывательный отчёт" → тон стратегического анализа для топ-менеджмента
Ключевое различие промптов:
| Аспект | L1 | L2 |
|---|---|---|
| Цель | Собрать факты | Найти паттерны |
| Конкретика | Максимум (имена, даты) | Минимум (без деталей) |
| Тон | Репортаж | Стратегический анализ |
| Связи | Внутри темы | Между темами |
| Читатель | Эксперт домена | Топ-менеджмент |
Эта разница программирует LLM на разные режимы работы — в L1 модель в роли журналиста-фактчекера, в L2 — в роли стратегического аналитика.
Адаптации
Оригинальный TRSG из исследования — автоматическая система. Но принципы применимы вручную. Вот как можно адаптировать:
Адаптация 1: Ручной TRSG для разовой задачи
Если у тебя 50-100 документов и нужно сделать структурированный дайджест один раз (не регулярно):
Группировка: Вручную или попросив LLM раскидай документы по темам. Например: "Вот 80 статей. Сгруппируй их по главным темам, дай список."
L1 для каждой группы: Для каждой темы возьми все тексты и скорми в промпт L1 из раздела "Шаблон промпта" выше.
L2 для общей картины: Возьми все резюме L1 и скорми в промпт L2.
Экономия токенов: Если группа слишком большая, используй рекурсивное резюмирование — подели на части, резюмируй каждую, потом резюмируй резюме.
Адаптация 2: Персональный knowledge base
Если ты регулярно собираешь информацию (новости индустрии, исследования, заметки), можешь вести личный TRSG:
- Еженедельно или ежемесячно прогоняй новые материалы через L1+L2
- Сохраняй резюме L2 в отдельный документ с датой
- Раз в квартал сравнивай последний L2 с L2 трёхмесячной давности через промпт "Сравнение версий"
Что получишь: Видимость трендов в твоей области. Что появляется, что затихает, что набирает обороты. Работает как персональный foresight.
Адаптация 3: Анализ фидбека клиентов
Вместо новостей — отзывы, тикеты поддержки, интервью с пользователями:
- L1: Фактические резюме проблем (конкретные баги, частота упоминаний, география)
- L2: Стратегические резюме (паттерны болей, трансформации ожиданий пользователей, системные проблемы в продукте)
Сравнение версий покажет: какие боли ушли после последнего релиза, какие новые появились, какие усилились.
Адаптация 4: Мониторинг конкурентов
Собираешь пресс-релизы, запуски продуктов, публикации конкурентов:
- L1: Факты (кто, что запустил, когда, за сколько, какие фичи)
- L2: Стратегические тренды (куда движется рынок, какие гипотезы тестируют конкуренты, какие сегменты активируются)
Сравнение версий покажет: кто начал двигаться в новом направлении, кто затих, кто ускорился.
