3,583 papers
arXiv:2512.15397 76 17 дек. 2025 г. FREE

TRSG (Time-Dependent Recursive Summary Graph): двухуровневое резюме больших потоков информации

КЛЮЧЕВАЯ СУТЬ
Когда накапливается 100+ документов, LLM теряется: одно резюме превращается либо в кашу фактов, либо в воду общих слов. Нет компромисса между детальностью и панорамой. Метод TRSG позволяет видеть одновременно и конкретику, и тренды — строишь двухуровневую иерархию резюме. Первый уровень (L1) – фактические резюме групп текстов: имена, даты, цифры, связи. Второй уровень (L2) – стратегические резюме резюме: паттерны, тренды, силы изменений. Получается зум от микроскопа к панораме без потери информации.
Адаптировать под запрос

TL;DR

TRSG — метод превращения большого потока документов в компактную двухуровневую структуру: сначала группируешь похожие тексты и делаешь фактические резюме каждой группы, потом группируешь резюме и делаешь стратегические резюме групп. Получается иерархия: детали внизу, паттерны и тренды наверху. ORACLE — система для финского университета, которая применяет этот метод к новостям: каждую неделю строит свежий граф и сравнивает с прошлой неделей, показывая что появилось, что исчезло, что изменилось.

Проблема: Когда информации много (сотни новостей, десятки отчётов), человек тонет в деталях. Одно большое резюме размазывает фокус — не видно ни конкретики, ни общей картины. Простое резюме теряет нюансы. Детальное резюме — снова каша. LLM хорошо резюмирует 5-10 текстов, но при масштабе 100+ начинается потеря информации или выход за лимиты контекста.

Суть: Метод работает в два прохода — как зум от микроскопа к панораме. Первый уровень (L1): группируешь похожие тексты, для каждой группы делаешь резюме с максимумом фактов (имена, даты, цифры, связи). Второй уровень (L2): группируешь резюме L1, для каждой группы делаешь резюме с максимумом абстракции (паттерны, тренды, импликации, минимум конкретики). Если группа слишком большая — применяешь рекурсивное резюмирование: делишь на части, резюмируешь каждую, потом резюмируешь резюме. Получается структура где можно нырнуть в детали или взлететь к трендам.


🔬

Схема метода

ШАГ 1: Группировка похожих текстов
→ Кластеры похожих документов

ШАГ 2 (L1): Фактическое резюме каждого кластера
Промпт: "Факты, имена, даты, цифры, связи. Без оценок."
→ Набор фактических резюме

ШАГ 3: Группировка резюме L1
→ Мета-кластеры

ШАГ 4 (L2): Стратегическое резюме каждого мета-кластера
Промпт: "Паттерны, тренды, импликации. Без деталей."
→ Набор стратегических резюме

ШАГ 5 (опционально): Сравнение с прошлой версией
→ Что добавилось, исчезло, изменилось

Рекурсивное резюмирование (если кластер > лимита контекста): - Делишь тексты на части - Резюмируешь каждую часть - Резюмируешь резюме → финальное резюме

Все шаги можно делать вручную в чате или автоматизировать через API.


🚀

Пример применения

Задача: Ты готовишь квартальный отчёт для совета директоров. За 3 месяца накопилось 80+ внутренних отчётов отделов, новостей рынка, отзывов клиентов, аналитики конкурентов. Нужно показать (1) что конкретно происходило и (2) какие тренды это формирует для стратегии.

Шаг 1 — Группировка:

Сначала вручную или попросив LLM раскидай тексты по темам. Например: - Кластер 1: Отзывы клиентов о мобильном приложении (12 документов) - Кластер 2: Новости про конкурента А — запуск нового продукта (8 документов) - Кластер 3: Внутренние отчёты продаж в Москве (15 документов) - Кластер 4: Аналитика рынка B2B-сегмента (10 документов) - ...

Шаг 2 — L1 (фактические резюме):

Для каждого кластера:

Промпт L1:

Создай фактическое резюме этой группы текстов.

ТРЕБОВАНИЯ:
- Максимум конкретики: имена, даты, цифры, суммы, названия
- Ключевые факты и связи между ними
- Структурируй логично
- НЕ давай оценок, рекомендаций, предположений
- Пиши связным текстом

ТЕКСТЫ:
[вставляешь все тексты кластера]

Результат L1: Получишь 8-10 резюме (по числу кластеров), каждое на 200-400 слов, с максимумом фактов. Например:

"Отзывы о мобильном приложении (март-май): 73% упоминаний связаны с проблемами авторизации через СМС (задержка 3-5 минут). Клиенты из Петербурга (28 отзывов) жалуются на вылеты при открытии раздела «История операций». Москва (41 отзыв) — основная боль в медленной загрузке главного экрана (8-12 секунд). 15 мая техподдержка зафиксировала пик обращений (340 за день) после релиза версии 2.3.1..."

Шаг 3 — Группировка резюме:

Теперь группируешь резюме L1 по более широким темам. Например: - Мета-кластер 1: Клиентский опыт (резюме про отзывы + резюме про техподдержку) - Мета-кластер 2: Конкурентная среда (резюме про конкурентов А, Б, В) - Мета-кластер 3: Внутренние операции (резюме про продажи + резюме про производство)

Шаг 4 — L2 (стратегические резюме):

Для каждого мета-кластера:

Промпт L2:

Создай стратегическое резюме на основе этих фактических резюме.

ТРЕБОВАНИЯ:
- Выяви паттерны, тренды, системные явления
- Покажи связи между темами
- Абстрагируйся от деталей — фокус на трансформациях и силах изменений
- НЕ сравнивай и НЕ оценивай — только синтез
- Пиши как брифинг для топ-менеджмента

РЕЗЮМЕ L1:
[вставляешь резюме из мета-кластера]

Результат L2: Получишь 3-4 стратегических резюме, каждое на 150-250 слов, показывающих общую картину. Например:

"Клиентский опыт: Наблюдается системный сдвиг в ожиданиях пользователей — порог терпимости к задержкам упал с 30 секунд (2023) до 5-8 секунд (2024). Технические проблемы авторизации формируют негативный якорь первого касания, распространяясь через соцсети и снижая конверсию новых установок. География жалоб коррелирует с возрастом инфраструктуры бэкенда..."

Шаг 5 — Сравнение (если делаешь регулярно):

Через 3 месяца повторяешь процесс и сравниваешь резюме L2: - Что появилось нового (новые тренды) - Что исчезло (решённые проблемы или потерявшие актуальность темы) - Что изменилось (усиление/ослабление трендов)


🧠

Почему это работает

Слабость LLM: Модель хорошо обобщает 5-10 текстов, но при масштабе 50-100+ начинается коллапс внимания — важные детали теряются, появляются галлюцинации, или вообще выход за лимит контекста. Одно резюме на 100 текстов получается либо поверхностным (общие слова), либо перегруженным (каша фактов). Компромисса нет — нужно выбирать между детальностью и обзорностью.

Сильная сторона LLM: Модель отлично работает с явной структурой и пошаговыми инструкциями. Если задача разбита на уровни абстракции, LLM переключается между режимами: "репортёр" (факты) → "аналитик" (паттерны). Это как давать разные роли — в каждой модель фокусируется на своём срезе и не смешивает уровни.

Как метод использует это: TRSG разделяет масштаб (сколько текстов) и абстракцию (насколько обобщённо). Сначала дробишь массив на управляемые куски (10-15 текстов) и резюмируешь фактически — модель в режиме "собрать все важные детали". Потом берёшь резюме (их уже меньше — 8-10 штук) и резюмируешь стратегически — модель в режиме "найти паттерны". Получается зум от деталей к трендам без потери информации. Финальная структура читается на двух скоростях: нужны детали — идёшь в L1, нужна картина — смотришь L2.

Рычаги управления:

  • Размер кластера (сколько текстов в группе): 5-10 для высокой детальности, 15-20 для экономии запросов. Если кластер превышает лимит контекста — включается рекурсивное резюмирование.

  • Инструкция для L1 (фактическое резюме): добавь "приоритет цифрам и датам" если нужна точность, или "связи между событиями" если нужен нарратив. Убери "без оценок" если хочешь видеть интерпретации уже на L1.

  • Инструкция для L2 (стратегическое резюме): добавь "фокус на рисках" или "фокус на возможностях" чтобы окрасить синтез в нужную сторону. Замени "паттерны" на "аномалии" если ищешь слабые сигналы.

  • Число уровней: можешь сделать L3 (резюме резюме резюме) если исходных текстов 500+. Или остановиться на L1 если нужны только факты без синтеза.

  • Частота сравнения: делай snapshot каждую неделю/месяц/квартал и сравнивай — увидишь динамику. Или делай разово — получишь структурированный дайджест.

Рекурсивное резюмирование — отдельный рычаг. Если один кластер содержит 30 текстов и не влезает в контекст: 1. Делишь на 3 части по 10 текстов 2. Резюмируешь каждую часть с промптом L1 3. Три резюме объединяешь и резюмируешь снова с промптом L1 4. Получаешь финальное резюме без потери полноты

Это как сжатие с потерями, но контролируемое — ты решаешь на каком уровне детализации остановиться.


📋

Шаблон промпта

📌

L1 — Фактическое резюме кластера

Создай фактическое резюме этой группы текстов.

ТРЕБОВАНИЯ:
- Определи главную тему группы
- Извлеки ключевые факты: имена, даты, цифры, суммы, названия компаний/продуктов/мест
- Покажи связи между событиями и фактами
- Структурируй логично
- НЕ давай оценок, рекомендаций, предположений — только факты
- Пиши связным текстом, как информационный отчёт

ТЕКСТЫ:
{список_текстов}

Плейсхолдеры: - {список_текстов} — вставь все тексты из группы через разделитель, например ---


📌

L2 — Стратегическое резюме мета-кластера

Создай стратегическое резюме на основе этих фактических резюме.

ТРЕБОВАНИЯ:
- Выяви паттерны и тренды, проходящие через несколько тем
- Покажи системные явления и трансформации
- Акцент на силах изменений и их направлении
- Минимум конкретных деталей — они уже в исходных резюме
- НЕ сравнивай и НЕ оценивай — только синтез
- Пиши как стратегический брифинг

РЕЗЮМЕ L1:
{список_резюме_L1}

Плейсхолдеры: - {список_резюме_L1} — вставь несколько фактических резюме через разделитель


📌

Рекурсивное резюмирование (если кластер слишком большой)

Если группа текстов превышает лимит контекста:

ШАГ 1: Подели тексты на части по 10-15 штук

ШАГ 2: Для каждой части используй промпт L1 выше

ШАГ 3: Когда получишь резюме всех частей, объедини их и снова используй промпт L1:

---

Создай финальное фактическое резюме на основе этих промежуточных резюме.

ТРЕБОВАНИЯ:
- Объедини информацию, сохраняя все ключевые факты
- Убери дублирование
- Структурируй логично
- Пиши связным текстом

ПРОМЕЖУТОЧНЫЕ РЕЗЮМЕ:
{резюме_частей}

Плейсхолдеры: - {резюме_частей} — вставь все промежуточные резюме


⚖️

Сравнение версий (для отслеживания изменений)

Сравни два набора резюме — старую и новую версию.

ЗАДАЧА:
Для каждого резюме из новой версии найди наиболее похожее в старой версии и определи:
- СТАБИЛЬНОЕ — тема практически не изменилась (очень похожи)
- ИЗМЕНЁННОЕ — тема развилась, появились новые аспекты (похожи, но есть различия)
- НОВОЕ — тема отсутствовала в старой версии (нет похожих)

Также найди темы из старой версии, которые ИСЧЕЗЛИ в новой.

СТАРАЯ ВЕРСИЯ:
{старые_резюме}

НОВАЯ ВЕРСИЯ:
{новые_резюме}

ФОРМАТ ОТВЕТА:
Для каждой категории (Новое, Изменённое, Исчезло) дай краткое название темы и 1-2 предложения описания.

Плейсхолдеры: - {старые_резюме} — резюме из прошлого периода (L1 или L2) - {новые_резюме} — резюме из текущего периода (L1 или L2)


🚀 Быстрый старт — вставь в чат:

Вот метод TRSG для работы с большими объёмами информации. Адаптируй под мою задачу: [твоя задача — например, "резюмировать 50 статей про ИИ за месяц" или "структурировать фидбек от 80 клиентов"].

Задавай вопросы, чтобы помочь мне:
1. Разбить тексты на логические группы
2. Создать фактические резюме групп (L1)
3. Создать стратегические резюме (L2)

[вставить шаблоны L1 и L2 выше]

LLM спросит: сколько у тебя текстов, какая главная цель (детали или общая картина), есть ли естественная группировка (по темам/датам/источникам), нужно ли сравнение с прошлой версией. Она возьмёт двухуровневую структуру TRSG и проведёт тебя через процесс.


⚠️

Ограничения

⚠️ Ручная группировка: Если делаешь вручную, группировка текстов на первом шаге — субъективна. Разные люди сгруппируют по-разному, итоговые резюме будут отличаться. Метод работает лучше когда есть явная структура (папки, теги, даты).

⚠️ Потеря нюансов: Двухуровневая иерархия сжимает информацию. Редкие, но важные факты могут не попасть в резюме, если они не типичны для кластера. Решение — делать кластеры меньше (больше групп) или добавлять третий уровень детализации.

⚠️ Стоимость токенов: Если автоматизируешь через API, при больших объёмах (100+ текстов) метод съест много токенов. Резюмирование каждого кластера + резюмирование резюме = два прохода. Для разовой работы в чате — не проблема, для ежедневного автоматического процесса — может быть дорого.

⚠️ Не для динамического анализа: Метод создаёт снапшот — картину на момент времени. Если тебе нужно отслеживать как конкретная тема развивается день за днём (а не неделя к неделе), потребуется другой подход — трекинг отдельных нарративов, а не пересборка всей структуры.

⚠️ Сравнение версий — приблизительное: Когда сравниваешь две версии графа, определение "похожести" тем — эвристика. Тема могла трансформироваться так, что метод посчитает её "новой", хотя это продолжение старой. Или наоборот — свяжет разные темы по случайному совпадению формулировок.


🔗

Ресурсы

ORACLE: Time-Dependent Recursive Summary Graphs for Foresight on News Data Using LLMs

Lev Kharlashkin, Eiaki Morooka, Yehor Tereshchenko, Mika Hämäläinen

Metropolia University of Applied Sciences, Helsinki, Finland

Упоминаемые техники и подходы: - SBERT, SimCSE (semantic embeddings) - Louvain, Leiden (community detection) - BERTopic (topic modeling) - PESTEL framework (strategic analysis dimensions) - LexRank, TextRank (extractive summarization)


🔍

Как исследовали

Исследователи построили работающую систему для финского университета прикладных наук. Система автоматически краулит финские новости (RSS-фиды источников типа Yle), каждый день:

  1. Собирает новости и вычисляет хэш контента — если статья обновилась, сохраняется новая версия
  2. Фильтрует по релевантности для университета в два этапа:
    • Лексический: простой поиск по ключевым словам (названия университета, образование, R&D, местная индустрия)
    • Семантический: сравнение embeddings с эталонными примерами (например, новости про финансирование образования, реформы программ, региональные инновации)
  3. Встраивает в векторную БД (Milvus) и классифицирует по PESTEL-измерениям через лёгкий supervised classifier

Каждую неделю система строит TRSG: - L0 → L1: Строит граф похожести между новостями недели (cosine similarity на embeddings), запускает Leiden-кластеризацию, для каждого кластера генерирует фактическое резюме через LLM (Gemini 2.0 Flash) - L1 → L2: Кластеризует резюме L1, для каждого мета-кластера генерирует стратегическое резюме через тот же LLM

Сравнение версий: Берёт резюме текущей недели и прошлой недели, для каждого нового резюме ищет наиболее похожее старое (cosine similarity): - Похожесть ≥ 0.90 → Стабильная тема - Похожесть 0.70-0.90 → Изменённая тема - Похожесть < 0.70 → Новая тема - Старые резюме без пары → Исчезнувшие темы

Изменения группируются в темы через два шага: (1) LLM генерирует микро-лейблы для каждого текста, (2) TF-IDF + агломеративная кластеризация (cosine distance) группирует лейблы в канонические названия тем. Для каждой темы запускается PESTEL-анализ через schema-constrained промпт — выдаёт название темы, анализ, уровень важности [0,1]. Результаты кэшируются в MySQL для воспроизводимости.

Use case — curriculum intelligence: Аналитик университета выбирает перспективы Political + Technological, сравнивает 23-ю и 28-ю недели. TRSG показывает две новые темы на L2: "Финансирование цифровых навыков от ЕС" и "Импульс в политике по квантовым вычислениям". На L1 видны конкретные факты: названия программ, суммы, институты. PESTEL-анализ рекомендует: (1) выровнять элективные модули с EU skill frameworks, (2) добавить стек по квантовым основам (концепты + лабы), (3) искать партнёрства с локальными индустриальными лабораториями.

Техническая реализация: Система работает в продакшне. Embeddings через OpenAI TextEmbedding-3, кластеризация Leiden, резюмирование Gemini 2.0 Flash, векторная БД Milvus, метаданные и кэши в MySQL. Пороги подобраны эмпирически: L0→L1 cosine ≥ 0.75, L1→L2 cosine ≥ 0.55. Для малых графов используется прямой cosine, для больших — FAISS с range thresholds. Еженедельные снапшоты сохраняются (pickle) для аудита и быстрого перезапуска.


📄

Оригинал из исследования

Исследование содержит точные промпты для двух уровней. Привожу оригинальные формулировки (переведённые на русский), чтобы ты видел как авторы разделяли абстракцию:

📌

L1 — Тематическое резюме (Thematic Summary)

Создай исчерпывающее тематическое резюме уровня L1 на английском языке.

НЕ давай оценок и НЕ давай предложений.

Определи главную тему, структурируй логично и включи ключевые факты — 
названия организаций, даты, цифры, изменения в политике и региональные детали.

Пиши полноценный фактический отчёт без вступительных фраз.

Что делает промпт: - Запрещает оценки и рекомендации → только факты - Требует конкретики: "названия организаций, даты, цифры, политика, география" - "Исчерпывающее" → не упускай детали - "Фактический отчёт" → тон репортажа, не аналитики


📌

L2 — Стратегический синтез (Strategic Synthesis)

Создай единый стратегический брифинг уровня L2 на английском языке.

НЕ оценивай и НЕ сравнивай.

Извлеки общие паттерны и системные тренды, акцентируя силы трансформации 
в разных доменах.

Представь как связный разведывательный отчёт без мета-комментариев.

Что делает промпт: - Запрещает оценки и сравнения → только синтез - Требует абстракции: "паттерны", "системные тренды", "силы трансформации" - "Единый" → объединяй темы, ищи связи - "Разведывательный отчёт" → тон стратегического анализа для топ-менеджмента


Ключевое различие промптов:

Аспект L1 L2
Цель Собрать факты Найти паттерны
Конкретика Максимум (имена, даты) Минимум (без деталей)
Тон Репортаж Стратегический анализ
Связи Внутри темы Между темами
Читатель Эксперт домена Топ-менеджмент

Эта разница программирует LLM на разные режимы работы — в L1 модель в роли журналиста-фактчекера, в L2 — в роли стратегического аналитика.


📌

Адаптации

Оригинальный TRSG из исследования — автоматическая система. Но принципы применимы вручную. Вот как можно адаптировать:

📌

Адаптация 1: Ручной TRSG для разовой задачи

Если у тебя 50-100 документов и нужно сделать структурированный дайджест один раз (не регулярно):

  1. Группировка: Вручную или попросив LLM раскидай документы по темам. Например: "Вот 80 статей. Сгруппируй их по главным темам, дай список."

  2. L1 для каждой группы: Для каждой темы возьми все тексты и скорми в промпт L1 из раздела "Шаблон промпта" выше.

  3. L2 для общей картины: Возьми все резюме L1 и скорми в промпт L2.

Экономия токенов: Если группа слишком большая, используй рекурсивное резюмирование — подели на части, резюмируй каждую, потом резюмируй резюме.


📌

Адаптация 2: Персональный knowledge base

Если ты регулярно собираешь информацию (новости индустрии, исследования, заметки), можешь вести личный TRSG:

  • Еженедельно или ежемесячно прогоняй новые материалы через L1+L2
  • Сохраняй резюме L2 в отдельный документ с датой
  • Раз в квартал сравнивай последний L2 с L2 трёхмесячной давности через промпт "Сравнение версий"

Что получишь: Видимость трендов в твоей области. Что появляется, что затихает, что набирает обороты. Работает как персональный foresight.


📌

Адаптация 3: Анализ фидбека клиентов

Вместо новостей — отзывы, тикеты поддержки, интервью с пользователями:

  • L1: Фактические резюме проблем (конкретные баги, частота упоминаний, география)
  • L2: Стратегические резюме (паттерны болей, трансформации ожиданий пользователей, системные проблемы в продукте)

Сравнение версий покажет: какие боли ушли после последнего релиза, какие новые появились, какие усилились.


📌

Адаптация 4: Мониторинг конкурентов

Собираешь пресс-релизы, запуски продуктов, публикации конкурентов:

  • L1: Факты (кто, что запустил, когда, за сколько, какие фичи)
  • L2: Стратегические тренды (куда движется рынок, какие гипотезы тестируют конкуренты, какие сегменты активируются)

Сравнение версий покажет: кто начал двигаться в новом направлении, кто затих, кто ускорился.


📋 Дайджест исследования

Ключевая суть

Когда накапливается 100+ документов, LLM теряется: одно резюме превращается либо в кашу фактов, либо в воду общих слов. Нет компромисса между детальностью и панорамой. Метод TRSG позволяет видеть одновременно и конкретику, и тренды — строишь двухуровневую иерархию резюме. Первый уровень (L1) – фактические резюме групп текстов: имена, даты, цифры, связи. Второй уровень (L2) – стратегические резюме резюме: паттерны, тренды, силы изменений. Получается зум от микроскопа к панораме без потери информации.

Принцип работы

Разделяй масштаб и абстракцию. Сначала дробишь массив на управляемые куски по 10-15 текстов → резюмируешь каждую группу с фокусом на факты (режим «репортёр»). Потом берёшь эти резюме (их уже 8-10 штук) → группируешь снова → резюмируешь с фокусом на паттерны (режим «аналитик»). LLM переключается между двумя режимами и не смешивает уровни — в каждом проходе своя задача. Если группа слишком большая — применяешь рекурсию: делишь на части, резюмируешь каждую, потом резюмируешь резюме.

Почему работает

LLM отлично обобщает 5-10 текстов, но при масштабе 50-100+ начинается коллапс внимания — важные детали теряются, появляются галлюцинации, или модель упирается в лимит контекста. Одно резюме на 100 текстов получается либо поверхностным, либо перегруженным — компромисса нет. TRSG разбивает задачу на управляемые куски и разделяет слои абстракции. Сначала модель собирает детали в группах по 10-15 текстов (без потерь). Потом синтезирует паттерны из уже сжатой информации (резюме вместо сырых текстов). Получается структура которая читается на двух скоростях: нужны детали — ныряешь в L1, нужна картина — смотришь L2.

Когда применять

Анализ больших объёмов информации → конкретно для квартальных отчётов из 80+ документов, новостных дайджестов, фидбека от десятков клиентов, мониторинга рынка, особенно когда нужно видеть одновременно и конкретные факты, и общие тренды. НЕ подходит для динамического анализа (как конкретная тема развивается день за днём) — метод создаёт снапшот на момент времени.

Мини-рецепт

1. Группируй похожие тексты: раскидай по темам вручную или попроси LLM. Цель — группы по 10-15 текстов.
2. Создай фактические резюме (L1): для каждой группы используй промпт: Создай фактическое резюме. Максимум конкретики: имена, даты, цифры, связи. Без оценок и рекомендаций — только факты.
3. Группируй резюме L1: объедини в мета-кластеры по более широким темам (например: клиентский опыт, конкуренты, внутренние операции).
4. Создай стратегические резюме (L2): для каждого мета-кластера используй промпт: Создай стратегическое резюме. Выяви паттерны, тренды, системные явления. Минимум деталей — фокус на силах изменений.
5. Опционально — сравни версии: если делаешь регулярно, сравни новую и старую версию: что появилось, исчезло, изменилось.

Примеры

[ПЛОХО] : Сделай резюме этих 80 отчётов за квартал — выдели главное (модель либо потеряет детали, либо выдаст воду)
[ХОРОШО] : Группируешь 80 отчётов в 8 тематических кластеров по 10 штук. Для каждого кластера: Фактическое резюме: имена, даты, цифры, связи между событиями. Без оценок. Получаешь 8 фактических резюме. Группируешь их в 3 мета-темы. Для каждой: Стратегическое резюме: паттерны и тренды этих тем. Без деталей — только системные явления. Итог — 3 стратегических резюме + 8 фактических на уровень ниже.
Источник: ORACLE: Time-Dependent Recursive Summary Graphs for Foresight on News Data Using LLMs
ArXiv ID: 2512.15397 | Сгенерировано: 2026-01-08 22:36
📖 Простыми словами

TRSG (Time-Dependent Recursive Summary Graph): двухуровневое резюме больших потоков информации

arXiv: 2512.15397

Суть метода ORACLE в том, что он лечит главную болезнь нейросетей — коллапс внимания. Когда ты скармливаешь модели сотню новостей за раз, она либо выдает водянистую чушь, либо тонет в деталях, теряя общую картину. Чтобы этого не происходило, данные упаковывают в двухуровневую иерархию: сначала превращают гору сырых текстов в плотные фактические выжимки, а потом из этих выжимок собирают высокоуровневые стратегии. Это позволяет сохранить и конкретные цифры, и глобальные тренды, не превращая отчет в кашу.

Это как если бы ты пытался изучить город по тысяче фотографий отдельных кирпичей и тротуаров. Формально информации много, но где ты находишься — непонятно. TRSG (рекурсивные графы резюме) сначала склеивает фото кирпичей в снимки зданий, а потом из зданий собирает панораму района. Ты видишь и трещину на конкретном доме, и то, куда расширяется город, не ломая при этом глаза.

В основе лежат два этапа: фактическое резюмирование и стратегический синтез. Сначала система группирует похожие новости и выжимает из них сухие факты — кто, что и когда сделал. Затем эти микро-резюме объединяются в кластеры по смыслу, и модель пишет «верхний слой» — объясняет, во что эти события складываются. В итоге получается динамический граф, который каждую неделю обновляется: система сама подсвечивает, какие темы сдохли, а какие внезапно выстрелили, сравнивая свежий срез с предыдущим.

Хотя систему обкатывали на новостях для финского университета, принцип универсален. Это идеальное решение для любой сферы, где данных больше, чем свободного времени у человека: от анализа квартальных отчетов корпорации до мониторинга отзывов на маркетплейсах. Вместо того чтобы тонуть в 80+ документах, ты получаешь структуру, где детали внизу, а смыслы наверху. Это превращает хаотичный поток информации в инструмент для принятия решений, а не в очередную свалку текста.

Короче: хватит пытаться запихнуть невпихуемое в одно окно контекста — используй рекурсивное сжатие. Метод ORACLE доказывает, что иерархия бьет объем, а структурированный граф работает лучше, чем любая «простыня» текста. Кто научится так фильтровать инфошум, тот перестанет гадать на кофейной гуще и начнет видеть реальные изменения в динамике, пока конкуренты пытаются дочитать вчерашние газеты.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с