TL;DR
Когда просишь LLM пересказать разговор, модель одновременно балансирует три вещи: полноту (всё ли главное попало в пересказ), лаконичность (нет ли в пересказе мусора) и точность (нет ли выдуманных фактов). Исследование OMNICSEVAL проверило 28 LLM на 1800 реальных разговорах — от бытовых чатов до медицинских консультаций — и обнаружило, что улучшение одного измерения почти всегда вредит другому.
Главная находка: режим «мышления» (Thinking/Reasoning в моделях вроде DeepSeek-R1, o1, Gemini 2.5 Pro) резко улучшает полноту и лаконичность, но одновременно увеличивает риск галлюцинаций. Более полный пересказ = больше шансов, что модель добавит то, чего не было. Особенно критично в неформальных чатах: именно там модели врут чаще всего, даже если разговор кажется простым.
Исследование также предлагает конкретный фреймворк для проверки любого пересказа — двустороннее сравнение фактов: сначала проверяем, все ли ключевые факты из источника попали в пересказ (полнота), затем проверяем, все ли факты из пересказа действительно были в источнике (точность). Оба направления — в одном промпте.
Схема метода
Метод разбивается на два уровня: инсайты о поведении LLM (знать — чтобы правильно выбирать настройки) и фреймворк двусторонней проверки (применять — чтобы получать качественные пересказы).
УРОВЕНЬ 1 — Выбор режима под задачу:
Нужна полнота (ничего не пропустить)? → включай Thinking/Reasoning
Нужна точность (ничего не выдумать)? → отключай Thinking, используй обычный режим
Неформальная переписка? → будь особенно осторожен с точностью
УРОВЕНЬ 2 — Двусторонняя проверка (один промпт, три шага):
ШАГ 1: Извлечение ключевых фактов → список атомарных утверждений из источника
ШАГ 2: Генерация пересказа → компактный текст
ШАГ 3а (прямая проверка): Каждый ключевой факт → есть ли он в пересказе? (полнота)
ШАГ 3б (обратная проверка): Каждый факт пересказа → есть ли он в источнике? (точность)
Все шаги выполняются в одном промпте или последовательно в одном диалоге.
Пример применения
Задача: Руководитель стартапа записал часовой синк с командой в Telegram-голосовом. Расшифровка получилась на 8 страниц. Нужен пересказ для инвесторов — без воды и без выдуманных договорённостей.
Промпт:
Работай по трёхшаговому протоколу пересказа.
**ШАБЛОН РАЗГОВОРА:**
[вставь расшифровку синка]
**ШАГ 1 — Ключевые факты источника:**
Извлеки все ключевые утверждения из разговора выше.
Каждое утверждение — одно конкретное действие, решение или цифра.
Без интерпретаций. Только то, что было сказано.
Формат: нумерованный список.
**ШАГ 2 — Пересказ:**
На основе ключевых фактов из шага 1 напиши пересказ для инвестора.
Максимум 150 слов. Без вводных фраз.
**ШАГ 3 — Двусторонняя проверка:**
3а. Полнота: пройдись по каждому ключевому факту из шага 1.
Отметь "✓ есть" или "✗ пропущен".
3б. Точность: пройдись по каждому утверждению из пересказа шага 2.
Отметь "✓ подтверждено источником" или "⚠ не найдено в источнике".
Если есть пропуски или несоответствия — предложи исправленную версию пересказа.
Результат: Модель выдаст три блока: нумерованный список ключевых фактов (10–20 пунктов), сжатый пересказ для инвестора, и две таблицы-проверки — что пропущено и что лишнее. Если модель что-то выдумала в пересказе, шаг 3б это обнаружит и покажет явно. Финальная исправленная версия учтёт оба замечания.
Почему это работает
Слабость LLM при пересказе — три разных проблемы одновременно. Модель не "помнит" весь текст равномерно. Она теряет детали в длинных разговорах, добавляет "логичные" факты которых не было, и не умеет сама себя проверять в один проход. Попросить "перескажи точно и полно" — это попросить модель жонглировать тремя мячами, у каждого из которых свои законы физики.
Режим мышления работает как опытный аналитик, но с плохой памятью. Включённый Thinking заставляет модель разбивать задачу на шаги и искать всё важное в тексте — отсюда полнота. Но в процессе этих длинных "рассуждений" модель начинает интерполировать: достраивает логичные выводы из того, что было сказано, даже если их не было. В неформальных разговорах это особенно заметно: нет структуры → модель её придумывает.
Двусторонняя проверка разделяет задачи. Вместо того чтобы делать всё сразу, мы заставляем модель сначала зафиксировать "эталон" из источника (шаг 1), потом генерировать пересказ (шаг 2), потом сверять в оба направления (шаг 3). Это убирает двусмысленность: у модели есть явный список для сравнения, а не абстрактное "проверь точность".
Рычаги управления промптом: - Детализация шага 1 → чем точнее инструкция к извлечению фактов ("только решения и цифры" vs "все важные моменты"), тем точнее эталон для проверки - Лимит слов в шаге 2 → жёсткий лимит заставляет модель выбирать, а не перечислять всё подряд - Порог в шаге 3 → можно добавить "если пропущено более 20% фактов — перепиши пересказ" для автоматического цикла улучшения - Режим мышления → включай для длинных структурированных разговоров (совещания, интервью), отключай для коротких неформальных чатов
Шаблон промпта
Работай по протоколу трёхмерной проверки пересказа.
**ИСХОДНЫЙ РАЗГОВОР:**
{текст_разговора}
**ШАГ 1 — Ключевые факты источника:**
Извлеки все ключевые утверждения из разговора.
Каждое утверждение — одно действие, решение, факт или цифра.
Без интерпретаций. Только то, что явно присутствует в тексте.
Формат: нумерованный список.
**ШАГ 2 — Пересказ:**
На основе ключевых фактов из шага 1 напиши пересказ.
Цель: {цель_пересказа} (например: для руководителя, для клиента, для себя).
Объём: {лимит_слов} слов.
**ШАГ 3 — Двусторонняя проверка:**
3а. Полнота: по каждому факту из шага 1 — отметь "✓ есть в пересказе" или "✗ пропущен".
3б. Точность: по каждому утверждению из пересказа — отметь "✓ есть в источнике" или "⚠ добавлено от себя".
Если найдены пропуски или добавления — выдай исправленную версию пересказа.
Плейсхолдеры:
- {текст_разговора} — расшифровка, переписка, протокол, интервью
- {цель_пересказа} — кому и зачем: "для инвестора", "для протокола встречи", "для себя как напоминание"
- {лимит_слов} — жёсткое ограничение: 100, 200, 500 слов
🚀 Быстрый старт — вставь в чат:
Вот шаблон для трёхмерной проверки пересказа.
Адаптируй под мою задачу: [опиши свою задачу — что нужно пересказать и для кого].
Задавай вопросы, чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит про источник текста, цель пересказа и желаемый объём — потому что без этого она не сможет настроить лимиты и критерии проверки точно под задачу.
Почему важно знать про режим мышления
Это прямо влияет на то, как ты работаешь с ChatGPT, Claude и DeepSeek каждый день:
| Тип разговора | Главная опасность | Что делать |
|---|---|---|
| Совещание, интервью, длинный разговор | Пропустит важное | Включай Thinking, потом проверяй точность |
| Неформальный чат, переписка друзей | Выдумает то, чего не было | Отключи Thinking, добавь явную просьбу "только факты из текста" |
| Медицинская консультация, юридический текст | Умеренные галлюции при высоких ставках | Всегда используй двустороннюю проверку |
| Скрипт продаж, сценарий | Потеряет детали характеров и диалогов | Reasoning-режим + явное требование по персонажам |
Ограничения
⚠️ Компромисс между полнотой и точностью неустраним: Любая техника, которая улучшает одно, слегка жертвует другим. Двусторонняя проверка снижает этот риск, но не устраняет его полностью — итерация неизбежна.
⚠️ Длинные тексты — хуже по всем параметрам: Чем длиннее разговор (совещания, сценарии), тем сильнее падают и полнота, и лаконичность — даже у лучших моделей. Для очень длинных текстов используй разбивку на части перед финальным пересказом.
⚠️ "Длиннее думает" ≠ "лучше пересказывает": Модели, которые генерируют очень длинные цепочки рассуждений (много токенов в Thinking), не обязательно дают лучший результат. Экономия токенов через чёткий структурированный промпт часто эффективнее.
⚠️ Неформальный язык — зона риска: Именно простые бытовые разговоры (мессенджеры, бытовые диалоги) дают наихудшую точность у всех моделей. Это контринтуитивно — текст короткий и простой, но модель "достраивает" смысл там, где его нет.
Ресурсы
Оригинальная работа: A Large-Scale Multi-Dimensional Empirical Study of LLMs for Conversation Summarization GitHub: https://github.com/zhouweixiao/OmniCSEval Авторы: Weixiao Zhou, Gengyao Li, Xianfu Cheng, Junnan Zhu, Feifei Zhai, Zhoujun Li Университеты: Beihang University (CCSE), CASIA (MAIS), Fanyu AI Laboratory
