3,583 papers
arXiv:2606.15974 70 14 июня 2026 г. FREE

Трёхмерная проверка пересказа: режим «мышления» в LLM делает пересказ полнее, но лживее

КЛЮЧЕВАЯ СУТЬ
Включил режим «мышления» в Claude или DeepSeek — пересказ стал подробнее. Хорошо. Но одновременно модель начала добавлять факты, которых не было. Плохо. Исследование 28 моделей на 1800 реальных разговорах подтвердило: полнота и точность пересказа тянут в разные стороны — и Thinking-режим резко усиливает это противоречие. Метод двусторонней проверки позволяет поймать оба дефекта одним промптом — и что пропущено, и что выдумано.
Адаптировать под запрос

TL;DR

Когда просишь LLM пересказать разговор, модель одновременно балансирует три вещи: полноту (всё ли главное попало в пересказ), лаконичность (нет ли в пересказе мусора) и точность (нет ли выдуманных фактов). Исследование OMNICSEVAL проверило 28 LLM на 1800 реальных разговорах — от бытовых чатов до медицинских консультаций — и обнаружило, что улучшение одного измерения почти всегда вредит другому.

Главная находка: режим «мышления» (Thinking/Reasoning в моделях вроде DeepSeek-R1, o1, Gemini 2.5 Pro) резко улучшает полноту и лаконичность, но одновременно увеличивает риск галлюцинаций. Более полный пересказ = больше шансов, что модель добавит то, чего не было. Особенно критично в неформальных чатах: именно там модели врут чаще всего, даже если разговор кажется простым.

Исследование также предлагает конкретный фреймворк для проверки любого пересказа — двустороннее сравнение фактов: сначала проверяем, все ли ключевые факты из источника попали в пересказ (полнота), затем проверяем, все ли факты из пересказа действительно были в источнике (точность). Оба направления — в одном промпте.


🔬

Схема метода

Метод разбивается на два уровня: инсайты о поведении LLM (знать — чтобы правильно выбирать настройки) и фреймворк двусторонней проверки (применять — чтобы получать качественные пересказы).

УРОВЕНЬ 1 — Выбор режима под задачу:

Нужна полнота (ничего не пропустить)?     → включай Thinking/Reasoning
Нужна точность (ничего не выдумать)?      → отключай Thinking, используй обычный режим
Неформальная переписка?                   → будь особенно осторожен с точностью

УРОВЕНЬ 2 — Двусторонняя проверка (один промпт, три шага):

ШАГ 1: Извлечение ключевых фактов → список атомарных утверждений из источника
ШАГ 2: Генерация пересказа → компактный текст
ШАГ 3а (прямая проверка): Каждый ключевой факт → есть ли он в пересказе? (полнота)
ШАГ 3б (обратная проверка): Каждый факт пересказа → есть ли он в источнике? (точность)

Все шаги выполняются в одном промпте или последовательно в одном диалоге.

🚀

Пример применения

Задача: Руководитель стартапа записал часовой синк с командой в Telegram-голосовом. Расшифровка получилась на 8 страниц. Нужен пересказ для инвесторов — без воды и без выдуманных договорённостей.

Промпт:

Работай по трёхшаговому протоколу пересказа.

**ШАБЛОН РАЗГОВОРА:**
[вставь расшифровку синка]

**ШАГ 1 — Ключевые факты источника:**
Извлеки все ключевые утверждения из разговора выше. 
Каждое утверждение — одно конкретное действие, решение или цифра. 
Без интерпретаций. Только то, что было сказано.
Формат: нумерованный список.

**ШАГ 2 — Пересказ:**
На основе ключевых фактов из шага 1 напиши пересказ для инвестора. 
Максимум 150 слов. Без вводных фраз.

**ШАГ 3 — Двусторонняя проверка:**
3а. Полнота: пройдись по каждому ключевому факту из шага 1. 
    Отметь "✓ есть" или "✗ пропущен".
3б. Точность: пройдись по каждому утверждению из пересказа шага 2. 
    Отметь "✓ подтверждено источником" или "⚠ не найдено в источнике".

Если есть пропуски или несоответствия — предложи исправленную версию пересказа.

Результат: Модель выдаст три блока: нумерованный список ключевых фактов (10–20 пунктов), сжатый пересказ для инвестора, и две таблицы-проверки — что пропущено и что лишнее. Если модель что-то выдумала в пересказе, шаг 3б это обнаружит и покажет явно. Финальная исправленная версия учтёт оба замечания.


🧠

Почему это работает

Слабость LLM при пересказе — три разных проблемы одновременно. Модель не "помнит" весь текст равномерно. Она теряет детали в длинных разговорах, добавляет "логичные" факты которых не было, и не умеет сама себя проверять в один проход. Попросить "перескажи точно и полно" — это попросить модель жонглировать тремя мячами, у каждого из которых свои законы физики.

Режим мышления работает как опытный аналитик, но с плохой памятью. Включённый Thinking заставляет модель разбивать задачу на шаги и искать всё важное в тексте — отсюда полнота. Но в процессе этих длинных "рассуждений" модель начинает интерполировать: достраивает логичные выводы из того, что было сказано, даже если их не было. В неформальных разговорах это особенно заметно: нет структуры → модель её придумывает.

Двусторонняя проверка разделяет задачи. Вместо того чтобы делать всё сразу, мы заставляем модель сначала зафиксировать "эталон" из источника (шаг 1), потом генерировать пересказ (шаг 2), потом сверять в оба направления (шаг 3). Это убирает двусмысленность: у модели есть явный список для сравнения, а не абстрактное "проверь точность".

Рычаги управления промптом: - Детализация шага 1 → чем точнее инструкция к извлечению фактов ("только решения и цифры" vs "все важные моменты"), тем точнее эталон для проверки - Лимит слов в шаге 2 → жёсткий лимит заставляет модель выбирать, а не перечислять всё подряд - Порог в шаге 3 → можно добавить "если пропущено более 20% фактов — перепиши пересказ" для автоматического цикла улучшения - Режим мышления → включай для длинных структурированных разговоров (совещания, интервью), отключай для коротких неформальных чатов


📋

Шаблон промпта

Работай по протоколу трёхмерной проверки пересказа.

**ИСХОДНЫЙ РАЗГОВОР:**
{текст_разговора}

**ШАГ 1 — Ключевые факты источника:**
Извлеки все ключевые утверждения из разговора.
Каждое утверждение — одно действие, решение, факт или цифра.
Без интерпретаций. Только то, что явно присутствует в тексте.
Формат: нумерованный список.

**ШАГ 2 — Пересказ:**
На основе ключевых фактов из шага 1 напиши пересказ.
Цель: {цель_пересказа} (например: для руководителя, для клиента, для себя).
Объём: {лимит_слов} слов.

**ШАГ 3 — Двусторонняя проверка:**
3а. Полнота: по каждому факту из шага 1 — отметь "✓ есть в пересказе" или "✗ пропущен".
3б. Точность: по каждому утверждению из пересказа — отметь "✓ есть в источнике" или "⚠ добавлено от себя".

Если найдены пропуски или добавления — выдай исправленную версию пересказа.

Плейсхолдеры: - {текст_разговора} — расшифровка, переписка, протокол, интервью - {цель_пересказа} — кому и зачем: "для инвестора", "для протокола встречи", "для себя как напоминание" - {лимит_слов} — жёсткое ограничение: 100, 200, 500 слов


🚀 Быстрый старт — вставь в чат:

Вот шаблон для трёхмерной проверки пересказа. 
Адаптируй под мою задачу: [опиши свою задачу — что нужно пересказать и для кого].
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит про источник текста, цель пересказа и желаемый объём — потому что без этого она не сможет настроить лимиты и критерии проверки точно под задачу.


📌

Почему важно знать про режим мышления

Это прямо влияет на то, как ты работаешь с ChatGPT, Claude и DeepSeek каждый день:

Тип разговора Главная опасность Что делать
Совещание, интервью, длинный разговор Пропустит важное Включай Thinking, потом проверяй точность
Неформальный чат, переписка друзей Выдумает то, чего не было Отключи Thinking, добавь явную просьбу "только факты из текста"
Медицинская консультация, юридический текст Умеренные галлюции при высоких ставках Всегда используй двустороннюю проверку
Скрипт продаж, сценарий Потеряет детали характеров и диалогов Reasoning-режим + явное требование по персонажам

⚠️

Ограничения

⚠️ Компромисс между полнотой и точностью неустраним: Любая техника, которая улучшает одно, слегка жертвует другим. Двусторонняя проверка снижает этот риск, но не устраняет его полностью — итерация неизбежна.

⚠️ Длинные тексты — хуже по всем параметрам: Чем длиннее разговор (совещания, сценарии), тем сильнее падают и полнота, и лаконичность — даже у лучших моделей. Для очень длинных текстов используй разбивку на части перед финальным пересказом.

⚠️ "Длиннее думает" ≠ "лучше пересказывает": Модели, которые генерируют очень длинные цепочки рассуждений (много токенов в Thinking), не обязательно дают лучший результат. Экономия токенов через чёткий структурированный промпт часто эффективнее.

⚠️ Неформальный язык — зона риска: Именно простые бытовые разговоры (мессенджеры, бытовые диалоги) дают наихудшую точность у всех моделей. Это контринтуитивно — текст короткий и простой, но модель "достраивает" смысл там, где его нет.


🔗

Ресурсы

Оригинальная работа: A Large-Scale Multi-Dimensional Empirical Study of LLMs for Conversation Summarization GitHub: https://github.com/zhouweixiao/OmniCSEval Авторы: Weixiao Zhou, Gengyao Li, Xianfu Cheng, Junnan Zhu, Feifei Zhai, Zhoujun Li Университеты: Beihang University (CCSE), CASIA (MAIS), Fanyu AI Laboratory


📋 Дайджест исследования

Ключевая суть

Включил режим «мышления» в Claude или DeepSeek — пересказ стал подробнее. Хорошо. Но одновременно модель начала добавлять факты, которых не было. Плохо. Исследование 28 моделей на 1800 реальных разговорах подтвердило: полнота и точность пересказа тянут в разные стороны — и Thinking-режим резко усиливает это противоречие. Метод двусторонней проверки позволяет поймать оба дефекта одним промптом — и что пропущено, и что выдумано.

Принцип работы

Попросить «перескажи точно и полно» — это как попросить повара одновременно не пересолить и добавить больше вкуса. Задача противоречива по природе: за каждый процент полноты платишь риском галлюцинации. Двусторонняя проверка разделяет задачи: сначала фиксируем эталон из источника списком фактов, потом сверяем пересказ в оба направления. Прямая проверка — всё ли из источника попало в пересказ. Обратная — всё ли в пересказе действительно было в источнике. Вместо одного размытого требования «будь точен» — два конкретных списка для сравнения.

Почему работает

Модель не держит длинный разговор равномерно «в голове». При Thinking-режиме она разбивает задачу на шаги и активно ищет всё важное — отсюда полнота. Но в процессе этих длинных внутренних рассуждений начинает интерполировать: достраивает «логичные» детали, которых не было. Контринтуитивная находка: короткие неформальные чаты дают наихудшую точность у всех моделей — именно там, где текст кажется простым, модели врут чаще всего. Нет структуры в источнике — модель её придумывает. Двусторонняя проверка убирает размытость: у модели есть явный список для сравнения, а не абстрактная инструкция.

Когда применять

Любая задача с пересказом разговоров — для совещаний, интервью, переписок, медицинских и юридических консультаций, особенно когда важно не пропустить ничего И не добавить лишнего. Thinking-режим: включай для длинных структурированных разговоров (совещания, интервью), отключай для коротких неформальных переписок. НЕ подходит, если нужен быстрый черновик без контроля качества — тогда трёхшаговый протокол избыточен.

Мини-рецепт

1. Выбери режим под задачу: длинный структурированный разговор — включай Thinking. Короткий бытовой чат — отключай. Высокая цена ошибки (медицина, юристы) — всегда двусторонняя проверка, режим не важен.
2. Шаг 1 — зафиксируй эталон: попроси модель выписать все ключевые утверждения из источника нумерованным списком. Инструкция: только то, что явно сказано — без интерпретаций, без домыслов.
3. Шаг 2 — пересказ по списку: попроси написать пересказ на основе фактов из шага 1. Задай жёсткий лимит слов — без него модель перечислит всё подряд.
4. Шаг 3а — проверка полноты: для каждого факта из шага 1 — есть ли он в пересказе? Пропущен или учтён.
5. Шаг 3б — проверка точности: для каждого утверждения пересказа — есть ли оно в источнике? Подтверждено или добавлено от себя.
6. Если нашлись пропуски или добавления — попроси исправленный вариант пересказа с учётом обоих замечаний.

Примеры

[ПЛОХО] : Перескажи этот разговор точно и полно, ничего важного не упусти
[ХОРОШО] : Работай по трёхшаговому протоколу. ШАГ 1 — Ключевые факты: Выпиши все ключевые утверждения из разговора ниже. Каждое — одно решение, факт или цифра. Без интерпретаций. Только то, что явно сказано. Нумерованный список. ШАГ 2 — Пересказ: Напиши пересказ на основе фактов из шага 1. Для руководителя. Максимум 150 слов. ШАГ 3 — Двусторонняя проверка: 3а. Полнота: для каждого факта из шага 1 → «✓ есть» или «✗ пропущен». 3б. Точность: для каждого утверждения пересказа → «✓ есть в источнике» или «⚠ добавлено от себя». Если нашлись пропуски или добавления — выдай исправленную версию. [вставь текст разговора]
Источник: A Large-Scale Multi-Dimensional Empirical Study of LLMs for Conversation Summarization
ArXiv ID: 2606.15974 | Сгенерировано: 2026-06-16 05:37

Проблемы LLM

ПроблемаСутьКак обойти
Режим мышления улучшает полноту — и одновременно увеличивает галлюцинацииВключаешь Thinking/Reasoning в моделях вроде DeepSeek-R1, o1, Claude. Пересказ становится полнее. Но в процессе рассуждений модель достраивает "логичные" детали. Которых в источнике не было. Ты не видишь где правда, а где выдумкаНе используй режим мышления тогда, когда точность важнее полноты. Добавь явную проверку: "всё ли в пересказе есть в источнике". Шаблон ниже
Простой неформальный текст врёт больше сложногоПересказываешь короткую переписку в мессенджере. Кажется — задача простая. Но именно здесь модель галлюцинирует чаще всего. Нет структуры — модель её достраиваетДля неформальных чатов и переписок. Добавь явное ограничение в запрос: "пиши только то, что прямо написано в тексте. Без выводов и интерпретаций"

Методы

МетодСуть
Двусторонняя проверка пересказа — полнота и точность в одном запросеТри шага в одном запросе. Шаг 1: извлеки ключевые факты из источника — нумерованный список, каждый факт отдельно. Шаг 2: напиши пересказ на основе этого списка. Шаг 3а (прямая проверка): по каждому факту из шага 1 — ✓ есть в пересказе или ✗ пропущен. Шаг 3б (обратная проверка): по каждому утверждению пересказа — ✓ есть в источнике или ⚠ добавлено от себя. Если нашлись пробелы — выдай исправленную версию. Почему работает: даёшь модели явный список для сравнения. Она не проверяет "ощущение точности" — она сверяет конкретный факт с конкретным фактом. Это разные задачи. Когда применять: пересказ совещаний, переписок, интервью, статей — везде где важно ничего не пропустить и ничего не добавить. Когда не работает: очень длинные тексты без предварительной разбивки на части — шаг 1 становится слишком большим для надёжной проверки
📖 Простыми словами

ALarge-Scale Multi-Dimensional Empirical Study ofLLMsfor Conversation Summarization

arXiv: 2606.15974

Когда ты просишь нейронку пересказать длинный созвон или чат, она попадает в ловушку «невозможного треугольника»: нужно выдать всё важное, не налить воды и при этом не соврать. Проблема в том, что архитектура LLM не позволяет одинаково хорошо тянуть все три параметра сразу. Исследование OMNICSEVAL на 28 моделях показало, что это игра с нулевой суммой: как только ты заставляешь модель писать подробнее, она тут же начинает галлюцинировать или тащить в текст мусор. Модель не понимает контекст как человек, она просто статистически предсказывает следующее слово, поэтому баланс между «коротко» и «честно» для неё — это математический конфликт.

Это как пытаться упаковать содержимое огромного чемодана в маленький рюкзак за пять минут до выхода. Если запихнешь всё — рюкзак порвется или ты не сможешь его поднять (потеря лаконичности). Если возьмешь только пару вещей — замерзнешь в отпуске (потеря полноты). А если начнешь в панике кидать туда вещи, которых вообще не было в комнате, просто потому что они «вроде подходят» — это уже галлюцинации. В итоге ты либо стоишь с полупустым рюкзаком, либо с горой хлама, который невозможно нести. Формально задача выполнена, но пользоваться результатом больно.

В работе выделили конкретные грабли, на которые наступают все: эффект длинного контекста и галлюцинации здравого смысла. Модели типа GPT-4 или Llama-3 лажают по-разному. Одни методы заставляют модель фокусироваться на полноте (вытаскивать каждое «ага» и «ок»), другие — на точности (вырезать всё сомнительное). Исследователи прогнали 1800 реальных диалогов через двухэтапную проверку и выяснили: чтобы получить адекватный результат, нельзя просить всё и сразу. Нужно либо жертвовать деталями ради правды, либо использовать фреймворк двусторонней проверки, где одна модель пишет, а вторая работает «душнилой-корректором», вычищая выдумки.

Этот принцип универсален для любой работы с текстом, будь то протокол медицинской консультации или расшифровка пьяного чата в Telegram. Неважно, насколько умная у тебя модель — 28 протестированных LLM доказали, что универсальной таблетки нет. Если тебе нужен отчет для инвесторов, где важна каждая цифра, ты обязан выкручивать точность на максимум, даже если пересказ станет сухим и коротким. Пытаться сделать «красиво, подробно и правдиво» в один промт — это верный способ получить текст, где половина договоренностей просто придумана нейронкой для связки слов.

Короче: забудь про магическую кнопку «сделай зашибись». Если хочешь качественный саммари, сначала реши, что тебе важнее — не упустить детали или не облажаться с фактами. 1800 тестов подтверждают: модель всегда будет лажать в одном из углов треугольника. Либо строй сложную цепочку из нескольких проверок, либо смирись с тем, что идеальных пересказов не существует. Кто продолжает верить в «умный AI, который сам всё поймет» — тот первым пойдет объяснять начальству, откуда в отчете взялись задачи, которые никто не обсуждал.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с