3,583 papers
arXiv:2507.15586 92 30 июля 2025 г. FREE

Дал модели 10 страниц — получил ответ, в котором половина из нерелевантных абзацев.

КЛЮЧЕВАЯ СУТЬ
Дал модели 10 страниц — получил ответ, в котором половина из нерелевантных абзацев. Знакомо. Метод разделения на три явных шага позволяет закрыть эту дыру: модель сначала рассуждает вслух о том, что в документе важно, затем вытаскивает только эти факты в отдельный блок, и лишь потом отвечает. Фишка: второй шаг создаёт «чистый» контекст — изолированную выжимку фактов — и финальный ответ строится только на нём, без шансов засориться лишним.
Адаптировать под запрос

Исследование показывает, что большие языковые модели (LLM) часто дают неточные ответы, когда им предоставляют много документов с "шумной" или частично нерелевантной информацией. Чтобы решить эту проблему, авторы предлагают двухэтапный подход: сначала модель должна рассуждать о том, какая информация в документах действительно полезна для ответа на вопрос, а затем извлекать только эти ключевые сведения в краткую выжимку. Ответ на вопрос генерируется уже на основе этой очищенной и концентрированной информации.

Ключевой результат: Заставляя модель сначала рассуждать о релевантности информации, а затем извлекать суть, можно значительно повысить точность ответов и снизить влияние информационного "шума".

Суть метода, с точки зрения пользователя, заключается в отказе от простого промпта "Прочитай этот текст и ответь на вопрос". Вместо этого вы заставляете LLM работать как аналитик в три шага, четко разделяя их в своем промпте.

  1. Шаг 1: Рассуждение (Reasoning). Вы даете модели роль эксперта и просите ее не отвечать сразу, а сначала проанализировать предоставленный контекст (статью, отчет, несколько отзывов). На этом этапе модель должна вслух "подумать": какие части текста напрямую относятся к вопросу, какие противоречат друг другу, а какие являются просто "водой". Вы просите ее записать эти рассуждения.

  2. Шаг 2: Извлечение (Extraction). После того как модель провела анализ, вы даете ей вторую команду: "Теперь, на основе твоих рассуждений, собери ВСЕ ключевые факты, цифры и утверждения, которые нужны для ответа, в один короткий, структурированный блок". Это создает "чистый" контекст, отфильтрованный от всего лишнего.

  3. Шаг 3: Ответ (Answering). В качестве финального шага вы просите модель ответить на ваш первоначальный вопрос, но с важным ограничением: "Используй для ответа ТОЛЬКО информацию из блока с извлеченными фактами".

Этот подход заставляет модель сфокусироваться, отсеять мусор и базировать свой ответ на проверенных данных, которые она сама же и выделила. Использование специальных тегов, как в исследовании (, ), помогает LLM лучше понять структуру задачи и следовать вашему плану.

  • Прямая применимость: Очень высокая. Любой пользователь может немедленно использовать эту трехшаговую структуру в своих промптах для ChatGPT, Claude, YandexGPT и других моделей. Это особенно полезно при работе с длинными текстами: анализом статей, юридических документов, отчетов, научных работ или множества отзывов. Пользователю нужно лишь скопировать структуру "Роль -> Контекст -> Шаг 1 (Рассуждай) -> Шаг 2 (Извлекай) -> Шаг 3 (Отвечай)".

  • Концептуальная ценность: Огромная. Исследование дает пользователю ключевую идею: не доверяйте LLM сложную задачу целиком, а разбейте ее на последовательные, логичные подзадачи. Это учит управлять вниманием модели, заставляя ее сначала идентифицировать релевантную информацию, а затем работать только с ней. Это фундаментальный сдвиг от "запроса" к "постановке процесса".

  • Потенциал для адаптации: Максимальный. Этот принцип можно адаптировать для любых задач, связанных с анализом информации. Например, для анализа отзывов на товар можно попросить модель сначала рассуждать о том, какие отзывы выглядят настоящими, а какие — заказными, затем извлечь суть из "настоящих" и только потом дать итоговую оценку. Для анализа договора можно сначала попросить найти все пункты, связанные с рисками, извлечь их, а потом дать оценку. Механизм адаптации прост: определите критерии фильтрации для шага "Рассуждение" под вашу конкретную задачу.

Представим, что вы хотите купить новый фитнес-браслет и нашли на форуме длинный, подробный отзыв. Вам лень читать его целиком, и вы хотите быстро понять, стоит ли его брать для плавания и отслеживания сна.

Ты — опытный аналитик пользовательских отзывов на гаджеты. Твоя задача — помочь мне принять решение о покупке фитнес-браслета на основе предоставленного отзыва.

**КОНТЕКСТ (ОТЗЫВ ПОЛЬЗОВАТЕЛЯ):**
"Ну что, походил я с новым SmartBand X5 уже две недели. Экран яркий, на солнце все видно, это плюс. Батарея держит дней 10, если не включать все функции на максимум. Шаги считает вроде точно, сравнивал с телефоном. Пульс тоже меряет постоянно, но на тренировке иногда подвирает, особенно когда рука потеет. Пробовал с ним плавать в бассейне. Заявлена водонепроницаемость до 50 метров, и он реально не протек. Но вот подсчет дорожек — это тихий ужас. Иногда засчитывает лишнюю, иногда вообще не видит, что я плыву. Так что для серьезных пловцов — мимо. А вот что порадовало, так это отслеживание сна. Очень детально показывает фазы глубокого и легкого сна, время пробуждений. Сравнивал с данными другого дорогого трекера — почти один в один. Приложение удобное, графики красивые. Уведомления с телефона приходят, но отвечать на них нельзя, только читать. В целом, за свои деньги неплохой аппарат, если вам не нужен супер-точный трекинг плавания."

**ТВОЯ ЗАДАЧА:**
Выполни анализ в три этапа, используя специальные теги.

****
Сначала проанализируй весь отзыв. Определи, какая информация напрямую касается моих двух критериев: (1) использование в бассейне и (2) качество отслеживания сна. Отметь как позитивные, так и негативные моменты по каждому пункту.
****

****
Теперь собери все найденные факты, касающиеся плавания и сна, в виде краткого списка. Не добавляй ничего лишнего про батарею или шагомер.
****

****
На основе ИСКЛЮЧИТЕЛЬНО извлеченной информации, дай мне четкий итоговый ответ: стоит ли мне покупать этот браслет, если мои главные приоритеты — плавание и мониторинг сна?
****

Этот промпт эффективен благодаря нескольким механикам, описанным в исследовании:

  1. Декомпозиция задачи: Вместо одного сложного запроса "проанализируй отзыв по моим критериям", мы разбиваем его на три простых и последовательных шага. Это снижает когнитивную нагрузку на модель.
  2. Управляемое внимание (в теге ): Первый шаг заставляет модель целенаправленно сканировать текст в поисках ключевых слов и смыслов ("плавание", "бассейн", "сон"), игнорируя нерелевантную информацию о яркости экрана или уведомлениях.
  3. Создание "чистого" контекста (в теге ): Второй шаг создает дистиллированную выжимку фактов. Это защищает финальный ответ от "загрязнения" другими деталями из отзыва. Модель не сможет в итоговом ответе случайно упомянуть "хорошую батарею" как аргумент, потому что в ее рабочем контексте на третьем шаге этой информации уже нет.
  4. Обоснованный ответ (в теге ): Требование "используй ИСКЛЮЧИТЕЛЬНО извлеченную информацию" заставляет модель строить свой финальный вывод строго на отфильтрованных данных, что резко повышает его релевантность и точность, предотвращая "отсебятину".

Представим, что менеджер по маркетингу хочет быстро понять основные жалобы клиентов на новый продукт из длинного письма от службы поддержки.

Ты — аналитик клиентского опыта. Твоя задача — извлечь из отчета службы поддержки ключевые проблемы, с которыми сталкиваются пользователи нового продукта "Фоторедактор Pro".

**КОНТЕКСТ (ОТЧЕТ ПОДДЕРЖКИ):**
"За последнюю неделю мы получили 150 обращений по 'Фоторедактору Pro'. Многие пользователи хвалят новые AI-фильтры, говорят, что они работают быстро и качественно. Также положительно отмечают интеграцию с облачными хранилищами. Однако есть и повторяющиеся проблемы. Около 40% жалоб связаны с тем, что программа периодически 'вылетает' при экспорте видео в 4K. Еще одна частая проблема (около 30% обращений) — некорректное сохранение цветовых профилей CMYK, что критично для полиграфии. Пользователи жалуются, что цвета на печати не соответствуют цветам на экране. Было несколько обращений по поводу сложного интерфейса, но это скорее единичные случаи. Также стоит отметить, что команда разработки уже выпустила патч, который должен был исправить проблему с экспортом, но, судя по новым тикетам, он помог не всем."

**ТВОЯ ЗАДАЧА:**
Проведи анализ в три этапа.

****
Внимательно прочитай отчет. Твоя цель — идентифицировать только конкретные, повторяющиеся НЕГАТИВНЫЕ моменты (жалобы, проблемы, баги). Отдели их от позитивных отзывов и единичных случаев.
****

****
Извлеки только основные, массовые проблемы и представь их в виде маркированного списка. Укажи суть проблемы и, если возможно, ее масштаб (например, процент обращений).
****

****
На основе ИСКЛЮЧИТЕЛЬНО извлеченных данных, сформулируй краткую сводку из 2-3 главных проблем для команды разработчиков.
****

Этот пример работает по тем же принципам, но с акцентом на фильтрацию по тональности и частотности:

  1. Целевая фильтрация (в ): На первом шаге модель получает четкую инструкцию: "ищи только НЕГАТИВ и только ПОВТОРЯЮЩИЕСЯ проблемы". Это заставляет ее отбросить позитивные упоминания ("хвалят фильтры") и незначительные жалобы ("сложный интерфейс"), которые могли бы "размыть" итоговый результат.
  2. Квантификация и приоритизация (в ): На втором шаге модель не просто извлекает проблемы, но и структурирует их, добавляя количественные данные ("40% жалоб"). Это помогает неявно приоритизировать проблемы по степени их критичности.
  3. Синтез для конкретной аудитории (в ): Финальный шаг требует создать сводку "для команды разработчиков". Это помогает модели сформулировать ответ в нужном стиле — кратко, по делу, с фокусом на технических аспектах, что является прямым следствием качественной фильтрации на предыдущих этапах.
📌

Основные критерии оценки

  • A. Релевантность техникам промптинга: Да. Предлагает конкретную двухэтапную структуру промпта "сначала рассуждай, потом извлекай" с использованием тегов и .
  • B. Улучшение качества диалоговых ответов: Да. Основная цель исследования — повысить точность ответов в RAG-сценариях (когда модель отвечает на основе документов), отфильтровывая шум.
  • C. Прямая практическая применимость: Да. Хотя сам метод EviOmni требует дообучения модели, лежащий в его основе принцип "рассуждай-извлекай-отвечай" может быть немедленно применен любым пользователем в виде структурированного промпта без какого-либо кода.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную "ментальную модель" для работы с LLM и большими объемами текста. Оно объясняет, почему LLM ошибаются при работе с "зашумленным" контекстом (концепция "3I": Incompleteness, Irrelevance, Inaccuracy) и предлагает надежный способ борьбы с этим.
  • E. Новая полезная практика: Работа попадает сразу в несколько ключевых кластеров:
    • Кластер 1 (Техники формулирования): Предложенный подход является продвинутой формой Chain-of-Thought, адаптированной для фильтрации контекста.
    • Кластер 3 (Оптимизация структуры): Явно предлагает использовать теги (, ) для структурирования процесса мышления модели.
    • Кластер 6 (Контекст и память): Напрямую решает главную проблему RAG-систем для пользователя — как подать большой и "грязный" контекст и получить точный ответ.
    • Кластер 7 (Надежность и стабильность): Метод напрямую нацелен на снижение неточностей и повышение фактической обоснованности ответов.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (92 балла): Исследование предлагает не просто трюк, а целую методологию для работы с контекстом, которую можно сразу же начать применять. Принцип "сначала рассуждай, потом извлекай" — это фундаментальное улучшение по сравнению со стандартным подходом "вот тебе текст, ответь на вопрос". Он напрямую решает проблему "галлюцинаций" и нерелевантных ответов при работе с большими документами. Концептуальная ценность огромна, так как учит пользователя декомпозировать сложные задачи для LLM, что является одним из ключевых навыков промпт-инжиниринга. Готовый шаблон промпта из приложения к статье (Table 10) — это практически готовый к использованию инструмент.

Контраргументы (почему оценка не 100): Основной метод, описанный в статье (EviOmni), требует сложного технического процесса: дообучения модели с использованием обучения с подкреплением (Reinforcement Learning). Обычный пользователь не может этого сделать. Он может лишь сымитировать этот подход через промпт. Эффективность такой имитации, хотя и будет высокой, может не достигать показателей, заявленных в исследовании для специально обученной модели. Таким образом, полная мощь метода недоступна широкой аудитории, но его ключевая идея — более чем.


📋 Дайджест исследования

Ключевая суть

Дал модели 10 страниц — получил ответ, в котором половина из нерелевантных абзацев. Знакомо. Метод разделения на три явных шага позволяет закрыть эту дыру: модель сначала рассуждает вслух о том, что в документе важно, затем вытаскивает только эти факты в отдельный блок, и лишь потом отвечает. Фишка: второй шаг создаёт «чистый» контекст — изолированную выжимку фактов — и финальный ответ строится только на нём, без шансов засориться лишним.

Принцип работы

Стандартный подход: «прочитай этот текст и ответь». Проблема: модель держит в голове всё сразу — и нужное, и мусор. Когда смешиваешь поиск релевантного и генерацию вывода в одном запросе, модель плывёт. Добавь явный шаг «запиши что важно перед ответом» — и она отсечёт шум до того, как начнёт думать об ответе. Три тега делают работу: — рассуждение о релевантности, — выжимка фактов, — ответ строго по выжимке. Каждый шаг решает свою задачу. Не всё разом.

Почему работает

Это как попросить повара одновременно разобраться в холодильнике и приготовить блюдо. Получится либо долго, либо невкусно. Модель, которую просят «сразу ответить» по большому тексту, делает то же самое — совмещает поиск и генерацию в один проход. Шаг создаёт изолированный набор фактов. Всё, что туда не попало — модель на финальном шаге просто не видит. Не потому что забыла. Потому что ей буквально не дали это в контекст.

Когда применять

Анализ длинных документов → когда работаешь с большими статьями, договорами, отчётами и нужен ответ по конкретным критериям, а не пересказ всего. Особенно полезно для разбора отзывов клиентов — достать суть сквозь шум похвал и жалоб. Поиск по базе знаний (когда несколько документов частично противоречат друг другу — модель сначала отберёт релевантные куски, потом ответит). НЕ подходит: для коротких и прямых вопросов. Если документ небольшой и вопрос простой — три шага только замедлят.

Мини-рецепт

1. Дай роль и задачу: Ты — аналитик. Твоя задача — извлечь из документа факты по конкретному вопросу.
2. Вставь весь текст документа в запрос.
3. Шаг рассуждения: Проанализируй текст. Что напрямую относится к вопросу [X]? Что противоречит? Что не по делу?
4. Шаг извлечения: Собери все ключевые факты по вопросу [X] в один структурированный список. Ничего лишнего — только то, что касается X.
5. Шаг ответа: Используй ТОЛЬКО то, что в блоке extract. Ответь на вопрос [X].

Фильтр на шаге — главная точка настройки под вашу задачу. Именно здесь ты говоришь модели, что считается «важным»: тональность, частотность, конкретный критерий (риски, плавание, стоимость). Меняешь фильтр — меняешь что окажется в выжимке.

Примеры

[ПЛОХО] : Прочитай этот квартальный отчёт и скажи, стоит ли нанимать нового маркетолога
[ХОРОШО] : Ты — HR-аналитик. Вот квартальный отчёт отдела. Проанализируй: какие данные говорят за найм отдельного маркетолога, какие против, что вообще не по теме Собери только факты о загруженности команды и результатах по маркетингу — в структурированный список На основе ТОЛЬКО того что в extract: нанимать или нет, и на каких данных этот вывод строится
Источник: Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation
ArXiv ID: 2507.15586 | Сгенерировано: 2026-03-02 17:43

Проблемы LLM

ПроблемаСутьКак обойти
Модель смешивает нужное и лишнее при работе с длинным текстомДаёшь модели большой документ и вопрос. Модель читает всё сразу. В ответ попадают факты, которые ты не спрашивал. Нужная информация разбавляется водой. Чем длиннее и разнороднее текст — тем сильнее эффект. Работает против любой задачи: анализ договора, отзывы, отчётыНе давай модели отвечать напрямую из сырого текста. Сначала заставь её извлечь только нужное. Потом отвечай уже из этой выжимки. Модель не сможет "случайно" притянуть лишнее — его уже нет в рабочем контексте

Методы

МетодСуть
Тройная цепочка: рассуждай извлекай отвечай только из выжимкиРазбей запрос на три явных шага с тегами. — попроси модель проанализировать текст и отметить что относится к вопросу, а что нет. — попроси собрать только найденные факты в короткий список. — попроси ответить, используя исключительно то, что в . Почему работает: создаёт "чистый буфер". На шаге модель физически не видит лишнего — оно не попало в выжимку. Это не просто фокус внимания, а изоляция контекста. Когда применять: длинный текст, смешанная информация, нужен ответ строго по теме. Когда не нужен: короткий текст без шума — избыточно
📖 Простыми словами

Learning to Extract Rational Evidence via Обучение с подкреплением for Дополненный поиском Generation

arXiv: 2507.15586

Суть в том, что обычные RAG-системы — это ленивые почтальоны. Когда ты задаешь вопрос нейронке, поисковик вываливает на нее гору документов, надеясь, что модель сама разберется в этой куче мусора. Но LLM часто путаются в деталях, цепляются за неважный контекст и начинают галлюцинировать. Исследователи придумали, как это исправить: они внедрили обучение с подкреплением (RL), чтобы система научилась выгрызать из текста только те куски, которые реально доказывают ответ. Это не просто поиск, а фильтрация улик, где каждое слово должно работать на результат.

Это как если бы ты попросил друга разузнать, стоит ли покупать конкретный фитнес-браслет для плавания, а он вместо краткого ответа притащил бы тебе распечатку форума на 50 страниц. Формально он помог, но тебе все равно нужно сидеть с маркером и выискивать нужные строчки. Метод из статьи работает как дотошный юрист: он берет этот талмуд, вычеркивает всю воду про цвет ремешка и упаковку, оставляя только жирный шрифт про водонепроницаемость и точность датчиков в воде. Ты получаешь не просто текст, а концентрированную выжимку, на основе которой нейронка выдает точный вердикт.

В основе лежит метод Extract-then-Generate. Сначала специальный агент-экстрактор размечает текст, выбирая наиболее весомые фрагменты — рациональные доказательства. Главная фишка здесь в награде за качество: если итоговый ответ нейронки совпадает с реальностью и при этом опирается на короткий, четкий фрагмент, система получает «бонус». Это заставляет модель игнорировать шум и фокусироваться на ключевых фактах. В итоге точность ответов растет, а риск того, что нейронка «поплывет» от избытка информации, стремится к нулю.

Хотя тестировали это на сложных базах знаний, принцип универсален. Эту логику можно натянуть на любую задачу, где данных слишком много: от анализа юридических договоров до разбора отзывов на маркетплейсах. Если тебе нужно понять, почему товар лажает, тебе не нужны 2000 отзывов целиком — тебе нужны конкретные цитаты про брак. Система учится быть фильтром, который превращает информационный хаос в структурированную базу улик, и это работает везде, где важна доказательная база, а не просто «мнение» нейросети.

Короче, эпоха, когда мы просто скармливали нейронке всё подряд, заканчивается. Будущее за умной фильтрацией, где модель сначала доказывает сама себе, что информация релевантна, и только потом открывает рот. Точность выше, галлюцинаций меньше, а ответы становятся короче и по делу. Если не научить свои системы выделять главное, они так и будут тонуть в информационном шуме, выдавая уверенную чушь вместо реальных фактов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с