3,583 papers
arXiv:2507.16711 92 22 июля 2025 г. FREE

Проблема: LLM выдумывает при анализе ваших документов не потому что технология сырая — а потому что вы ни разу явно не сказали ей этого не делать.

КЛЮЧЕВАЯ СУТЬ
Проблема: LLM выдумывает при анализе ваших документов не потому что технология сырая — а потому что вы ни разу явно не сказали ей этого не делать. Структурный промпт с тремя обязательными блоками позволяет превратить любой LLM-чат в надёжного аналитика текстов — отзывов, отчётов, договоров — с цитатами и без фантазий. Фишка: отделите инструкции от данных через теги, добавьте три явные команды — «подумай вслух», «цитируй источник», «признай незнание» — и модель перестаёт импровизировать. Вместо мутного пересказа получаете структурированный разбор с привязкой к конкретным абзацам.
Адаптировать под запрос

Исследование описывает создание чат-бота для специалистов по комплаенсу, который помогает им работать с большим объемом сложных юридических документов. Для этого используется технология RAG (Retrieval Augmented Generation), где модель не просто отвечает из своей общей памяти, а ищет информацию в специальной базе знаний и использует найденные фрагменты для генерации ответа. Авторы доказывают, что комбинация продвинутых методов поиска и, что самое важное, специально сконструированного промпта, значительно повышает точность и надежность ответов.

Ключевой результат: Продуманная структура промпта, которая заставляет модель сначала "подумать", а затем ответить, ссылаясь на источники и признавая нехватку информации, является критически важным элементом для создания надежного RAG-помощника.

Суть метода для обычного пользователя заключается в переходе от простого промпта "вопрос-ответ" к многокомпонентной инструкции, которая управляет поведением LLM. Вместо того чтобы просто задать вопрос, вы создаете для модели целое "техническое задание" в рамках одного промпта.

Методика, представленная в исследовании, состоит из трех ключевых частей, которые нужно явно разделить в своем запросе:

  1. Задача пользователя (User Question): Ваш основной вопрос или задача.
  2. Блок инструкций (Instruction Block): Самая важная часть. Это мета-инструкции для LLM, которые говорят ей, как думать и как форматировать ответ. Этот блок включает в себя:
    • "Подумай, прежде чем ответить" (Chain-of-Thought): Инструкция Before answering the question, lay out your full thought process... заставляет модель сначала проанализировать запрос и составить план ответа. Это резко снижает вероятность импульсивных, неверных ответов.
    • "Не выдумывай" (Anti-Hallucination Guardrail): Прямое указание If you cannot answer... state that the information is not present, don’t invent or hallucinate служит "ограничителем", который учит модель признавать свое незнание вместо того, чтобы придумывать факты.
    • "Ссылайся на источники" (Grounding & Citation): Требование After each fact you state, provide the corresponding document name... заставляет модель привязывать каждое свое утверждение к конкретному фрагменту из предоставленного текста. Это повышает достоверность и позволяет пользователю легко проверить информацию.
  3. Блок с данными (Context Block): Это место, куда вы вставляете текст (статью, отчет, отзывы, транскрипцию встречи), на основе которого модель должна сгенерировать ответ. Четкое отделение данных с помощью тегов вроде помогает модели понять, что является "правдой" для текущей задачи.

Таким образом, вы не просто спрашиваете, а программируете модель на определенный, более надежный и структурированный способ работы с информацией.

  • Прямая применимость: Очень высокая. Пользователь может скопировать структуру промпта из статьи, заменить {user_question} и {retrieved_chunks} на свои данные и сразу получить более качественный результат. Это особенно полезно для задач анализа и суммирования собственных текстов (статей, отчетов, писем), которые можно вставить в контекст промпта.

  • Концептуальная ценность: Огромная. Исследование наглядно демонстрирует, что LLM — это не "черный ящик", а система, поведением которой можно и нужно управлять с помощью четких инструкций. Оно учит пользователя фундаментальному принципу: отделяйте данные от инструкций по их обработке. Это помогает понять, почему модель иногда "галлюцинирует" (потому что ей не дали инструкцию этого не делать) и как заставить ее давать структурированные ответы.

  • Потенциал для адаптации: Максимальный. Шаблон из статьи — это универсальный каркас. Его можно легко адаптировать для любой задачи:

    • Анализ отзывов: изменить формат цитирования на (отзыв №5).
    • Суммирование встречи: изменить инструкцию на "Выдели ключевые решения и ответственных".
    • Создание контент-плана: изменить инструкцию на "Проанализируй статью и предложи 5 тем для постов в блог со ссылками на соответствующие абзацы".

Представим, что маркетолог хочет проанализировать отзывы клиентов на новый продукт, чтобы подготовить отчет для руководства.

Проанализируй отзывы клиентов и подготовь краткую сводку по основным преимуществам и недостаткам продукта.


Прежде чем дать окончательный ответ, изложи свой план действий и проанализируй мой запрос.
Твой ответ должен быть на русском языке.
Твоя задача — выделить основные сильные и слабые стороны продукта, упомянутые в отзывах.
После каждого тезиса (преимущества или недостатка) ты должен указать в скобках номер отзыва, из которого взята эта информация. Например: "Батарея держит очень долго" (Отзыв 3).
Если в отзывах нет информации о каком-то аспекте (например, о качестве упаковки), прямо укажи: "Информация об упаковке в предоставленных отзывах отсутствует". Не придумывай и не делай предположений.
Сгруппируй все преимущества в раздел "Преимущества", а все недостатки — в раздел "Недостатки".



[Отзыв 1]
"Камера просто великолепна, снимки как на профессиональный фотоаппарат! Но корпус очень скользкий, без чехла носить невозможно. Экран яркий, цвета сочные."

[Отзыв 2]
"Очень разочарован батареей. Еле доживает до вечера при среднем использовании. Зато работает очень быстро, приложения открываются мгновенно. Камера хорошая, но не вау."

[Отзыв 3]
"Лучший телефон за свои деньги. Производительность на высоте, ничего не тормозит. Батареи хватает на полтора дня спокойно. Единственный минус — нет разъема для наушников, это неудобно."

[Отзыв 4]
"Экран — его главное достоинство. Смотреть видео одно удовольствие. А вот камера снимает средне, ожидал большего. Корпус маркий, постоянно в отпечатках."

Этот промпт эффективен благодаря комбинации нескольких механик, описанных в исследовании:

  1. Предварительное мышление (Chain-of-Thought): Фраза Прежде чем дать окончательный ответ, изложи свой план действий... заставляет LLM сначала декомпозировать задачу (1. Прочитать все отзывы. 2. Найти упоминания плюсов. 3. Найти упоминания минусов. 4. Сгруппировать их. 5. Отформатировать ответ с цитатами), что повышает логичность и полноту итогового ответа.
  2. Структурирование и разметка: Использование тегов и четко разделяет для модели, где находятся правила игры, а где — сами данные. Это снижает вероятность того, что модель перепутает инструкцию с частью анализируемого текста.
  3. Заземление (Grounding): Требование указать в скобках номер отзыва заставляет модель не просто обобщать, а находить конкретное подтверждение каждому своему слову в исходном тексте. Это делает ответ проверяемым и более достоверным.
  4. Инструкция-ограничитель: Указание Не придумывай и не делай предположений напрямую борется с тенденцией LLM "додумывать" информацию, повышая фактическую точность ответа.

HR-специалист хочет быстро получить основные выводы из транскрипции выходного интервью с уволившимся сотрудником.

Проанализируй текст выходного интервью и выдели ключевые причины увольнения, а также предложения по улучшению рабочих процессов.


Твой ответ должен быть на русском языке.
Перед тем как дать финальный ответ, кратко опиши свой план анализа текста.
Твоя задача — структурировать информацию из интервью по двум категориям: "Причины увольнения" и "Предложения по улучшению".
Для каждого пункта в обеих категориях приведи короткую цитату из текста в кавычках и укажи номер абзаца в скобках, например: (Абзац 3).
Если сотрудник не давал конкретных предложений, в соответствующем разделе напиши: "Конкретных предложений по улучшению не поступало". Не выдумывай информацию.
Ответ должен быть оформлен в виде маркированных списков.



[Абзац 1]
"В целом, коллектив у нас был хороший, я со многими дружил. Но основная причина моего ухода — это отсутствие возможностей для карьерного роста. Я проработал на одной должности три года, и никаких перспектив повышения мне так и не обозначили."

[Абзац 2]
"Еще один момент — это постоянные переработки, которые никак не компенсировались. Последние полгода я регулярно задерживался на 2-3 часа. Это сильно выматывает. Руководство знало, но мер не принимало."

[Абзац 3]
"Если говорить о том, что можно было бы улучшить... Я думаю, компании стоит внедрить более прозрачную систему грейдов и карьерных треков. Чтобы люди понимали, что им нужно сделать для роста. Также было бы здорово наладить систему учета переработок и их оплаты или предоставления отгулов."

[Абзац 4]
"К задачам у меня претензий нет, они были интересные. Но вот ощущение, что ты стоишь на месте, убивает всю мотивацию. Надеюсь, на новом месте с этим будет лучше."

Этот промпт работает по тем же фундаментальным принципам, что и предыдущий, но адаптирован под другую задачу:

  1. Декомпозиция задачи: Модель сначала составляет план (найти причины, найти предложения, сгруппировать, отформатировать), что обеспечивает системный подход к анализу текста.
  2. Четкое разделение ролей: Теги и помогают модели не смешивать правила с данными. Она понимает, что текст в — это источник фактов, а текст в — это алгоритм действий.
  3. Принудительное цитирование: Требование приводить цитату и номер абзаца заставляет модель не просто пересказывать, а извлекать и точно локализовывать информацию. Это гарантирует, что выводы HR-специалиста будут основаны на реальных словах сотрудника, а не на интерпретации модели.
  4. Структурированный вывод: Запрос на вывод в виде маркированных списков по категориям ("Причины увольнения", "Предложения по улучшению") экономит время пользователя, так как информация уже отсортирована и готова для включения в отчет или дальнейшего анализа.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: 10/10. Исследование предоставляет полный, готовый к использованию шаблон промпта с несколькими передовыми техниками.
  • B. Улучшение качества диалоговых ответов: 9/10. Методы направлены на повышение точности, снижение галлюцинаций и обеспечение цитируемости, что критически важно для качества.
  • C. Прямая практическая применимость: 8/10. Шаблон промпта можно скопировать и адаптировать немедленно. Однако полная система RAG, описанная в статье, требует технических знаний, что немного снижает балл.
  • D. Концептуальная ценность: 10/10. Идеально объясняет концепцию RAG на практическом уровне и демонстрирует, как "программировать" поведение LLM через инструкции в промпте.
  • E. Новая полезная практика (кластеры): Работа попадает в кластеры 1 (Техники формулирования), 3 (Оптимизация структуры), 5 (Извлечение и структурирование), 6 (Контекст и память) и 7 (Надежность и стабильность).
  • Чек-лист практичности: Дает готовые фразы, показывает структуру, раскрывает особенности поведения, предлагает способы улучшить точность. (+15 баллов к базовой оценке).
📌

Цифровая оценка полезности

Исследование получает высокую оценку, так как оно содержит один из самых ценных артефактов для пользователя — детализированный и многокомпонентный шаблон промпта. Этот шаблон инкапсулирует сразу несколько лучших практик промпт-инжиниринга (Chain-of-Thought, инструкции-ограничители, форматирование вывода), которые можно немедленно применить для повышения качества и надежности ответов LLM, особенно при работе с собственными текстами.

Контраргументы (почему оценка могла быть иной):

  • Почему выше (>95): Шаблон промпта из этого исследования — это практически "швейцарский нож" для работы с контекстом. Он настолько универсален и эффективен, что его адаптация может кардинально улучшить результаты для любого пользователя, который анализирует текст. Это одна из самых полезных и полных инструкций, которые можно найти в научных работах.
  • Почему ниже (<80): Основной фокус статьи — создание и оценка сложной RAG-системы, включая оптимизацию чанкинга, эмбеддингов и методов поиска. Эти аспекты абсолютно недоступны обычному пользователю ChatGPT или Claude. Пользователь не может влиять на chunk size или search type. Таким образом, 90% текста статьи не несет для него прямой практической пользы, и лишь небольшой раздел "Prompt Design" является релевантным.

📋 Дайджест исследования

Ключевая суть

Проблема: LLM выдумывает при анализе ваших документов не потому что технология сырая — а потому что вы ни разу явно не сказали ей этого не делать. Структурный промпт с тремя обязательными блоками позволяет превратить любой LLM-чат в надёжного аналитика текстов — отзывов, отчётов, договоров — с цитатами и без фантазий. Фишка: отделите инструкции от данных через теги, добавьте три явные команды — «подумай вслух», «цитируй источник», «признай незнание» — и модель перестаёт импровизировать. Вместо мутного пересказа получаете структурированный разбор с привязкой к конкретным абзацам.

Принцип работы

Стандартный запрос — это как дать новому сотруднику задачу без инструкций. Он догадается как умеет. Структурный промпт — это должностная инструкция: что делать, как думать, что говорить если не знаешь. Три принципа, которые меняют всё: Сначала план, потом ответ. Команда «опиши свой план анализа прежде чем отвечать» — это пошаговое рассуждение (chain-of-thought). Модель перестаёт «стрелять с бедра» и сначала декомпозирует задачу: что искать, где, как группировать. Импульсивных ошибок становится меньше. Данные отдельно, правила отдельно. Теги и создают чёткую границу: вот что нужно делать, вот с чем это делать. Без границы модель путает правила с контентом — буквально начинает анализировать инструкции как часть текста. Явное разрешение сказать «не знаю». Без прямой команды модели некомфортно признавать незнание — она добавляет правдоподобные детали. Строчка «если информации нет — прямо скажи, не выдумывай» снимает это давление.

Почему работает

LLM обучена быть полезной и завершённой. Это работает против нас: модель скорее добавит правдоподобный факт, чем скажет «я не знаю». Это не баг — это встроенное поведение по умолчанию. Структурный промпт меняет дефолты вручную. Требование цитировать источник после каждого тезиса — это принудительная «проверка на месте»: если в тексте нет подтверждения, модель не может написать тезис. Она буквально не может сослаться на то, чего нет. Разделение и работает потому что модель видит чёткую границу: здесь правила игры, здесь факты. Без разделения инструкции «размываются» в общем тексте и часть из них теряется. Исследование показало: комбинация всех трёх техник в одном промпте даёт качественно другой результат, чем каждая по отдельности. Это не просто набор советов — это система, где каждый элемент страхует остальные.

Когда применять

Анализ любых документов, которые вы вставляете в промпт: отзывы клиентов, транскрипции встреч и интервью, договоры и регламенты, статьи и отчёты — особенно когда нужны не пересказ, а конкретные выводы с привязкой к источнику. Особенно полезно когда: руководителю нужен отчёт по интервью, маркетологу — сводка по отзывам, юристу — конкретные пункты из договора, редактору — структура чужой статьи для контент-плана. НЕ подходит для задач, где у модели нет исходного текста — тогда блок просто пустой и смысл метода теряется. Он работает именно на анализе ваших текстов, а не на генерации из воздуха.

Мини-рецепт

1. Разделите промпт на три части: сначала вопрос или задача, потом блок инструкций в тегах ..., потом сам текст в тегах ....

2. В блок инструкций добавьте три обязательные команды:
— «Перед ответом кратко опиши свой план анализа»
— «После каждого тезиса указывай источник: номер абзаца, отзыва или раздела»
— «Если информации нет — прямо напиши об этом. Не выдумывай и не додумывай»

3. Добавьте формат вывода: скажите как структурировать ответ — маркированный список, разделы, таблица. Без этого модель выберет сама, и не всегда удобно.

4. Вставьте текст в с разметкой: нумеруйте отзывы, абзацы или разделы — тогда ссылки в ответе будут конкретными, а не «как отмечалось выше».

Примеры

[ПЛОХО] : Проанализируй отзывы и напиши что думают клиенты о продукте
[ХОРОШО] : Проанализируй отзывы клиентов и выдели плюсы и минусы продукта. Перед ответом кратко опиши план анализа. Ответ на русском языке. Сгруппируй информацию в два раздела: «Преимущества» и «Недостатки». После каждого пункта укажи номер отзыва в скобках, например: (Отзыв 2). Если в отзывах нет информации о каком-то аспекте — прямо напиши: «Информация об X в отзывах отсутствует». Не додумывай. [Отзыв 1] «Камера отличная, но корпус скользкий» [Отзыв 2] «Батарея слабая, зато работает быстро» [Отзыв 3] «Лучший телефон за эти деньги, нет разъёма для наушников»
Источник: Advancing Risk and Quality Assurance: A RAG Chatbot for Improved Regulatory Compliance
ArXiv ID: 2507.16711 | Сгенерировано: 2026-03-02 17:42

Проблемы LLM

ПроблемаСутьКак обойти
Модель заполняет пробелы выдумкой, если нет явного запретаКогда в переданном тексте нет нужной информации, модель не молчит. Она додумывает — уверенно и правдоподобно. Это происходит потому что по умолчанию у модели нет команды "остановись и признайся". Есть только задача: дать ответДобавь явное разрешение на незнание. Напиши: "Если информации нет в тексте — скажи об этом прямо. Не придумывай". Без этой фразы модель будет генерировать, а не останавливаться

Методы

МетодСуть
Трёхблочный шаблон для анализа документовРаздели промпт на три чётких части. Блок 1 — вопрос: что нужно сделать. Блок 2 — инструкции: как думать и как оформить ответ. Обязательно включи: "сначала изложи план", "после каждого утверждения укажи источник", "если информации нет — скажи об этом". Блок 3 — данные: вставь текст внутри тегов .... Почему работает: Каждый блок даёт модели отдельную роль. Инструкции = алгоритм. Данные = источник фактов. Вопрос = задача. Когда всё смешано в одном потоке, модель путается что анализировать, а что выполнять. Когда применять: анализ отзывов, суммирование документов, разбор интервью, работа с отчётами. Любая задача где есть конкретный текст и нужен структурированный вывод
📖 Простыми словами

Продвижение управления рисками и обеспечением качества: RAG-чатбот для улучшения соответствия нормативным требованиям

arXiv: 2507.16711

Суть в том, что современные компании тонут в тоннах внутренних регламентов, ГОСТов и юридической макулатуры, которую никто не читает до первой проверки. Традиционный поиск по ключевым словам тут бесполезен — он выдает список документов, а не ответ. Система на базе RAG (Retrieval-Augmented Generation) работает иначе: она не просто помнит базу данных, а буквально «ходит в библиотеку» за нужной страницей прямо в момент вопроса. Это превращает мертвое хранилище файлов в интеллектуального комплаенс-офицера, который выдает конкретное решение, подкрепленное ссылкой на актуальный закон.

Это как если бы у тебя на плече сидел юрист-задрот с феноменальной памятью. Ты не копаешься в архиве сам, а спрашиваешь: «Можно ли нам рекламировать этот крем как лечебный?». Юрист за долю секунды пролистывает пять тысяч страниц мелким шрифтом, находит нужный абзац и говорит: «Нет, прилетит штраф, потому что в регламенте №42 это запрещено». Вместо того чтобы гадать на кофейной гуще или тратить неделю на аудит, ты получаешь верифицированный ответ здесь и сейчас.

В основе лежат три кита: семантический поиск, контекстная фильтрация и проверка на галлюцинации. Система сначала переводит твой вопрос в вектор (числовой код смысла), находит максимально похожие куски текста в базе и скармливает их нейронке. Главная фишка здесь — строгое следование источнику. Если в базе нет ответа, бот не имеет права фантазировать — он честно скажет, что данных нет. Это критически важно в регуляторике, где любая «отсебятина» ИИ может стоить компании миллионов в суде.

Исследование проводили на жестких нормативных актах, но принцип универсален. Эту же схему можно натянуть на анализ отзывов, техническую поддержку или внутренние инструкции для завода. Маркетолог может закинуть в систему тысячи гневных комментариев и спросить: «На что чаще всего жалуются в Москве?». Бот не просто выдаст облако тегов, а выцепит конкретные цитаты и паттерны, которые человек пропустил бы из-за замыленного глаза. RAG превращает хаос данных в структуру, пригодную для принятия решений.

Короче: эпоха, когда мы искали файлы по названиям, официально закончилась. Будущее за системами, которые понимают смысл и несут ответственность за каждое слово ссылкой на документ. Если твой бизнес до сих пор заставляет сотрудников вручную проверять соответствие регламентам — вы живете в прошлом веке и рискуете нарваться на регуляторный облом. Внедряй RAG сейчас, чтобы потом не объяснять прокурору, почему ваш чат-бот просто так пошутил.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с