3,583 papers
arXiv:2511.08916 86 12 нояб. 2025 г. FREE

HalluClean: четырёхшаговая проверка ответов LLM на галлюцинации

КЛЮЧЕВАЯ СУТЬ
Просишь LLM проверить свой ответ на ошибки — она пропускает 67% галлюцинаций. Спрашиваешь в лоб 'есть ли тут неточность?' — модель отвечает поверхностно, как эксперт на бегу. HalluClean позволяет выявлять галлюцинации в уже сгенерированных текстах — проверка фактов в ответах, саммари, диалогах. Фишка: разбиваешь проверку на 4 явных шага — модель сначала составляет план проверки (что и как буду проверять), потом выполняет его пошагово с рассуждениями, делает вердикт и исправляет проблемные места. F1 точности вырастает с 33% до 68% на том же GPT-3.5.
Адаптировать под запрос

TL;DR

HalluClean — промпт-техника для обнаружения и исправления галлюцинаций в ответах LLM. Суть: вместо прямого вопроса «есть ли тут ошибка?» модель проходит четыре явных шага — составляет план проверки, выполняет его пошагово, выносит вердикт и исправляет проблемные места. Всё это работает в одном диалоге без внешних источников.

Главная проблема: когда просишь LLM напрямую проверить текст на ошибки, она часто пропускает неточности. GPT-3.5 при прямом вопросе «есть ли галлюцинация?» ловит только 33% ошибок в вопросах-ответах. Модель «смотрит», но не «анализирует» — как человек, который читает текст по диагонали и не замечает подвоха.

Как решает: HalluClean заставляет модель сначала составить план проверки (что именно проверять?), потом выполнить его пошагово (показывая рассуждения), и только после этого делать вывод. Добавляется «маршрутизатор задачи» — короткая инструкция, которая говорит модели, что именно она проверяет (ответ на вопрос, саммари, диалог). Результат: F1 вырастает с 33% до 68% на том же GPT-3.5.


🔬

Схема метода

ШАГ 1: ПЛАН → "Что буду проверять и как"
    ↓
ШАГ 2: ВЫПОЛНЕНИЕ → Пошаговый анализ с рассуждениями
    ↓
ШАГ 3: ВЕРДИКТ → "Да, есть галлюцинация" / "Нет"
    ↓
ШАГ 4: ИСПРАВЛЕНИЕ → Переписать проблемные места (если нужно)

💡 Все 4 шага выполняются в ОДНОМ диалоге последовательно

🚀

Пример применения

Задача: Ты маркетолог, получил от ChatGPT описание конкурента для аналитического отчёта. Нужно проверить — не выдумала ли модель детали.

Промпт:

Ты проверяешь текст на фактические ошибки и галлюцинации.

ТЕКСТ ДЛЯ ПРОВЕРКИ:
"Ozon был основан в 1998 году Александром Еременко. Компания первой в России запустила маркетплейс в 2018 году и сейчас занимает второе место по обороту после Wildberries."

ШАГ 1: Составь план проверки. Какие факты нужно верифицировать? Какие могут быть источники ошибок?

ШАГ 2: Выполни план пошагово. Проверь каждый факт и покажи рассуждения.

ШАГ 3: Сделай вывод — содержит ли текст галлюцинации? Да или Нет.

ШАГ 4: Если да — перепиши текст, исправив ошибки.

Результат: Модель выдаст структурированный анализ: сначала план (проверить дату основания, имя основателя, факт о маркетплейсе, позицию на рынке), потом пошаговую проверку каждого факта с рассуждениями, затем вердикт с указанием конкретных ошибок, и в конце — исправленную версию текста.


🧠

Почему это работает

Слабость LLM: при прямом вопросе «есть ли ошибка?» модель даёт поверхностный ответ. Она не декомпозирует задачу — просто генерирует первое, что приходит в голову. Это как спросить эксперта на бегу — он ответит что-то, но не подумает глубоко.

Сильная сторона LLM: модель отлично следует пошаговым инструкциям. Если сказать «сначала составь план, потом выполни его» — она действительно структурирует работу. Каждый шаг становится «якорем» для следующего.

Как метод это использует: HalluClean добавляет метакогнитивный слой — модель сначала думает о том, КАК проверять, и только потом проверяет. Плюс «маршрутизатор задачи» — короткая фраза типа «Ты проверяешь ответ на вопрос» — помогает модели понять контекст. Исследователи показали, что одно только добавление маршрутизатора улучшает F1 на саммаризации с 25% до 60%.

Рычаги управления:

  • Детальность плана — для простых проверок достаточно «что проверить», для сложных — добавь «какие источники ошибок возможны»
  • Глубина рассуждений — можно попросить «покажи рассуждения кратко» для экономии токенов
  • Тип задачи в маршрутизаторе — «ответ на вопрос», «саммари документа», «ответ в диалоге» — меняй под контекст

📋

Шаблон промпта

Ты проверяешь {тип_контента} на фактические ошибки и галлюцинации.

{ТИП_КОНТЕНТА} ДЛЯ ПРОВЕРКИ:
{текст_для_проверки}

ШАГ 1: Составь план проверки. Какие факты нужно верифицировать? Какие могут быть источники ошибок?

ШАГ 2: Выполни план пошагово. Проверь каждый факт и покажи рассуждения.

ШАГ 3: Сделай вывод — содержит ли текст галлюцинации? Да или Нет.

ШАГ 4: Если да — перепиши текст, исправив ошибки.

Плейсхолдеры:

  • {тип_контента} — что проверяешь: «ответ на вопрос», «саммари документа», «реплику в диалоге», «описание продукта»
  • {текст_для_проверки} — текст, который нужно проверить
📌

Варианты маршрутизатора по типу задачи

ЗадачаМаршрутизатор
QA«Ты проверяешь ответ на вопрос»
Саммари«Ты проверяешь, соответствует ли саммари исходному документу»
Диалог«Ты проверяешь реплику на соответствие истории диалога»
Математика«Ты проверяешь, решаема ли задача с данными условиями»

⚠️

Ограничения

⚠️ Зависимость от базовой модели: метод усиливает способности модели, но не создаёт новые. Если GPT-3.5 не знает факт — она не сможет его проверить. Для фактчекинга в специализированных областях (медицина, право) лучше комбинировать с веб-поиском.

⚠️ Три типа ошибок сохраняются: (1) непонимание языка — модель неправильно интерпретирует вопрос, (2) отсутствие знаний — модель не знает нужный факт, (3) ошибки в рассуждениях — правильно поняла, но неправильно сделала вывод.

⚠️ Больше токенов: четырёхшаговый процесс генерирует больше текста, чем прямой вопрос. Для массовой проверки — учитывай стоимость.


🔍

Как исследовали

Команда из Харбинского технологического института проверила HalluClean на пяти типах задач: вопросы-ответы, диалоги, саммаризация, математические задачи, самопротиворечия. Использовали четыре готовых бенчмарка с размеченными данными — всего около 2000 примеров с балансом «галлюцинация / нет галлюцинации».

Сравнивали с прямым вопросом «есть ли галлюцинация?» и с другими промпт-методами: Step-by-Step, Plan-and-Solve, SelfCheckGPT, ChatProtect. Тестировали на пяти моделях: GPT-3.5, GPT-4o-mini, Llama-3-70B, DeepSeek-V3, DeepSeek-R1.

Главный инсайт: прямой вопрос даёт F1 около 33% на QA, а HalluClean — 68% на том же GPT-3.5. Но интересно: каждый компонент добавляет своё. Просто маршрутизатор задачи поднимает F1 на саммаризации с 25% до 60%. Добавление структурированного рассуждения — ещё до 66%. Эффект аддитивный, не одна серебряная пуля.

Отдельно проверили на доменных задачах (медицина, финансы) — метод работает ещё лучше: F1 вырос с 9% до 92% на CovidQA. Это логично: в специализированных областях модели ещё чаще выдумывают, и структурированная проверка ловит больше.


📄

Оригинал из исследования

Контекст: Четырёхшаговый промпт для задачи Question Answering (дословно из статьи):

Step-1: You are provided with a question and its corresponding answer. 
Your task is to determine whether the answer contains hallucinated content. 
Let's understand the task and devise a plan to solve the task.
[Task Input]

Step-2: Let's carry out the plan and solve the task step by step. 
Show the reasoning process.
[Task Input; Result from Step-1]

Step-3: Please conclude whether the answer contains hallucinated content 
with Yes or No.
[Task Input; Result from Step-2]

Step-4: Given a question, its corresponding hallucinated answer, and an 
analysis explaining why the answer contains hallucinated content. 
Your task is to answer the question without introducing any hallucinations.
[Task Input; Result from Step-2]

Маршрутизаторы задач (дословно):

Task TypeTask Routing Prompt
Question AnsweringYou are provided with a question and its corresponding answer. Your task is to determine whether the answer contains hallucinated content.
Dialogue SystemsYou are provided with a dialogue history and its corresponding response. Your task is to determine whether the response contains hallucinated content.
SummarizationYou are provided with a document and its corresponding summary. Your task is to determine whether the summary contains hallucinated content.

💡

Адаптации и экстраполяции

📌

💡 Адаптация для проверки своих текстов перед отправкой

Метод работает не только для проверки ответов LLM, но и для самопроверки — когда ты сам написал текст и хочешь поймать ошибки:

Ты редактор-фактчекер. Проверь мой текст на фактические ошибки.

МОЙ ТЕКСТ:
{твой_текст}

ШАГ 1: Какие факты в тексте можно проверить? Составь список утверждений.

ШАГ 2: Проверь каждое утверждение. Покажи рассуждения.

ШАГ 3: Какие утверждения точно верны, какие сомнительны, какие ошибочны?

ШАГ 4: Предложи исправления для сомнительных и ошибочных.
📌

🔧 Техника: добавить веб-поиск для фактчекинга

Исследователи показали, что HalluClean + retrieval даёт F1 80% вместо 68%. В чате с Claude или ChatGPT:

Ты проверяешь ответ на вопрос на галлюцинации.
При проверке фактов — ищи в интернете.

ВОПРОС: {вопрос}
ОТВЕТ: {ответ}

ШАГ 1: Какие факты нужно проверить через поиск?
ШАГ 2: Найди информацию и сравни с ответом.
ШАГ 3: Вердикт — есть галлюцинация? Да/Нет.
ШАГ 4: Если да — исправь.
📌

🔧 Техника: сократить для простых проверок

Если проверяешь что-то простое (дату, имя, одну цифру) — можно убрать детальный план:

Проверь факт: {утверждение}

Покажи рассуждение и дай вердикт: верно или нет?
Если нет — исправь.

🔗

Ресурсы

Работа: "HalluClean: A Unified Framework to Combat Hallucinations in LLMs"

Авторы: Yaxin Zhao, Yu Zhang — Harbin Institute of Technology, Harbin, China

Код: https://github.com/tingmuor/HalluClean

Бенчмарки: HaluEval, UMWP, ChatProtect, HaluBench


📋 Дайджест исследования

Ключевая суть

Просишь LLM проверить свой ответ на ошибки — она пропускает 67% галлюцинаций. Спрашиваешь в лоб 'есть ли тут неточность?' — модель отвечает поверхностно, как эксперт на бегу. HalluClean позволяет выявлять галлюцинации в уже сгенерированных текстах — проверка фактов в ответах, саммари, диалогах. Фишка: разбиваешь проверку на 4 явных шага — модель сначала составляет план проверки (что и как буду проверять), потом выполняет его пошагово с рассуждениями, делает вердикт и исправляет проблемные места. F1 точности вырастает с 33% до 68% на том же GPT-3.5.

Принцип работы

Не спрашивай 'есть ли ошибка?' — заставь модель структурировать проверку. Процесс: 1. План → модель думает ЧТО проверять и КАК 2. Выполнение → пошаговый анализ с явными рассуждениями 3. Вердикт → да/нет, есть ли галлюцинация 4. Исправление → переписать проблемные места Добавь маршрутизатор — одну строчку 'Ты проверяешь ответ на вопрос'. Модель понимает контекст и знает на что обращать внимание. Без маршрутизатора модель не понимает ЧТО именно проверять — факты в саммари, логику в диалоге или точность ответа.

Почему работает

Прямой вопрос 'есть ли ошибка?' заставляет модель генерировать первое что приходит в голову. Нет времени подумать — выдаёт поверхностный ответ. Пошаговая структура создаёт якори для рассуждений. Каждый шаг — это точка остановки. Модель не может перескочить сразу к выводу, она вынуждена сначала составить план, потом его выполнить. Это метакогнитивный слой — модель думает о том КАК проверять, а не просто проверяет. Одно только добавление маршрутизатора 'Ты проверяешь саммари' улучшает F1 с 25% до 60% на задаче саммаризации — модель понимает что искать расхождения с исходным текстом, а не просто 'проверять на ошибки'.

Когда применять

Проверка контента после генерации → конкретно для фактчекинга ответов на вопросы, проверки саммари на соответствие документу, валидации реплик в диалоге, особенно когда работаешь без внешних источников (RAG, веб-поиск). НЕ подходит для специализированных областей (медицина, право, узкие технические темы) — если модель не знает факт, она не сможет его проверить. Для таких случаев комбинируй с веб-поиском.

Мини-рецепт

1. Настрой маршрутизатор под тип задачи: Ты проверяешь ответ на вопрос (для QA), Ты проверяешь соответствие саммари исходному документу (для саммаризации), Ты проверяешь реплику на соответствие истории диалога (для чат-ботов)

2. Дай текст для проверки: скопируй ответ модели или сгенерированный контент

3. Задай 4 шага явно:
- ШАГ 1: Составь план проверки. Какие факты нужно верифицировать?
- ШАГ 2: Выполни план пошагово. Проверь каждый факт и покажи рассуждения
- ШАГ 3: Сделай вывод — содержит ли текст галлюцинации? Да или Нет
- ШАГ 4: Если да — перепиши текст, исправив ошибки

4. Получи структурированный анализ: модель выдаст план, пошаговую проверку, вердикт и исправленную версию

Примеры

[ПЛОХО] : Проверь этот текст на ошибки: [текст]. Есть ли в нём неточности? — модель даст поверхностный ответ, пропустит 60-70% галлюцинаций
[ХОРОШО] : Ты проверяешь описание продукта на фактические ошибки. ТЕКСТ ДЛЯ ПРОВЕРКИ: "iPhone 15 вышел в сентябре 2022 года с процессором A16 и поддержкой USB-C" ШАГ 1: Составь план проверки. Какие факты нужно верифицировать? ШАГ 2: Выполни план пошагово. Проверь каждый факт и покажи рассуждения. ШАГ 3: Сделай вывод — содержит ли текст галлюцинации? Да или Нет. ШАГ 4: Если да — перепиши текст, исправив ошибки — модель составит план (проверить дату выпуска, модель процессора, тип порта), найдёт ошибку в дате (iPhone 15 вышел в 2023, а не 2022) и выдаст исправленную версию
Источник: HalluClean: A Unified Framework to Combat Hallucinations in LLMs
ArXiv ID: 2511.08916 | Сгенерировано: 2026-01-11 20:04

Концепты не выделены.

📖 Простыми словами

HalluClean: четырёхшаговая проверка ответов LLM на галлюцинации

arXiv: 2511.08916

Суть в том, что LLM по своей природе — это патологические лжецы, которые сами верят в свою чушь. Когда ты спрашиваешь нейронку в лоб: «Ты тут ничего не наврала?», она просто выдает поверхностное «нет», потому что ей лень копаться в собственных галлюцинациях. HalluClean ломает эту привычку, заставляя модель работать не как сказочника, а как дотошного следователя, который сначала строит план допроса, а только потом выносит приговор.

Это как если бы ты попросил сонного студента проверить дипломную работу. Если просто спросить: «Всё норм?», он кивнет и уснет дальше. Но если ты заставишь его сначала выписать список всех формул, потом каждую пересчитать на калькуляторе и только в конце расписаться за результат — шансов пропустить лажу становится в разы меньше. HalluClean — это и есть тот самый принудительный чек-лист, который не дает модели «проскочить» сложный момент на автопилоте.

Метод работает через жесткую четырехшаговку в одном чате: сначала составление плана (что именно мы проверяем), затем пошаговое выполнение, следом четкий вердикт и только в финале — исправление косяков. Весь прикол в том, что модель сама себя ловит за руку в процессе рассуждения. Если заставить её расписать логику проверки по пунктам, она внезапно «замечает», что выдуманный ею факт о конкуренте или несуществующая функция софта — это полная фигня, которая не бьется с реальностью.

Хотя метод тестировали на галлюцинациях, этот принцип принудительной декомпозиции применим к любой сложной задаче. Будь то написание кода, юридический аудит или создание маркетинговой стратегии — если заставить LLM сначала составить план проверки, а потом идти по нему, качество ответов взлетает. Прямые вопросы не работают, работает только структурированный допрос. Это превращает нейронку из неуверенного фантазера в надежный инструмент, которому можно доверять проверку фактов.

Короче: хватит надеяться на честность нейросети, она всегда будет пытаться срезать углы. Используй HalluClean, чтобы выбивать из модели дурь через четыре этапа проверки. Либо ты заставляешь её работать по шагам, либо получаешь отчет, полный красивого, но абсолютно бесполезного вранья. Один промпт — четыре шага, и риск галлюцинаций падает до минимума, пока конкуренты продолжают верить всему, что им «нагаллюцинировал» чат-бот.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с