3,583 papers
arXiv:2604.02230 80 2 апр. 2026 г. FREE

Trace Inversion: детектор галлюцинаций через реконструкцию вопроса

КЛЮЧЕВАЯ СУТЬ
Парадокс: когда LLM галлюцинирует — она не «не уверена». Она уверенно отвечает на свой вопрос, а не на твой. Ты спрашиваешь одно, она тихо переформулирует в «удобный» вариант и рапортует с полной уверенностью. Trace Inversion позволяет поймать эту подмену — попросить модель восстановить по её же рассуждению, на что она реально ответила, и сравнить с оригиналом. Фишка: рассуждение — это след интерпретации. Подмена вопроса оставляет в рассуждении отпечаток — именно там её и ловят.
Адаптировать под запрос

TL;DR

Trace Inversion — техника проверки, не соврала ли модель. Суть: попросить модель восстановить по своим рассуждениям, на какой вопрос она на самом деле ответила — и сравнить с вопросом, который задал ты.

Модели галлюцинируют не потому что «не уверены» — а потому что незаметно подменяют вопрос. Ты спрашиваешь «Кто не умел пользоваться телефоном?» — модель в рассуждениях незаметно переформулирует в «Кто скорее всего не умел?» и уверенно отвечает на уже другой вопрос. Классические методы проверки смотрят на уверенность ответа — но модель может быть максимально уверенной в ответе на неправильный вопрос.

Метод перехватывает подмену за три шага: модель отвечает с рассуждением → по рассуждению восстанавливается «вопрос, который модель услышала» → два вопроса сравниваются. Если они расходятся — ответ ненадёжен.


🔬

Схема метода

(3 последовательных запроса в одном чате)

ШАГ 1: Задай вопрос + "думай пошагово"
        → получи ответ + рассуждение

ШАГ 2: Только по рассуждению → попроси восстановить 
        вопрос, на который модель реально ответила
        → получи реконструированный вопрос

ШАГ 3: Сравни оригинальный вопрос с реконструированным
        → большое расхождение = ответ ненадёжен, 
          лучше перепроверить

🚀

Пример применения

Задача: Основатель стартапа готовится к встрече с инвестором. Спрашивает ChatGPT о юридических требованиях к договору конвертируемого займа в России перед питчем в фонд, который инвестирует по этой схеме.

Промпт — Шаг 1:

Какие обязательные условия должны быть в договоре 
конвертируемого займа между стартапом и венчурным фондом 
по российскому праву? Думай пошагово, показывай каждый шаг.

Промпт — Шаг 2:

Посмотри только на свои рассуждения выше — не на вопрос, 
который я задал. Основываясь исключительно на ходе своих 
рассуждений, сформулируй: на какой вопрос ты фактически 
отвечал? Запиши его точно.

Промпт — Шаг 3:

Сравни два вопроса:

МОЙ ВОПРОС: "Какие обязательные условия должны быть 
в договоре конвертируемого займа между стартапом 
и венчурным фондом по российскому праву?"

ВОПРОС, НА КОТОРЫЙ ТЫ ОТВЕТИЛ: [вставь из шага 2]

Совпадают ли они по смыслу, намерению и контексту? 
Если есть расхождения — укажи конкретно, какие, 
и насколько это влияет на достоверность ответа.

Результат: На шаге 3 модель покажет: либо «вопросы совпадают, ответ надёжен» — либо конкретно опишет подмену. Например: «Я отвечал о типовых требованиях к займам вообще, а не специфике конвертации по 223-ФЗ» — и сам покажет, где ответ ненадёжен. Без этой проверки такая подмена незаметна.


🧠

Почему это работает

Модель не «врёт» — она достраивает пробелы. Когда в вопросе есть неопределённость, неизвестные факты или ложная предпосылка, модель тихо заполняет пробел и отвечает на чуть другой, «починенный» вопрос. Ответ звучит уверенно — потому что на свой вопрос модель действительно ответила правильно.

Рассуждение (Chain-of-Thought, цепочка шагов) — это след того, как модель интерпретировала запрос. По этому следу можно восстановить, что модель «услышала». Подмена вопроса оставляет отпечаток в рассуждении — и именно там её можно поймать.

Метод использует то, что модель хорошо умеет: перефразировать и сравнивать смыслы. Задача сравнения «одинаково ли звучат два вопроса по смыслу» — это сильная зона LLM. Слабость (незаметная подмена) обходится через сильную сторону (анализ смысловых расхождений).

Рычаги управления: - Детализация шага 3 — добавь «оцени расхождение по шкале 1-10» чтобы получить числовой сигнал - Фокус сравнения — укажи конкретные оси: «сравни по: намерение / факты / контекст» для точнее диагностики - Упрощение — если нет времени на 3 шага, можно объединить шаги 2-3 в один запрос (незначительная потеря точности)


📋

Шаблон промпта

Шаг 1 — Ответ с рассуждением:

{вопрос}

Думай пошагово. Показывай каждый шаг рассуждения.

Шаг 2 — Реконструкция вопроса:

Посмотри только на свои рассуждения выше — не на вопрос, 
который я задал. Основываясь исключительно на ходе своих 
рассуждений, сформулируй: на какой именно вопрос ты 
фактически отвечал? Запиши его точно, одним предложением.

Шаг 3 — Сравнение:

Сравни два вопроса:

МОЙ ВОПРОС: {вставь оригинальный вопрос}

ВОПРОС, НА КОТОРЫЙ ТЫ ОТВЕТИЛ: {вставь из шага 2}

Совпадают ли они по: намерению, фактическому содержанию 
и контексту? Если есть расхождения — укажи конкретно.
Вывод: насколько можно доверять первому ответу?

Плейсхолдеры: - {вопрос} — любой вопрос, где важна точность (юридическое, медицинское, финансовое, историческое) - Шаги 2 и 3 — универсальные, не меняются


🚀 Быстрый старт — вставь в чат:

Вот трёхшаговый метод проверки галлюцинаций Trace Inversion. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы правильно заполнить шаги.

[вставить шаблон выше]

LLM спросит о твоём конкретном вопросе и контексте — потому что шаг 3 требует точно восстановить оригинальный вопрос для сравнения. Она возьмёт структуру из шаблона и адаптирует под твой запрос.


⚠️

Ограничения

⚠️ Overhead: Три запроса вместо одного — метод для ситуаций, когда цена ошибки высока. Для проверки рецепта ужина избыточно.

⚠️ Тонкие расхождения: Если подмена очень незначительная («кто не умел» vs «кто скорее всего не умел»), языковое сравнение может не поймать разницу. Числовая оценка сходства помогает, но не гарантирует.

⚠️ Модели без развёрнутого рассуждения: Метод работает только если модель выдаёт развёрнутые рассуждения. С короткими ответами «без объяснений» — след слишком короткий для реконструкции.

⚠️ Сильные задачи — сильный результат: Лучше всего работает на вопросах с чёткими фактами (юридическое, математическое, историческое). Хуже — на субъективных и оценочных вопросах, где «подмена» труднее определима.


🔗

Ресурсы

Answering the Wrong Question: Reasoning Trace Inversion for Abstention in LLMs Abinitha Gourabathina (MIT), Inkit Padhi (IBM Research), Manish Nagireddy (MIT-IBM Watson AI Lab), Subhajit Chaudhury (IBM Research), Prasanna Sattigeri (MIT-IBM Watson AI Lab) github.com/abinithago/trace-inversion


📋 Дайджест исследования

Ключевая суть

Парадокс: когда LLM галлюцинирует — она не «не уверена». Она уверенно отвечает на свой вопрос, а не на твой. Ты спрашиваешь одно, она тихо переформулирует в «удобный» вариант и рапортует с полной уверенностью. Trace Inversion позволяет поймать эту подмену — попросить модель восстановить по её же рассуждению, на что она реально ответила, и сравнить с оригиналом. Фишка: рассуждение — это след интерпретации. Подмена вопроса оставляет в рассуждении отпечаток — именно там её и ловят.

Принцип работы

Три запроса подряд в одном чате. Первый: задай вопрос с пошаговым рассуждением — получи ответ и цепочку шагов. Второй: попроси модель посмотреть только на своё рассуждение и сформулировать, на какой вопрос она реально отвечала. Третий: сравни оба вопроса — оригинальный и восстановленный. Большое расхождение = ответ ненадёжен, чини вопрос или перепроверяй факты. Модель хорошо сравнивает смыслы — эта же сила её и разоблачает.

Почему работает

LLM встречает неопределённость в вопросе — и достраивает её. Тихо «чинит» запрос под то, что знает, и уверенно отвечает на починенную версию. Стандартные методы проверки смотрят на уверенность ответа. Но уверенность максимальная — модель же ответила правильно, только не на твой вопрос. Подмена оставляет след в пошаговом рассуждении — по нему можно восстановить, что модель «услышала». Задача «сравни два вопроса по смыслу» — это сильная зона LLM. Слабость ловится её же силой.

Когда применять

Юридические, медицинские, финансовые, исторические вопросы — там, где цена ошибки высокая. Особенно полезно, когда в вопросе есть неопределённость, специфика конкретной юрисдикции или скрытая предпосылка, которую модель может незаметно заменить. Не подходит для рутинных задач — три запроса вместо одного слишком дорого, если ставки низкие.

Мини-рецепт

1. Ответ с рассуждением: задай вопрос и добавь «думай пошагово, показывай каждый шаг» — получи ответ плюс цепочку рассуждений.
2. Реконструкция: попроси модель посмотреть только на её рассуждение — не на твой вопрос — и одним предложением написать, на какой вопрос она реально отвечала.
3. Сравнение: дай оба вопроса рядом — оригинальный и восстановленный. Попроси найти расхождения по намерению и содержанию, и дать вывод: насколько можно доверять первому ответу.
4. Опционально — числовой сигнал: добавь в шаг 3 «оцени степень расхождения по шкале 1–10» — получишь конкретную цифру вместо размытого «немного отличается».

Примеры

[ПЛОХО] : Какие условия обязательны в договоре конвертируемого займа по российскому праву? — получаешь уверенный ответ, но не знаешь, на твой ли вопрос он.
[ХОРОШО] : Шаг 1: Какие условия обязательны в договоре конвертируемого займа по российскому праву? Думай пошагово, показывай каждый шаг рассуждения. Шаг 2: Посмотри только на свои рассуждения выше. Не на вопрос, который я задал. На какой вопрос ты фактически отвечал? Запиши точно, одним предложением. Шаг 3: Сравни два вопроса. МОЙ ВОПРОС: «Какие условия обязательны в договоре конвертируемого займа по российскому праву?» ВОПРОС, НА КОТОРЫЙ ТЫ ОТВЕТИЛ: [вставь из шага 2]. Есть расхождения по намерению и содержанию? Насколько можно доверять первому ответу? Если модель ответила на «типовые займы вообще», а не на специфику конвертации — она сама об этом скажет. Без этой проверки подмена незаметна.
Источник: Answering the Wrong Question: Reasoning Trace Inversion for Abstention in LLMs
ArXiv ID: 2604.02230 | Сгенерировано: 2026-04-03 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Галлюцинации не видно по уверенности моделиМодель галлюцинирует не потому что «не знает». Она незаметно переформулирует вопрос и уверенно отвечает уже на другой. Ты спрашиваешь «кто не умел?». Модель переформулирует в «кто скорее всего не умел?» — и отвечает точно. По тону ответа подмену не обнаружить. Классическая проверка уверенности тут не работаетПопроси модель восстановить вопрос по её рассуждениям. Сравни с оригиналом. Расхождение = сигнал ненадёжности

Методы

МетодСуть
Три шага для проверки подмены вопросаШаг 1. Задай вопрос с инструкцией думать пошагово. Получи ответ и рассуждение. Шаг 2. Попроси: Посмотри только на свои рассуждения выше — не на мой вопрос. На какой вопрос ты фактически отвечал? Запиши точно. Шаг 3. Попроси сравнить два вопроса: МОЙ ВОПРОС: {...} ВОПРОС, НА КОТОРЫЙ ТЫ ОТВЕТИЛ: {из шага 2}. Совпадают ли по намерению, содержанию, контексту? Где расхождения? Почему работает: Рассуждение — след того, как модель поняла запрос. Подмена вопроса всегда оставляет отпечаток в рассуждении. Сравнение смыслов — сильная зона модели. Слабость (тихая подмена) обходится через сильную сторону (анализ расхождений). Когда применять: вопросы с высокой ценой ошибки — юридическое, медицинское, финансовое, историческое. Когда не применять: три запроса вместо одного — дорого для бытовых задач. Модели без развёрнутого рассуждения след слишком короткий
📖 Простыми словами

Answering the Wrong Question: Reasoning Trace Inversion for Abstention inLLMs

arXiv: 2604.02230

Суть проблемы в том, что нейронки почти никогда не говорят «я не знаю». Когда ты задаешь сложный или кривой вопрос, модель не признает пробел в знаниях, а тихо «чинит» твой запрос в своей голове, подменяя его на тот, на который у нее есть ответ. Это фундаментальный баг архитектуры: LLM обучены продолжать текст любой ценой. В итоге ты получаешь уверенный, логичный, но абсолютно бесполезный ответ, потому что модель ответила не тебе, а какому-то воображаемому юзеру с другим вопросом.

Это как если бы ты спросил дорогу до библиотеки, а прохожий, не зная пути, начал бы вдохновенно рассказывать, как пройти в ближайший бар. Он делает это так уверенно, что ты веришь, идешь туда и только на месте понимаешь, что тебя жестко налюбили. Проблема не в том, что он злой, а в том, что его мозг просто автоматически достроил маршрут до ближайшей известной точки, проигнорировав твою реальную цель.

Чтобы поймать модель на этом вранье, придумали метод Trace Inversion. Работает это в три хода. Сначала ты задаешь свой вопрос и получаешь ответ с рассуждениями. Затем ты копируешь эти рассуждения в новый чат и спрашиваешь: «Слышь, а на какой вопрос вот это всё является ответом?». Если модель восстановит твой исходный вопрос — всё четко, ей можно верить. Но если она сформулирует что-то другое, значит, в процессе рассуждений она свернула не туда и начала галлюцинировать.

Представь фаундера стартапа, который спрашивает ChatGPT про нюансы конвертируемого займа в РФ. Модель выдает простыню текста, которая звучит солидно. Но если прогнать этот текст через Trace Inversion, может выясниться, что нейронка на самом деле расписала законы штата Делавэр, просто «забыв» упомянуть об этом. Принцип универсален: так можно проверять медицинские советы, юридические справки или сложный код. Если реконструированный вопрос не совпадает с оригиналом — перед тобой мусор.

Короче, хватит принимать ответы нейронок на веру, особенно в критичных задачах. Используй обратную проверку через рассуждения, чтобы понять, не подменила ли модель контекст за твоей спиной. Это самый простой способ заставить AI признаться в некомпетентности. Либо вопрос и ответ бьются друг с другом, либо ты просто тратишь время на чтение уверенного бреда.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с