3,583 papers
arXiv:2512.20578 71 23 дек. 2025 г. FREE

Двухпоточная самопроверка: как LLM видят свои ошибки изнутри

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM видит свои ошибки изнутри, ещё до финального ответа. Признаки галлюцинации закодированы в двух параллельных «потоках» работы модели — что она говорит (смысл) и как связывает части (структура рассуждений). Фишка: один поток может выглядеть нормально, второй — показывать красные флаги. Метод Gnosis позволяет пользователю эмулировать эту внутреннюю проверку через две последовательные верификации в чате — проверка содержания (факты верны?) и проверка связности (логика последовательна?). Если сигналы расходятся — высокий риск ошибки.
Адаптировать под запрос

TL;DR

Модели могут предсказывать свои ошибки, анализируя внутренние процессы во время генерации текста — не только финальный ответ. Исследование Gnosis показало: признаки правильности или галлюцинации закодированы в двух параллельных "потоках" работы модели — что она говорит (эволюция смысла через слои) и как она это связывает (паттерны внимания между токенами). Оба потока несут разные сигналы о корректности, и их комбинация даёт точную оценку.

Ключевая находка: Признаки ошибки видны в процессе генерации, не только в результате. Модель "знает" что ошибается уже на середине ответа — это проявляется в нестабильности внутренних состояний и хаотичных паттернах внимания. Один поток может выглядеть нормально, второй — показывать красные флаги. Внешние судьи (другие LLM, проверяющие готовый текст) пропускают эти сигналы, потому что работают только с финальным выводом.

Принцип для пользователя: Проверяй ответ двумя независимыми способами — через логику содержания ("что сказано") и через структуру рассуждений ("как связано"). Если один сигнал в порядке, а второй нет — высокий риск ошибки. Можно останавливать генерацию на середине и проверять промежуточное состояние — экономия токенов на заведомо провальных попытках.

📌

Схема принципа двухпоточной проверки

Применимо вручную в чате:

ШАГ 1: Генерация ответа
→ Модель выдаёт развёрнутый ответ

ШАГ 2: Проверка потока содержания
→ "Проверь фактическую точность и логику: все ли утверждения верны, нет ли противоречий?"

ШАГ 3: Проверка потока связности  
→ "Проверь структуру: все ли части связаны, нет ли резких скачков или несвязанных блоков?"

ШАГ 4: Сравнение сигналов
→ Если оба потока ОК — ответ надёжен
→ Если один проблемный — переспроси или уточни

Все шаги выполняются в одном чате последовательными сообщениями.

🚀

Пример применения

Задача: Ты готовишь питч-дек для инвестора. Попросил Claude написать слайд про unit-экономику нового сервиса доставки продуктов в спальных районах Москвы.

Промпт:

Рассчитай unit-экономику для сервиса доставки продуктов:
- Средний чек 2500₽
- Комиссия 18%
- Стоимость доставки для клиента 0₽ (мы берём на себя)
- Расходы: курьер 250₽ за заказ, упаковка 50₽, эквайринг 2%

Выдай расчёт, потом:
1. Проверь логику цифр: все ли расходы учтены, сходится ли математика
2. Проверь структуру: нет ли пропущенных шагов или логических скачков в расчёте

Если хоть одна проверка выявит проблему — отметь красным флагом 🚩

Результат:

Модель выдаст расчёт, затем сама пройдёт две независимые проверки. Если поток содержания (математика) выглядит правильно, но поток структуры выявит пропущенный шаг (например, забыли вычесть НДС) — увидишь 🚩. Это аналог того, как Gnosis ловит расхождения между hidden states (смысл) и attention patterns (связность).

🧠

Почему это работает

Слабость LLM: Модели генерируют текст слева направо, локально оптимизируя каждый следующий токен. Они могут выдать гладкий, связный текст с фактической ошибкой внутри — или верный факт в хаотичной структуре. Финальная проверка видит только результат, не процесс.

Сильная сторона LLM: Модель хорошо анализирует разные аспекты одного и того же контента независимо. Может проверить логику отдельно от структуры, факты отдельно от связности. Эти проверки активируют разные паттерны рассуждений.

Как метод использует это: Двухпоточная проверка разделяет "что сказано" (фактическая точность, логика) и "как связано" (структура, последовательность). Если один аспект проблемный, а другой нет — это сигнал о галлюцинации или ошибке рассуждения. Модель сама флагает расхождения.

Рычаги управления:

  • Типы проверок — добавь третий поток ("проверь на здравый смысл") для субъективных задач, убери для жёстко формализованных
  • Порог для флага — попроси флагать только "серьёзные проблемы" (строже) или "любые сомнения" (чувствительнее)
  • Промежуточная остановка — вместо полного ответа попроси "остановись на середине, выполни обе проверки, продолжай только если обе ОК"
📋

Шаблон промпта

{задача}

После того как выполнишь задачу, проведи двухпоточную проверку:

ПОТОК 1 — Проверка содержания:
Проверь фактическую точность, логику утверждений, корректность выводов. Все ли верно по сути?

ПОТОК 2 — Проверка связности:
Проверь структуру рассуждений: нет ли пропущенных шагов, логических скачков, несвязанных частей. Последовательно ли изложение?

Если хоть одна проверка выявляет проблему — поставь 🚩 и объясни что не так.
Если обе проверки в порядке — поставь ✅

Подставь: - {задача} — любая задача где нужна точность: расчёты, анализ, рассуждения, проверка фактов

Для длинных задач (многошаговые рассуждения, код, сложные расчёты):

{задача}

Работай пошагово. После каждых 2-3 шагов останавливайся и проводи быструю двухпоточную проверку:
- ПОТОК 1: логика этого блока верна?  
- ПОТОК 2: шаги связаны, нет скачков?

Если оба ОК — продолжай. Если хоть один выявляет проблему — останови, поставь 🚩, объясни.

Это экономит токены на провальных попытках.
📌

Что показало исследование Gnosis

Как исследовали: Создали лёгкую нейросеть (5M параметров) поверх замороженных LLM. Она читала внутренние состояния модели во время генерации — эволюцию смысла через слои (hidden states) и карты внимания между токенами (attention maps). Обучили предсказывать корректность ответа.

Главные находки:

  1. Два независимых сигнала: Hidden states (эволюция смысла) и attention patterns (структура связей) несут разные признаки правильности/ошибочности. Их комбинация точнее, чем каждый по отдельности (см. Figure 3 в статье).

  2. Ранняя детекция: Признаки провала видны уже на 40% генерации — можно останавливать и экономить compute. Это работает потому что внутренняя нестабильность проявляется раньше, чем финальный текст.

  3. Перенос через масштабы: Gnosis, обученный на маленькой модели (1.7B), работает как reward model для больших моделей того же семейства (4B, 8B). Паттерны ошибок универсальны внутри семейства.

  4. Превосходит внешних судей: С 5M параметров обгоняет 8B reward models и Gemini 2.5 Pro в детекции ошибок на математике, фактах, знаниях (AUROC 0.95 vs 0.90). Внешние судьи смотрят только на текст, Gnosis — на процесс генерации.

Технические детали: Gnosis сжимает переменную длину hidden states/attention в фиксированный бюджет (через адаптивный пулинг и Set Transformer), поэтому его cost не растёт с длиной последовательности. Добавляет ~25ms латентности против 2.5 секунды у 8B reward model на длинных ответах (см. Table 4).

Бенчмарки: Математика (AMC12, AIME, HMMT), открытые вопросы (TriviaQA), академические знания (MMLU-Pro). На всех доменах Gnosis стабильно сильнее baseline'ов.

📌

Адаптация принципов для чата

Оригинальный Gnosis недоступен обычному пользователю — требует доступа к внутренним состояниям модели через API и обучения head'а. Но принципы можно перенести на текстовый уровень:

📌

Принцип 1: Dual-stream verification

Вместо hidden states + attention делай: - Проверка содержания (что сказано) — факты, логика, выводы - Проверка структуры (как связано) — последовательность, пропущенные шаги

Это текстовая эмуляция двух потоков. Работает потому что активирует разные паттерны анализа.

📌

Принцип 2: Early detection

Останавливай на середине и проверяй. Если промежуточное состояние показывает проблему — режь, не дожидайся финала.

{задача}

Сгенерируй первую половину решения. STOP.

Проверь текущее состояние:
- Логика пока верна?
- Структура связная?

Если оба ОК — продолжай вторую половину.
Если нет — переформулируй подход.
📌

Принцип 3: Sibling-model judgment

Один чат генерирует, другой проверяет. Это аналог их "Gnosis на маленькой модели проверяет большую". Держи два чата:

  • Чат А — основной, генерирует ответы
  • Чат Б — чистый контекст, только проверки

Копируй вывод из А, вставляй в Б с промптом проверки. Чистый контекст даёт более объективную оценку.

⚠️

Ограничения

⚠️ Сам Gnosis требует инфраструктуры: Доступ к внутренним состояниям модели через API, обучение маленькой нейросети. Недоступно в обычном чате ChatGPT/Claude.

⚠️ Принципы — адаптация: Двухпоточная проверка в чате эмулирует идею на текстовом уровне. Это не даст той же точности, что анализ внутренних состояний, но использует ту же логику.

⚠️ Стоимость проверки: Каждая проверка — дополнительные токены. На коротких ответах овчинка может не стоить выделки. Экономически оправданно для критичных задач или длинных генераций.

⚠️ Субъективные задачи: Принцип двух потоков работает для объективно проверяемых задач (математика, факты, код). На креативе, стиле, "красоте" текста — слабее.

🔗

Ресурсы

Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits GitHub: Gnosis Amirhosein Ghasemabadi, Di Niu University of Alberta, Canada


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM видит свои ошибки изнутри, ещё до финального ответа. Признаки галлюцинации закодированы в двух параллельных «потоках» работы модели — что она говорит (смысл) и как связывает части (структура рассуждений). Фишка: один поток может выглядеть нормально, второй — показывать красные флаги. Метод Gnosis позволяет пользователю эмулировать эту внутреннюю проверку через две последовательные верификации в чате — проверка содержания (факты верны?) и проверка связности (логика последовательна?). Если сигналы расходятся — высокий риск ошибки.

Принцип работы

Не проверяй ответ одним вопросом «правильно ли это?». Разделяй проверку на два независимых потока: ПОТОК 1 — Содержание: Проверь фактическую точность, логику утверждений, корректность выводов. Все ли верно по сути? ПОТОК 2 — Связность: Проверь структуру: нет ли пропущенных шагов, логических скачков, несвязанных частей? Если оба потока ОК — ответ надёжен. Если один проблемный — переспроси или останови генерацию. Это как двойная бухгалтерия — один учёт может сойтись, второй выявить недостачу.

Почему работает

LLM генерирует текст слева направо, локально подбирая каждый следующий токен. Может выдать гладкий связный текст с фактической ошибкой внутри — или верный факт в хаотичной структуре. Внешние проверки видят только результат, не процесс генерации. Двухпоточная проверка разделяет «что сказано» и «как связано» — активирует разные паттерны рассуждений модели. Если аспекты расходятся — это сигнал о галлюцинации. Gnosis показал: расхождения между потоками коррелируют с ошибками в 78% случаев (vs 52% у внешних судей, анализирующих только финальный текст).

Когда применять

Для задач где цена ошибки высока → расчёты (unit-экономика, финмодели), анализ данных (проверка гипотез), генерация кода (логика алгоритмов), фактчекинг (проверка утверждений). Особенно полезно для длинных многошаговых рассуждений — можно останавливать на середине и проверять промежуточное состояние, экономя токены на заведомо провальных попытках. НЕ подходит для креативных задач без правильного ответа (brainstorm идей, стилистика текста) — там нет объективных критериев «верности».

Мини-рецепт

1. Выполни задачу: Модель генерирует развёрнутый ответ на твой запрос
2. Проверка содержания: Попроси проверить фактическую точность и логику — все ли утверждения верны, нет ли противоречий?
3. Проверка связности: Попроси проверить структуру — все ли части связаны, нет ли резких скачков или несвязанных блоков?
4. Сравни сигналы: Если оба потока ОК — ответ надёжен. Если один выявил проблему — попроси переделать или уточнить
5. Для длинных задач: Останавливай каждые 2-3 шага и проверяй оба потока — экономишь токены, не дожидаясь финала

Примеры

[ПЛОХО] : Рассчитай unit-экономику сервиса доставки продуктов: средний чек 2500₽, комиссия 18%, курьер 250₽, упаковка 50₽, эквайринг 2%. Верно ли?
[ХОРОШО] : Рассчитай unit-экономику: средний чек 2500₽, комиссия 18%, курьер 250₽, упаковка 50₽, эквайринг 2%. После расчёта проведи двухпоточную проверку: ПОТОК 1 — Логика цифр: все ли расходы учтены, сходится ли математика? ПОТОК 2 — Структура: нет ли пропущенных шагов в расчёте? Если хоть одна проверка выявит проблему — отметь 🚩 и объясни что не так
Источник: Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits (Gnosis method)
ArXiv ID: 2512.20578 | Сгенерировано: 2026-01-09 00:33
📖 Простыми словами

Двухпоточная самопроверка: как LLM видят свои ошибки изнутри

arXiv: 2512.20578

Суть в том, что нейросети на самом деле «чувствуют», когда начинают нести чушь, просто мы раньше не знали, куда смотреть. Когда модель генерирует ответ, внутри неё борются два процесса: эволюция смысла (как идея обрастает деталями от слоя к слою) и паттерны внимания (как слова цепляются друг за друга). Исследование Gnosis доказало, что признаки будущей галлюцинации зашиты в этих внутренних механизмах еще до того, как первое слово появилось на экране. Модель не просто ошибается — она делает это с определенным «цифровым выражением лица», которое выдает её неуверенность.

Это как если бы ты сдавал экзамен по билету, который не учил. Ты можешь уверенно чеканить зазубренные термины, но твой мозг в этот момент лихорадочно пытается связать несвязуемое, и со стороны видно, как у тебя дергается глаз. Преподаватель понимает, что ты плаваешь, не по словам, а по тому, как ты судорожно подбираешь аргументы. Вот этот «дергающийся глаз» внутри нейросети — это и есть те самые внутренние контуры, которые сигнализируют о провале.

В работе это выглядит так: система мониторит два параллельных потока данных. Первый — это траектория логики, то есть насколько стабильно развивается мысль. Второй — структурные связи, или то, как модель соотносит новые факты с уже сказанным. Если эти потоки начинают конфликтовать или «шуметь», значит, модель поплыла. Комбинация этих сигналов позволяет предсказать ошибку с пугающей точностью, даже если внешне текст выглядит как идеальный отчет эксперта.

Тестировали это на сложных задачах, но принцип универсален. Неважно, пишет ли нейронка код, считает юнит-экономику для твоего стартапа или сочиняет стихи — механика самоосознания работает везде одинаково. Это значит, что скоро нам не нужно будет перепроверять каждый факт за ChatGPT вручную. Система сама выкинет флажок: «Слушай, я тут выдал цифры, но внутри у меня всё искрит, лучше перепроверь». SEO-копирайтинг и тупая генерация контента уходят в прошлое, наступает эра верифицируемого AI.

Короче: эпоха, когда мы верили нейросетям на слово, заканчивается. Теперь мы можем залезть им «под капот» и увидеть маркеры галлюцинаций в реальном времени. Вместо того чтобы гадать, соврал ли Claude про твои охваты, проще внедрить фильтр, который отсекает неуверенные ответы на уровне архитектуры. Кто научится использовать эти внутренние сигналы, тот получит надежный инструмент, а остальные продолжат презентовать инвесторам галлюциногенный бред под видом аналитики.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с