3,583 papers
arXiv:2604.25931 70 2 апр. 2026 г. FREE

Якорная конфабуляция: почему одна подсказка делает LLM увереннее в неверном ответе

КЛЮЧЕВАЯ СУТЬ
Один подтверждённый факт в промпте — и модель начинает уверенно ошибаться сильнее, чем вообще без контекста. Промпт эпистемической скромности (явное указание сколько фактов у тебя есть, а сколько нет) позволяет получать честный анализ при неполных данных — вместо связного, но частично выдуманного ответа. Фишка: пиши 'у тебя 3 из 8 фактов' — модель переключается с режима 'уверенно достраиваю' на режим 'честно обозначаю пробелы'. Самооценка [УВЕРЕННОСТЬ: X/5] в конце сразу показывает где реальная опора, а где угадывание.
Адаптировать под запрос

TL;DR

Частичный контекст опаснее полного отсутствия контекста. Когда вы даёте модели один подтверждённый факт из многошаговой цепочки рассуждений — она становится увереннее в ошибочных ответах, а не осторожнее. Это не баг, который исправят в следующей версии. Это обнаруженное свойство калибровки: модель «цепляется» за якорный факт и с повышенной уверенностью достраивает остальное из памяти — неверно, но убедительно.

Главная контринтуитивная находка: чем сильнее модель — тем более уверенно она галлюцинирует при частичных данных. Claude Opus конфабулирует увереннее, чем Claude Haiku. GPT-4 — увереннее, чем GPT-3.5. Проблема не в слабости модели. Более способные модели лучше «достраивают» недостающее — и делают это с большей уверенностью, даже когда ошибаются.

Из этого вытекают два прямых инструмента. M1 — промпт эпистемической скромности: явно скажи модели, сколько фактов у неё есть и сколько не хватает — это снижает уверенную ошибку на ~12 процентных пунктов. M2 — явная самооценка уверенности: попроси модель поставить себе оценку [УВЕРЕННОСТЬ: X/5] — это честнее отражает, на что модель «опирается», а что достраивает из памяти.


🔬

Схема метода

Два независимых инструмента, применяются в одном промпте:

M1 — Промпт эпистемической скромности:
  ПЕРЕД задачей → добавить фрейм:
  "Тебе предоставлен {k} из {n} фактов.
   Выражай подлинную неуверенность в остальном"
  → модель перестаёт уверенно достраивать недостающее

M2 — Явная самооценка:
  ПОСЛЕ ответа → добавить запрос:
  "[УВЕРЕННОСТЬ: X/5]"
  → модель явно маркирует степень своей уверенности
  → можно сразу видеть где она опирается на факты, а где угадывает

Оба шага работают в одном промпте, без дополнительных запросов.


🚀

Пример применения

Задача: Ты изучаешь потенциального партнёра — небольшой EdTech-стартап из Новосибирска. У тебя есть его питч-дек (описание продукта, команда, юнит-экономика за прошлый год). Нет данных о конкурентах и рыночной динамике. Просишь Claude проанализировать перспективы.

Промпт:

Тебе предоставлены данные из питч-дека EdTech-стартапа: описание продукта 
(онлайн-подготовка к ЕГЭ), состав команды (3 человека), юнит-экономика за 2024 год 
(CAC = 1200 руб., LTV = 4800 руб.). Это 3 из примерно 8 значимых факторов для оценки 
стартапа на стадии pre-seed.

Выражай подлинную неуверенность в остальных пяти факторах — конкурентной среде, 
масштабируемости, каналах привлечения, рыночном потенциале и экспертизе команды. 
Не достраивай их из допущений.

Проанализируй сильные стороны по имеющимся данным. Для каждого пропущенного 
фактора — скажи, что именно неизвестно и почему это важно проверить.

В конце поставь: [УВЕРЕННОСТЬ В АНАЛИЗЕ: X/5] с коротким объяснением.

Дополнительные данные: {вставь текст питч-дека}

Результат: Модель разделит анализ на два блока: "что могу сказать уверенно" (юнит-экономика выглядит здраво, LTV/CAC = 4x — хороший сигнал) и "чего не хватает для выводов" (кто ещё работает в этой нише, как стартап привлекает учеников, насколько команда знает рынок). В конце — честная самооценка, например [УВЕРЕННОСТЬ: 2/5], с пояснением почему. Без M1 модель, скорее всего, выдала бы связный анализ с выводами — уверенный, но частично выдуманный.


🧠

Почему это работает

Слабость LLM — предсказательная машина без ощущения границ знания. Модель не знает, где заканчивается её реальная информация и начинается достройка. Когда ты даёшь ей один конкретный факт — он становится «якорем». Модель видит: "о, тут реальный контекст" — и переключается в режим уверенного завершения цепочки. Остальные звенья она достраивает из обучающих данных с той же интонацией, что и проверенный факт.

Сильная сторона LLM — следование явным мета-инструкциям. Модели хорошо выполняют инструкции о том, как отвечать, не только что отвечать. Фраза "у тебя 3 из 8 фактов, будь неуверен в остальных" — это не просьба, это явная карта знания. Модель не должна угадывать, где границы — ты их нарисовал. Это сдвигает поведение с "уверенно достраиваю" на "честно обозначаю пробелы".

Рычаги управления: - Число k и n можно варьировать — чем больше разрыв, тем сильнее модель сдерживает уверенность - Фраза "выражай подлинную неуверенность" работает лучше, чем "отметь что неизвестно" — слово "подлинную" усиливает инструкцию - [УВЕРЕННОСТЬ: X/5] в конце промпта — простой сигнал самоконтроля; можно заменить на [УВЕРЕННОСТЬ: HIGH/MED/LOW] если числа кажутся искусственными


📋

Шаблон промпта

Тебе предоставлено {k} из примерно {n} значимых фактов по теме: {тема}.

Конкретно у тебя есть: {перечисли что дал}.

Выражай подлинную неуверенность в остальных фактах — не достраивай их 
из допущений. По каждому пропущенному аспекту скажи, что именно неизвестно 
и почему это важно.

{основной вопрос или задача}

В конце: [УВЕРЕННОСТЬ: X/5] — с коротким объяснением на что опирался.

Что подставлять: - {k} — сколько фактов/документов/данных ты предоставил - {n} — примерно сколько нужно для полного ответа (можно округлённо: "5 из ~10") - {тема} — о чём анализ - {перечисли что дал} — конкретно что отдал модели (документ, факты, данные) - {основной вопрос} — что конкретно спрашиваешь


🚀 Быстрый старт — вставь в чат:

Вот шаблон промпта эпистемической скромности для работы с частичными данными. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, сколько у тебя фактов и что конкретно передаёшь — потому что ей нужно знать k и n, чтобы корректно откалибровать промпт под твою ситуацию.


⚠️

Ограничения

⚠️ Простые задачи не нужно трогать: Эффект срабатывает только для многошаговых рассуждений, где модели нужно "соединить точки". На прямые фактологические вопросы (1-2 шага) эффект не проявляется — там промпт эпистемической скромности просто лишний.

⚠️ Метод испытан с GPT-4o: Базовый эффект показан на Claude Sonnet — а митигация (M1/M2) проверена на GPT-4o. Насколько сильно M1 работает именно на Claude Sonnet — пока не протестировано. Авторы сами называют это ограничением.

⚠️ Не спасает от полного незнания: Если у модели нет нужных данных в обучении вообще — якоря нет, конфабуляции этого типа нет. Эффект специфичен для случаев, когда модель "знает" тему и достраивает её.

⚠️ Более умные модели — больше риск: Если переключился с GPT-4o-mini на GPT-4o ради качества — уверенные галлюцинации при частичных данных становятся вероятнее, а не реже. Это нужно учитывать при передаче неполного контекста сильным моделям.


🔍

Как исследовали

Идея была провокационной: исследователи взяли многошаговые вопросы (требующие 3 промежуточных факта для ответа), добавляли в промпт ноль, один, два или все три подтверждённых факта и замеряли — когда модель ошибается И при этом звучит уверенно. Результат оказался нелинейным: с нулём фактов — уверенная ошибка в 61% случаев, с одним фактом — скачок до 66%, с двумя — снижение до 60%, с тремя — до 54%. Это прямое доказательство: один якорь делает хуже, а не лучше.

Удивительная находка по масштабируемости: Claude Haiku (меньшая модель) конфабулирует с результатом 0.58, Sonnet — 0.70, Opus (самая мощная) — 0.73. Ранговая корреляция между мощностью модели и уверенной галлюцинацией — 0.90. Это почти идеальная линейная зависимость. Исследователи это объясняют так: сильные модели лучше строят связные цепочки — и делают это даже когда исходных данных не хватает. Fluency ≠ accuracy.

Дополнительно проверили, что эффект требует одновременно двух условий: реального контекста в промпте И частичного якоря. Без контекста один факт наоборот снижает уверенную ошибку. Это значит, что в обычном разговоре без документов якорная конфабуляция менее опасна — но при работе с реальными материалами она активна.


📄

Оригинал из исследования

M1 — Epistemic Humility Prompt (оригинал):

"You have been given k of n facts; express genuine uncertainty about the rest"

M2 — Explicit Confidence Elicitation (оригинал):

"Rate your confidence [CONFIDENCE: X/5]"

Контекст: Авторы встраивали эти инструкции в промпты для задач MuSiQue 3-hop (160 вопросов с зафиксированными правильными ответами). M1 снизил уверенную ошибку с 0.656 до 0.538 (ΔΡ = −0.118). M2 показал, что явная самооценка (PHC = 0.684) честнее отражает параметрическое закрепление, чем стилистические сигналы в тексте (0.564).


💡

Адаптации и экстраполяции

💡 Адаптация: "карта уверенности" до ответа

Вместо одного числа в конце — попроси модель разметить уверенность внутри ответа по каждому утверждению:

По каждому тезису в своём ответе добавляй [✓] если это из предоставленных данных, 
[~] если это обоснованное предположение, [?] если это достройка из общих знаний.

Это превращает M2 из итоговой оценки в пошаговый аудит — сразу видно, какие части ответа надёжны.


🔧 Техника: обратная проверка — "что тебе не хватает?"

После любого анализа с частичными данными добавь в конец:

Перечисли 3-5 конкретных фактов, которые изменили бы твой вывод, если бы ты их знал.

Если модель не может назвать таких фактов — она, скорее всего, уже заполнила пробелы галлюцинацией и "не видит" что именно отсутствует.


💡 Применение принципа к проверке AI-ответов

Когда получаешь развёрнутый ответ по теме, где ты сам дал частичный контекст — не доверяй цифрам, именам и датам в "связующих" частях. Якорная конфабуляция чаще всего живёт в середине цепочки рассуждений, не в начале и конце где ты дал реальные данные. Пример: ты сказал кто CEO и какая выручка — а дату основания и раунды финансирования модель достроила. Именно эти "серединные" факты нужно верифицировать отдельно.


🔗

Ресурсы

Название работы: Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs

Статус: Preprint, under review

Автор: Ashish Lathkar, M.S. Data Science, Florida State University / AI Engineer — ashish@hemut.com

Связанные работы: MuSiQue (Trivedi et al., 2022), IRCoT (Trivedi et al., 2023), Adaptive-RAG (Jeong et al., 2024), Self-RAG (Asai et al., 2024)


📋 Дайджест исследования

Ключевая суть

Один подтверждённый факт в промпте — и модель начинает уверенно ошибаться сильнее, чем вообще без контекста. Промпт эпистемической скромности (явное указание сколько фактов у тебя есть, а сколько нет) позволяет получать честный анализ при неполных данных — вместо связного, но частично выдуманного ответа. Фишка: пиши 'у тебя 3 из 8 фактов' — модель переключается с режима 'уверенно достраиваю' на режим 'честно обозначаю пробелы'. Самооценка [УВЕРЕННОСТЬ: X/5] в конце сразу показывает где реальная опора, а где угадывание.

Принцип работы

Стандартный сценарий: даёшь модели один реальный факт → он становится якорем → модель уверенно достраивает цепочку из памяти → получаешь связный, убедительный, частично выдуманный ответ. Ты этого не чувствуешь, потому что интонация у реального и придуманного одинаковая. Сценарий с явной картой знания: пишешь 'тебе предоставлено k из n фактов, выражай подлинную неуверенность в остальных' → модель знает где заканчивается реальное и начинается достройка → обозначает пробелы вместо того, чтобы их замазывать. Суть: ты не просишь быть осторожнее — ты рисуешь карту того, что есть и чего нет. Модели хорошо следуют явным инструкциям о том, как отвечать. Этим и пользуемся.

Почему работает

LLM — предсказательная машина. Она не ощущает границу между 'знаю из контекста' и 'достраиваю из памяти'. Один реальный факт включает режим 'тут реальный контекст' — и дальше модель воспроизводит весь паттерн с той же интонацией уверенности, даже когда пошла в галлюцинацию. Парадокс, который стоит запомнить: чем сильнее модель — тем увереннее она ошибается при частичных данных. Claude Opus конфабулирует увереннее, чем Claude Haiku. GPT-4 — увереннее, чем GPT-3.5. Более способные модели лучше 'достраивают' — и делают это с большей убедительностью, даже когда несут чушь. Перешёл на более умную модель ради качества? Поздравляю, уверенные выдумки при неполном контексте теперь вероятнее. Явная карта знания ломает этот режим — модели дана структура того, что известно, и ей не нужно угадывать где граница. Снижение уверенных ошибок на ~12 процентных пунктов.

Когда применять

Многошаговый анализ с заведомо неполными данными → оценка стартапов по питч-деку без данных о конкурентах, юридические заключения по части документов, технические ревью по неполной документации, медицинские разборы по частичной истории болезни — особенно когда важно понять не только что известно, но и что существенно отсутствует. НЕ подходит для одношаговых фактических вопросов — эффект якоря там не возникает, и промпт эпистемической скромности просто лишний.

Мини-рецепт

1. Посчитай что есть: Сколько реальных фактов/документов у тебя k и сколько примерно нужно для полного ответа n. Точность не нужна — 'около 10' работает.

2. Добавь карту знания в начало промпта: Тебе предоставлено {k} из примерно {n} значимых фактов по теме: {тема}. Конкретно у тебя есть: {перечисли что дал}. Выражай подлинную неуверенность в остальных — не достраивай их из допущений.

3. Попроси явно назвать пробелы: По каждому пропущенному аспекту — что именно неизвестно и почему важно проверить. Без этого модель может просто пропустить пробелы молча.

4. Добавь самооценку в конец: [УВЕРЕННОСТЬ: X/5] — с коротким объяснением на что опирался. Если цифры кажутся искусственными — замени на HIGH / MED / LOW. Эффект тот же.

Примеры

[ПЛОХО] : Проанализируй перспективы этого стартапа. Вот питч-дек: {текст}
[ХОРОШО] : Тебе предоставлено 3 из примерно 8 значимых факторов для оценки стартапа на ранней стадии: описание продукта, состав команды, юнит-экономика за 2024 год (стоимость привлечения клиента 1200 руб., пожизненная ценность клиента 4800 руб.). Выражай подлинную неуверенность по остальным пяти — конкурентная среда, масштабируемость, каналы привлечения, рыночный потенциал, экспертиза команды. Не достраивай их из допущений. По каждому пропущенному аспекту — что именно неизвестно и почему важно проверить перед решением. В конце: [УВЕРЕННОСТЬ: X/5] с объяснением на что опирался. {питч-дек}
Источник: Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs
ArXiv ID: 2604.25931 | Сгенерировано: 2026-04-30 05:31

Проблемы LLM

ПроблемаСутьКак обойти
Частичный контекст делает модель увереннее в ошибкеДаёшь один подтверждённый факт из длинной цепочки. Модель видит реальный контекст и переключается. Достраивает остальное из памяти — уверенно, связно, неверно. Чем меньше данных, тем осторожнее модель. Один факт — хуже, чем ноль фактов. Срабатывает на любых многошаговых задачах: анализ, исследование, оценкаЯвно скажи модели сколько фактов дал и сколько нужно для полного ответа. Тебе предоставлено {k} из {n} значимых фактов. Выражай подлинную неуверенность в остальных — не достраивай из допущений. Это рисует карту знания. Модель понимает где её данные заканчиваются

Методы

МетодСуть
Карта знания в запросе — явная разметка полноты данныхПеред задачей добавь фрейм: Тебе предоставлено {k} из примерно {n} значимых фактов. Конкретно у тебя есть: {перечисли}. Выражай подлинную неуверенность в остальных. После ответа добавь запрос: [УВЕРЕННОСТЬ: X/5] с коротким объяснением.

Почему работает. Модель не чувствует где заканчивается её знание. Она угадывает это по контексту. Явные числа k и n — это инструкция как отвечать, а не что отвечать. Модели хорошо следуют таким мета-инструкциям. Слово «подлинную» усиливает инструкцию сильнее чем «отметь что неизвестно».

Когда применять. Передаёшь неполный контекст: часть документов, выборочные данные, один источник из нескольких нужных. Задача требует нескольких шагов рассуждения.

Когда не нужен. Простые фактологические вопросы в 1–2 шага. Полный контекст уже передан

Тезисы

ТезисКомментарий
Один якорный факт включает режим уверенного достраиванияМодель не знает где заканчивается реальный контекст и начинается домысел. Когда ты даёшь ноль фактов — она отвечает осторожно. Когда даёшь один проверенный факт — он становится якорем. Модель думает: «тут есть реальная опора» — и достраивает остальное с той же интонацией. Ошибочно, но уверенно. Применяй: если передаёшь неполные данные — всегда называй сколько их. Иначе один факт опаснее нуля
📖 Простыми словами

Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination inLLMs

arXiv: 2604.25931

Нейросети лажают не тогда, когда ничего не знают, а когда знают ровно половину. Исследователи наткнулись на феномен якорной конфубуляции: если дать модели один реальный факт из длинной цепочки, она не станет точнее. Наоборот, она вцепится в эту крупицу правды как в якорь и с утроенной уверенностью начнет нести полную ахинею в остальной части ответа. Это фундаментальный косяк архитектуры: LLM — это предсказательная машина, которая не чувствует границы между своими знаниями и фантазиями.

Это работает как эффект «свидетеля-сказочника». Представь, что ты спрашиваешь дорогу, и человек точно знает название первой улицы. Он называет её уверенно, ты ему веришь, а дальше он на том же пафосе заводит тебя в болото, потому что ему неудобно признаться, что остальной маршрут он только что выдумал. В голове у модели наличие одного факта легитимизирует всю остальную ложь — она думает, что раз начало верное, то и конец должен быть таким же.

Механика процесса проста и опасна: частичный контекст работает хуже, чем его полное отсутствие. Когда данных нет совсем, модель еще может выдать осторожный ответ. Но стоит подкинуть ей, например, реальную юнит-экономику стартапа, как она тут же «достроит» данные о конкурентах и рынке из головы, причем сделает это с интонацией эксперта. Этот немонотонный рост галлюцинаций означает, что чем больше вы уточняете детали, тем выше шанс получить убедительную дезинформацию вместо признания «я не знаю».

Применять это знание нужно везде, где вы используете AI для анализа: от проверки контрагентов до написания кода. Если у тебя есть питч-дек компании, но нет данных по рынку, Claude или GPT не просто заполнят пробелы — они сделают это так уверенно, что ты примешь их фантазии за инсайд. Принцип универсален: проверка фактов должна идти не по верхам, а по каждому звену, потому что одно истинное утверждение в начале промпта становится лицензией на вранье для всего остального текста.

Короче: частичная информация — это ловушка, которая отключает у модели фильтр адекватности. Не ведись на уверенный тон, если сам дал нейронке «зацепку». 1 подтвержденный факт может спровоцировать 10 уверенных галлюцинаций. Либо давай модели полный контекст через RAG, либо готовься к тому, что она будет врать тебе в лицо, опираясь на твой же собственный «якорь». Кто не проверяет хвост ответа после верной головы — тот гарантированно получит красиво упакованную фигню.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с