TL;DR
Частичный контекст опаснее полного отсутствия контекста. Когда вы даёте модели один подтверждённый факт из многошаговой цепочки рассуждений — она становится увереннее в ошибочных ответах, а не осторожнее. Это не баг, который исправят в следующей версии. Это обнаруженное свойство калибровки: модель «цепляется» за якорный факт и с повышенной уверенностью достраивает остальное из памяти — неверно, но убедительно.
Главная контринтуитивная находка: чем сильнее модель — тем более уверенно она галлюцинирует при частичных данных. Claude Opus конфабулирует увереннее, чем Claude Haiku. GPT-4 — увереннее, чем GPT-3.5. Проблема не в слабости модели. Более способные модели лучше «достраивают» недостающее — и делают это с большей уверенностью, даже когда ошибаются.
Из этого вытекают два прямых инструмента. M1 — промпт эпистемической скромности: явно скажи модели, сколько фактов у неё есть и сколько не хватает — это снижает уверенную ошибку на ~12 процентных пунктов. M2 — явная самооценка уверенности: попроси модель поставить себе оценку [УВЕРЕННОСТЬ: X/5] — это честнее отражает, на что модель «опирается», а что достраивает из памяти.
Схема метода
Два независимых инструмента, применяются в одном промпте:
M1 — Промпт эпистемической скромности:
ПЕРЕД задачей → добавить фрейм:
"Тебе предоставлен {k} из {n} фактов.
Выражай подлинную неуверенность в остальном"
→ модель перестаёт уверенно достраивать недостающее
M2 — Явная самооценка:
ПОСЛЕ ответа → добавить запрос:
"[УВЕРЕННОСТЬ: X/5]"
→ модель явно маркирует степень своей уверенности
→ можно сразу видеть где она опирается на факты, а где угадывает
Оба шага работают в одном промпте, без дополнительных запросов.
Пример применения
Задача: Ты изучаешь потенциального партнёра — небольшой EdTech-стартап из Новосибирска. У тебя есть его питч-дек (описание продукта, команда, юнит-экономика за прошлый год). Нет данных о конкурентах и рыночной динамике. Просишь Claude проанализировать перспективы.
Промпт:
Тебе предоставлены данные из питч-дека EdTech-стартапа: описание продукта
(онлайн-подготовка к ЕГЭ), состав команды (3 человека), юнит-экономика за 2024 год
(CAC = 1200 руб., LTV = 4800 руб.). Это 3 из примерно 8 значимых факторов для оценки
стартапа на стадии pre-seed.
Выражай подлинную неуверенность в остальных пяти факторах — конкурентной среде,
масштабируемости, каналах привлечения, рыночном потенциале и экспертизе команды.
Не достраивай их из допущений.
Проанализируй сильные стороны по имеющимся данным. Для каждого пропущенного
фактора — скажи, что именно неизвестно и почему это важно проверить.
В конце поставь: [УВЕРЕННОСТЬ В АНАЛИЗЕ: X/5] с коротким объяснением.
Дополнительные данные: {вставь текст питч-дека}
Результат: Модель разделит анализ на два блока: "что могу сказать уверенно" (юнит-экономика выглядит здраво, LTV/CAC = 4x — хороший сигнал) и "чего не хватает для выводов" (кто ещё работает в этой нише, как стартап привлекает учеников, насколько команда знает рынок). В конце — честная самооценка, например [УВЕРЕННОСТЬ: 2/5], с пояснением почему. Без M1 модель, скорее всего, выдала бы связный анализ с выводами — уверенный, но частично выдуманный.
Почему это работает
Слабость LLM — предсказательная машина без ощущения границ знания. Модель не знает, где заканчивается её реальная информация и начинается достройка. Когда ты даёшь ей один конкретный факт — он становится «якорем». Модель видит: "о, тут реальный контекст" — и переключается в режим уверенного завершения цепочки. Остальные звенья она достраивает из обучающих данных с той же интонацией, что и проверенный факт.
Сильная сторона LLM — следование явным мета-инструкциям. Модели хорошо выполняют инструкции о том, как отвечать, не только что отвечать. Фраза "у тебя 3 из 8 фактов, будь неуверен в остальных" — это не просьба, это явная карта знания. Модель не должна угадывать, где границы — ты их нарисовал. Это сдвигает поведение с "уверенно достраиваю" на "честно обозначаю пробелы".
Рычаги управления: - Число k и n можно варьировать — чем больше разрыв, тем сильнее модель сдерживает уверенность - Фраза "выражай подлинную неуверенность" работает лучше, чем "отметь что неизвестно" — слово "подлинную" усиливает инструкцию - [УВЕРЕННОСТЬ: X/5] в конце промпта — простой сигнал самоконтроля; можно заменить на [УВЕРЕННОСТЬ: HIGH/MED/LOW] если числа кажутся искусственными
Шаблон промпта
Тебе предоставлено {k} из примерно {n} значимых фактов по теме: {тема}.
Конкретно у тебя есть: {перечисли что дал}.
Выражай подлинную неуверенность в остальных фактах — не достраивай их
из допущений. По каждому пропущенному аспекту скажи, что именно неизвестно
и почему это важно.
{основной вопрос или задача}
В конце: [УВЕРЕННОСТЬ: X/5] — с коротким объяснением на что опирался.
Что подставлять:
- {k} — сколько фактов/документов/данных ты предоставил
- {n} — примерно сколько нужно для полного ответа (можно округлённо: "5 из ~10")
- {тема} — о чём анализ
- {перечисли что дал} — конкретно что отдал модели (документ, факты, данные)
- {основной вопрос} — что конкретно спрашиваешь
🚀 Быстрый старт — вставь в чат:
Вот шаблон промпта эпистемической скромности для работы с частичными данными.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, сколько у тебя фактов и что конкретно передаёшь — потому что ей нужно знать k и n, чтобы корректно откалибровать промпт под твою ситуацию.
Ограничения
⚠️ Простые задачи не нужно трогать: Эффект срабатывает только для многошаговых рассуждений, где модели нужно "соединить точки". На прямые фактологические вопросы (1-2 шага) эффект не проявляется — там промпт эпистемической скромности просто лишний.
⚠️ Метод испытан с GPT-4o: Базовый эффект показан на Claude Sonnet — а митигация (M1/M2) проверена на GPT-4o. Насколько сильно M1 работает именно на Claude Sonnet — пока не протестировано. Авторы сами называют это ограничением.
⚠️ Не спасает от полного незнания: Если у модели нет нужных данных в обучении вообще — якоря нет, конфабуляции этого типа нет. Эффект специфичен для случаев, когда модель "знает" тему и достраивает её.
⚠️ Более умные модели — больше риск: Если переключился с GPT-4o-mini на GPT-4o ради качества — уверенные галлюцинации при частичных данных становятся вероятнее, а не реже. Это нужно учитывать при передаче неполного контекста сильным моделям.
Как исследовали
Идея была провокационной: исследователи взяли многошаговые вопросы (требующие 3 промежуточных факта для ответа), добавляли в промпт ноль, один, два или все три подтверждённых факта и замеряли — когда модель ошибается И при этом звучит уверенно. Результат оказался нелинейным: с нулём фактов — уверенная ошибка в 61% случаев, с одним фактом — скачок до 66%, с двумя — снижение до 60%, с тремя — до 54%. Это прямое доказательство: один якорь делает хуже, а не лучше.
Удивительная находка по масштабируемости: Claude Haiku (меньшая модель) конфабулирует с результатом 0.58, Sonnet — 0.70, Opus (самая мощная) — 0.73. Ранговая корреляция между мощностью модели и уверенной галлюцинацией — 0.90. Это почти идеальная линейная зависимость. Исследователи это объясняют так: сильные модели лучше строят связные цепочки — и делают это даже когда исходных данных не хватает. Fluency ≠ accuracy.
Дополнительно проверили, что эффект требует одновременно двух условий: реального контекста в промпте И частичного якоря. Без контекста один факт наоборот снижает уверенную ошибку. Это значит, что в обычном разговоре без документов якорная конфабуляция менее опасна — но при работе с реальными материалами она активна.
Оригинал из исследования
M1 — Epistemic Humility Prompt (оригинал):
"You have been given k of n facts; express genuine uncertainty about the rest"
M2 — Explicit Confidence Elicitation (оригинал):
"Rate your confidence [CONFIDENCE: X/5]"
Контекст: Авторы встраивали эти инструкции в промпты для задач MuSiQue 3-hop (160 вопросов с зафиксированными правильными ответами). M1 снизил уверенную ошибку с 0.656 до 0.538 (ΔΡ = −0.118). M2 показал, что явная самооценка (PHC = 0.684) честнее отражает параметрическое закрепление, чем стилистические сигналы в тексте (0.564).
Адаптации и экстраполяции
💡 Адаптация: "карта уверенности" до ответа
Вместо одного числа в конце — попроси модель разметить уверенность внутри ответа по каждому утверждению:
По каждому тезису в своём ответе добавляй [✓] если это из предоставленных данных,
[~] если это обоснованное предположение, [?] если это достройка из общих знаний.
Это превращает M2 из итоговой оценки в пошаговый аудит — сразу видно, какие части ответа надёжны.
🔧 Техника: обратная проверка — "что тебе не хватает?"
После любого анализа с частичными данными добавь в конец:
Перечисли 3-5 конкретных фактов, которые изменили бы твой вывод, если бы ты их знал.
Если модель не может назвать таких фактов — она, скорее всего, уже заполнила пробелы галлюцинацией и "не видит" что именно отсутствует.
💡 Применение принципа к проверке AI-ответов
Когда получаешь развёрнутый ответ по теме, где ты сам дал частичный контекст — не доверяй цифрам, именам и датам в "связующих" частях. Якорная конфабуляция чаще всего живёт в середине цепочки рассуждений, не в начале и конце где ты дал реальные данные. Пример: ты сказал кто CEO и какая выручка — а дату основания и раунды финансирования модель достроила. Именно эти "серединные" факты нужно верифицировать отдельно.
Ресурсы
Название работы: Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs
Статус: Preprint, under review
Автор: Ashish Lathkar, M.S. Data Science, Florida State University / AI Engineer — ashish@hemut.com
Связанные работы: MuSiQue (Trivedi et al., 2022), IRCoT (Trivedi et al., 2023), Adaptive-RAG (Jeong et al., 2024), Self-RAG (Asai et al., 2024)
