TL;DR
Галлюцинации — не случайный шум, а предсказуемый паттерн. Точность фактических ответов модели определяется двумя параметрами: насколько часто тема встречается в обучающих данных и насколько велика модель. Чем нишевее тема и чем меньше модель — тем выше шанс получить уверенно выдуманный факт. Причём зависимость нелинейная: есть «пол» (крошечные модели просто штампуют шаблоны без реального знания) и «потолок» (крупные модели на популярных темах почти не ошибаются).
Главная боль: пользователи обычно не знают, в какой «зоне риска» находится их вопрос. Просишь список источников по нейросетям — получаешь реальные статьи. Просишь список источников по биометрической регистрации избирателей в Буркина-Фасо — получаешь убедительные фейки с правдоподобными именами авторов и журналами. Модель не говорит тебе «я не знаю». Она генерирует с одинаковой уверенностью в обоих случаях.
Инсайт работает так: когда модель «запоминает» знания, популярные темы кодируются сильным сигналом, редкие — слабым. Большая модель имеет «тише» общий шум, поэтому слабые сигналы всё равно пробиваются. Маленькая модель — шумная, нишевые знания тонут. Увеличение модели снижает шум равномерно, а рост популярности темы поднимает сигнал. Когда сигнал << шума — модель начинает галлюцинировать: не «не знает», а заполняет пробел правдоподобным текстом.
Схема метода
Это не техника с шагами, а диагностическая модель риска. Используй её как «предполётную проверку» перед любым запросом с фактическими утверждениями:
ШАГ 0 (в голове): Оцени два параметра
→ Насколько популярна тема? (много статей / мало / почти нет)
→ Какую модель используешь? (большая / средняя / маленькая)
ШАГ 1: Определи зону риска
Популярная тема + большая модель → ЗЕЛЁНАЯ (доверяй, проверяй выборочно)
Нишевая тема + любая модель → КРАСНАЯ (верифицируй всё)
Средняя тема + маленькая модель → ЖЁЛТАЯ (проверяй ключевые факты)
ШАГ 2: Выбери стратегию запроса
ЗЕЛЁНАЯ → обычный запрос
ЖЁЛТАЯ → попроси модель оценить уверенность по каждому пункту
КРАСНАЯ → не проси источники / используй веб-поиск / формулируй как принципы
Шаги выполняются в голове (0–1) и в промпте (2).
Пример применения
Задача: Артём — предприниматель, пишет инвестиционный питч для фонда. Хочет добавить научные ссылки на исследования о «влиянии корпоративной культуры на эффективность стартапов в B2B SaaS».
Промпт:
Прежде чем давать ответ — оцени по шкале 1-10, насколько хорошо
эта тема покрыта в научной литературе:
Тема: влияние корпоративной культуры на показатели роста B2B SaaS стартапов.
1 = нишевая тема, мало исследований
10 = популярная тема, тысячи публикаций
Если оценка ниже 5 — не давай конкретные ссылки.
Вместо этого:
— опиши что известно на уровне принципов
— скажи какие ТИПЫ исследований существуют (не название конкретных)
— предложи как найти реальные источники (Google Scholar, запросы)
Если оценка 5 и выше — давай ссылки, но для каждой добавь
кратко: почему ты уверен, что она существует.
Результат: Модель сначала честно оценит насколько тема нишевая или популярная. Если тема «корпоративная культура» в целом — оценка будет высокой, и ты получишь реальные ссылки. Если тема слишком специфична (B2B SaaS + стартапы + конкретный регион) — модель скажет об этом и переключится на безопасный режим: принципы вместо выдуманных источников. Ты экономишь время на верификацию.
Почему это работает
LLM не «знает» — она «запоминает с разной плотностью». Модель не хранит факты как база данных — она кодирует знания в веса через повторение в обучающих текстах. Популярная тема встречалась тысячи раз → сигнал сильный, воспроизводится точно. Нишевая тема встречалась 10 раз → слабый сигнал перебивается «шумом» от других знаний. Когда сигнала не хватает, модель не молчит. Она генерирует правдоподобную конструкцию — потому что следующий токен всегда должен быть вероятным.
Модель не знает, что галлюцинирует. Нет внутреннего сигнала «я придумываю». Уровень уверенности в выдуманном ответе часто неотличим от уверенности в реальном. Поэтому просить модель «только если ты уверен» не работает само по себе — нужно помочь ей оценить тип задачи, а не конкретный ответ.
Метаоценка решает это косвенно. Когда ты просишь модель оценить «насколько популярна тема», ты заставляешь её активировать знания о категории задачи, а не сразу генерировать факты. Это создаёт паузу, в которой модель может зафиксировать «эта область слабо покрыта» — и переключиться в режим честного незнания.
Рычаги управления этим паттерном: - Замени «дай ссылки» на «оцени тему → потом реши формат» → снижает риск галлюцинаций в нишевых зонах - Добавь «объясни почему ты уверен по каждому пункту» → модель начинает дифференцировать сильные и слабые знания - Используй крупную модель для нишевых тем → меньше шума, слабые сигналы пробиваются (но не даёт 100% гарантии) - Переформулируй нишевый запрос через принципы → «что известно о механизмах X» вместо «дай 10 источников об X»
Шаблон промпта
Прежде чем отвечать — оцени по шкале 1-10, насколько хорошо
тема {тема} покрыта в научной и публичной литературе.
1 = нишевая, мало источников
10 = популярная, тысячи публикаций
Логика дальше:
Если оценка ≥ 7:
— отвечай в обычном формате
— для фактических утверждений кратко укажи источник уверенности
Если оценка 4–6:
— давай информацию, но помечай неуверенные места фразой "(требует проверки)"
— конкретные ссылки давай только на очень известные работы
Если оценка ≤ 3:
— не давай конкретные ссылки и имена
— опиши что известно на уровне принципов
— предложи как найти реальные источники
Мой вопрос: {запрос}
Плейсхолдеры:
- {тема} — область знаний, о которой спрашиваешь
- {запрос} — сам вопрос
🚀 Быстрый старт — вставь в чат:
Вот шаблон для снижения галлюцинаций. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про тему запроса и нужный формат ответа — потому что без этого она не знает какой порог «нишевости» критичен именно для твоей задачи.
Ограничения
⚠️ Самооценка нечёткая: Когда модель оценивает «популярность темы», она делает это приближённо. Узкоспециализированные подтемы внутри популярных областей могут получить завышенную оценку — потому что общая область известна.
⚠️ Не работает для очень маленьких моделей: Маленькие модели (условно — слабые версии) находятся в «половой» зоне: они генерируют шаблонные структуры независимо от темы. Метаоценка не поможет — у них нет достаточной базы знаний, чтобы честно оценить нишевость.
⚠️ Не решает проблему, а помогает её обойти: Галлюцинации на нишевых темах остаются. Метод снижает вероятность незамеченных выдумок, но не устраняет их. Для критически важных фактов — верифицируй вручную.
⚠️ Тип содержания сильнее размера модели в ~40% случаев: Две модели одного размера, но разного обучения могут отличаться по точности на 20+ процентных пунктов. Размер — главный фактор, но не единственный.
Как исследовали
Идея была простой: можно ли предсказать, когда модель будет галлюцинировать? Исследователи выбрали проверяемый тип фактов — научные ссылки. Модель либо называет реально существующую статью, либо нет — это можно проверить автоматически.
Они взяли 38 моделей (от крошечных 1B до гигантских 405B параметров) и попросили каждую назвать 10 научных источников по каждой из 24 тем. Темы намеренно выбраны с разным «размером» в мире науки: от «нейронных сетей» (миллионы статей) до «биометрической регистрации избирателей в конкретных регионах» (буквально десятки). Каждую из 8913 ссылок прогнали через автоматическую систему верификации по OpenAlex, Google Scholar и DOI-регистрам — с ручной проверкой 288 ссылок (четыре человека, 94,4% совпадение с автоматикой).
Любопытный результат: две переменные — логарифм размера модели и логарифм количества научных работ по теме — вместе объясняют 60% разброса в точности. Внутри одного семейства моделей этот показатель вырастает до 74–94%. Это много для такой простой формулы. Оставшиеся 40% — это «личность» конкретной модели: одни 8B-модели в два раза точнее других 8B при той же теме. Кроме того, исследователи проверили тезис с другой стороны: большие модели вспоминают менее цитируемые статьи. Это логично — когда «шум» снижается, слабые сигналы (малоизвестные, но реальные работы) начинают пробиваться.
Адаптации и экстраполяции
💡 Адаптация: Быстрая «карта галлюцинаций» перед большим проектом
Перед тем как начать работу с LLM над исследовательским проектом, попроси её создать карту рисков:
Я буду задавать вопросы по теме: {твоя тема}.
Разбей эту область на подтемы и для каждой укажи:
— насколько хорошо она покрыта в публичной литературе (1-10)
— какому типу вопросов доверять (принципы, механизмы, примеры)
— какому типу НЕ доверять без проверки (конкретные цифры, ссылки, имена)
Используй это как предупреждения для нашей последующей работы.
В итоге получишь «карту надёжности» по теме ещё до начала работы — буквально список предупреждений о зонах риска.
🔧 Техника: Дифференцируй запрос по типу знания
Вместо «расскажи об X» — явно разделяй типы информации:
По теме {X} расскажи:
ПРИНЦИПЫ (высокая уверенность):
— фундаментальные механизмы и логика
ТИПИЧНЫЕ ПАТТЕРНЫ (средняя уверенность):
— что обычно наблюдается, без конкретных цифр
КОНКРЕТНЫЕ ФАКТЫ (требуют проверки):
— цифры, имена, даты, источники — помечай каждый как "(verifiable)"
Это не магия — это просто помогает модели сортировать уверенность по типам, а не выдавать всё одним уверенным потоком.
Ресурсы
Название: Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency
Авторы: Matthew L. Smith (International Development Research Centre, Канада), Jonathan P. Shock (University of Cape Town, ЮАР), Samuel T. Segun (Global Center on AI Governance, Канада), Iyiola E. Olatunji, Tegawendé F. Bissyandé (SnT, University of Luxembourg / CITADEL AI Centre, Буркина-Фасо)
Контакты: msmith@idrc.ca, hello@samuelsegun.com, tegawende.bissyande@uni.lu
Связанные работы, упомянутые в исследовании: - Kaplan et al. — базовые законы масштабирования LLM - Kandpal et al. — LLM плохо учатся на редких («длиннохвостых») знаниях - Elhage et al. — суперпозиция: модели кодируют больше признаков, чем у них есть измерений - SourceVerify — инструмент автоматической верификации научных ссылок
