TL;DR
Когда просишь LLM объяснить решение, объяснение реально раскрывает критерии, по которым модель принимает решения. Исследователи проверили это через контрфактуальные пары — почти одинаковые примеры, различающиеся одной деталью. Если модель дает разные ответы, честное объяснение должно упоминать эту деталь. Например: два профиля пациентов отличаются только возрастом, модель дает разные диагнозы — объяснение должно упомянуть возраст как фактор.
Оказалось, самообъяснения LLM улучшают предсказание поведения модели на 11-37%. Если прочитал объяснение модели на одном примере, ты лучше предскажешь её ответ на похожем. Это значит объяснения содержат реальную информацию о логике модели. Но 5-15% объяснений вводят в заблуждение — модель может рационализировать решение постфактум, не раскрывая истинную причину.
Самообъяснения точнее внешних — даже если попросить более сильную модель объяснить решение слабой, самообъяснение слабой модели окажется более предсказательным. Модель знает о своей логике больше, чем внешний наблюдатель.
Схема метода
ШАГ 1: Создай контрфактуальную пару
→ Два примера, отличающиеся одним фактором
ШАГ 2: Получи решения модели
→ Ответ на каждый пример
ШАГ 3: Запроси объяснения
→ Почему модель приняла каждое решение
ШАГ 4: Проверь упоминание различающего фактора
→ Честное объяснение назовет ключевое различие
Все шаги можно выполнить в одном чате вручную.
Пример применения
Задача: Понять по каким критериям Claude оценивает бизнес-идеи для раннего инвестирования.
Промпт:
Оцени две идеи для раннего инвестирования по 10-балльной шкале:
ИДЕЯ А:
Сервис доставки готовой еды для офисов в Москве.
Основатель — бывший менеджер Яндекс.Еды, 28 лет.
Запрашивает 5 млн рублей на запуск.
ИДЕЯ Б:
Сервис доставки готовой еды для офисов в Москве.
Основатель — бывший менеджер Яндекс.Еды, 42 года.
Запрашивает 5 млн рублей на запуск.
Дай оценку каждой идее, затем объясни детально почему поставил именно такую оценку.
Результат:
Модель выдаст две оценки (например, 7/10 и 8/10) и два объяснения. Если в объяснениях упоминается возраст как фактор — это честное объяснение критериев. Если объяснения игнорируют единственное различие и говорят об общих факторах — объяснение вероятно рационализация.
Теперь ты понимаешь как модель взвешивает опыт vs молодость основателя. Можешь предсказать оценку для 35-летнего основателя или проверить другой фактор (сумма инвестиций, город).
Почему это работает
LLM не имеет прямого доступа к своим "внутренним весам", но в процессе генерации текста она активирует паттерны, которые привели к решению. Когда модель объясняет — она реконструирует логику по следам этой активации.
Контрфактуальное тестирование (пары примеров с одним различием) — хирургический инструмент для выявления критериев. Если модель переключает ответ между парой — значит различающий фактор критичен. Честное объяснение назовет его явно.
Самообъяснения точнее внешних потому что модель "чувствует" какие паттерны активировались при генерации. Внешняя модель видит только финальный ответ и реконструирует логику по косвенным признакам — как психолог анализирует чужое поведение vs самонаблюдение.
Рычаги управления: - Размер различия — меняй один фактор (возраст) или несколько; одно различие = четче сигнал - Домен факторов — тестируй численные (возраст, цена), категориальные (город, пол), текстовые (формулировка) - Число пар — одна пара = гипотеза, 3-5 пар = паттерн - Формат объяснения — явно попроси "назови какой фактор повлиял на разницу в оценках"
Шаблон промпта
Оцени/Проанализируй два варианта:
ВАРИАНТ А:
{описание_с_фактором_X}
ВАРИАНТ Б:
{описание_с_фактором_Y}
Дай ответ для каждого варианта, затем объясни:
1. Почему ты принял такое решение в каждом случае?
2. Какой фактор повлиял на разницу между вариантами (если она есть)?
Что подставлять:
- {описание} — два максимально похожих описания, различающихся только тестируемым фактором
- фактор_X/Y — конкретные значения: возраст 28/42, город Москва/Казань, опыт 2 года/10 лет
Важно: Варианты должны быть идентичны кроме одного фактора. Тогда различие в ответах укажет на вес этого фактора в логике модели.
Ограничения
⚠️ 5-15% объяснений вводят в заблуждение: Модель может рационализировать решение постфактум, создавая правдоподобное но ложное объяснение. Проверяй на нескольких парах примеров.
⚠️ Работает только для решений, где есть варианты: Если задача имеет объективно правильный ответ (математика, факты), объяснения покажут методику решения, не критерии выбора.
⚠️ Не заменяет проверку результата: Объяснение может быть честным, но критерии модели могут быть некорректными. "Я отклонил идею потому что основателю 42" — честное объяснение эйджистского критерия.
Как исследовали
Команда из Oxford и Berkeley взяла 7000 контрфактуальных пар из популярных датасетов (медицина, бизнес, этика) и протестировала 18 современных моделей — Gemini 3, GPT-5.2, Claude 4.5 и другие.
Логика эксперимента элегантная: дай модели пару одинаковых кейсов с одним различием. Получи ответы и объяснения. Теперь дай второй модели (предиктору) только объяснение первой и попроси угадать ответ на втором примере из пары.
Если объяснение честное — предиктор должен угадать точнее, чем без объяснения. Это и есть Normalized Simulatability Gain (NSG) — насколько объяснение помогает симулировать поведение модели.
Удивительный результат: самообъяснения оказались точнее объяснений от более сильных моделей. То есть если попросить GPT-5.2 объяснить решение Gemma 3 4B, самообъяснение Gemma будет более предсказательным. Это говорит о преимуществе самопознания — модель знает о своей логике больше, чем внешний наблюдатель может вывести из поведения.
Но картина не идеальна: 5-15% объяснений были грубо обманчивыми — предиктор с объяснением ошибался чаще, чем без него. Модели иногда создают убедительные рационализации вместо честных объяснений.
Практический инсайт: самообъяснения LLM — ценный но несовершенный инструмент. Как показания свидетеля: часто правдивы, но требуют перекрестной проверки.
Адаптации и экстраполяции
🔧 Техника: Множественные контрфактуалы → карта критериев
Вместо одной пары, создай матрицу вариантов с разными факторами:
Оцени 4 бизнес-идеи по 10-балльной шкале:
А: Доставка еды | Москва | Основатель 28 лет | 5 млн руб
Б: Доставка еды | Москва | Основатель 28 лет | 15 млн руб
В: Доставка еды | Казань | Основатель 28 лет | 5 млн руб
Г: Доставка еды | Москва | Основатель 42 года | 5 млн руб
Оцени каждую, затем объясни:
- Как сумма инвестиций влияет на оценку? (А vs Б)
- Как город влияет на оценку? (А vs В)
- Как возраст основателя влияет на оценку? (А vs Г)
Получаешь декомпозицию критериев — видишь вес каждого фактора отдельно.
🔧 Техника: Предсказание + проверка → калибровка доверия
ШАГ 1 (в новом чате):
Вот объяснение модели почему она одобрила заявку А и отклонила Б:
[вставить объяснение]
Как ты думаешь, она одобрит или отклонит заявку В: {описание}?
ШАГ 2 (в исходном чате):
[попросить модель оценить заявку В]
ШАГ 3: Сравни предсказание с реальностью
→ Если совпало — объяснение было честным
→ Если нет — объяснение рационализация
Повтори на 3-5 примерах. Увидишь процент надежности объяснений конкретной модели на твоих задачах.
🔧 Техника: Обратный контрфактуал → проверка последовательности
Ты оценил идею А на 7/10, а идею Б на 4/10.
Объяснил что причина — возраст основателя.
Теперь задача: я изменю ТОЛЬКО возраст в идее Б с 42 на 28 лет.
Всё остальное идентично.
Какой будет новая оценка идеи Б?
Если модель не поднимет оценку до ~7/10 — её объяснение было неполным или ложным. Если поднимет — объяснение последовательное.
Ресурсы
A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior
Harry Mayne, Justin Singh Kang, Dewi Gould, Kannan Ramchandran, Adam Mahdi, Noah Y. Siegel
University of Oxford, UC Berkeley, Google DeepMind, UCL
Код на GitHub
