TL;DR
LLM создаёт иллюзию компетентности: отвечает уверенно на общие вопросы, а на уточняющие — начинает ошибаться или галлюцинировать. DepthCharge — техника адаптивного бурения, которая обнажает эту иллюзию: задаёт вопросы глубже и глубже, опираясь именно на те концепции, которые модель сама же и назвала.
Главная находка: глубина знаний у LLM сильно зависит от домена и модели. Одна модель может превосходить другую в медицине, но проиграть в праве. Дорогая модель ≠ более глубокая. И ни один стандартный тест не покажет этого — потому что все тесты проверяют ширину, а не глубину.
Метод работает в пять уровней глубины: общие знания → учебник → профессиональный уровень → экспертный → передний край науки. На каждом уровне вопросы строятся из того, что сказала сама модель — не по скрипту. Как опытный преподаватель, который слушает студента и бьёт именно туда, где тот сделал паузу.
Схема метода
ШАГ 1: Задай начальный вопрос по теме
→ модель отвечает, называет концепции
ШАГ 2: Выдели 2-3 конкретных термина/механизма из ответа
→ это следующие точки бурения
ШАГ 3: Задай углублённый вопрос по каждой концепции
→ ищи признаки неуверенности, обобщений, ошибок
ШАГ 4: Повтори — снова бери концепции из нового ответа
→ бури дальше вглубь
ШАГ 5: Остановись, когда ответы стали размытыми или противоречивыми
→ ты нашёл границу реального знания модели
Все шаги — в обычном диалоге в чате, без кода. Можно делать вручную или попросить LLM вести бурение самостоятельно.
Пример применения
Задача: Ты работаешь с юристом или сам разбираешь договор. Хочешь понять, насколько глубоко Claude знает закон о защите персональных данных (152-ФЗ) — прежде чем доверять его ответам.
Промпт:
Давай проверим, насколько глубоко ты знаешь 152-ФЗ (закон о персональных данных в России).
Вот правила нашего диалога:
1. Я задаю первый вопрос — ты отвечаешь развёрнуто, называя конкретные понятия, механизмы, требования.
2. После каждого ответа ты сам выделяешь 2-3 концепции, которые упомянул. Пиши их в конце ответа вот так:
🔍 Концепции для углубления: [концепция 1], [концепция 2], [концепция 3]
3. Я выбираю одну из них — и ты отвечаешь глубже.
4. Продолжаем, пока я не скажу "стоп".
Первый вопрос: Что такое оператор персональных данных и какие у него основные обязанности?
Результат:
Модель начнёт с общего определения и общих обязанностей — это COMMON-уровень. В конце выделит концепции: например, «согласие субъекта», «трансграничная передача», «уведомление Роскомнадзора». Ты выбираешь одну — и начинается бурение вглубь. На 3-4 уровне обычно появляются первые признаки размытости: общие формулировки, уклончивость, противоречия между ответами. Это и есть граница реальной глубины знания модели по этой теме.
Почему это работает
LLM обучена предсказывать следующий токен. Для этого достаточно уловить паттерн из тысяч похожих текстов. Общий вопрос → задача лёгкая: паттернов много, ответ статистически стабильный.
Узкоспециальный вопрос — другое дело. Паттернов мало. Модель либо точно встречала нужный текст в обучении — либо начинает генерировать правдоподобное, не обязательно верное. При этом уверенность в голосе не меняется. Именно поэтому поверхностный ответ звучит убедительно, а ошибки на глубоком уровне — незаметны.
Адаптивное бурение ломает иллюзию: каждый следующий вопрос строится на предыдущем ответе. Модель не может "переключиться" — она вынуждена развивать именно то, что сказала. Если знание поверхностное, это проявится уже на 3-4 уровне.
Рычаги управления:
| Что менять | Эффект |
|---|---|
| Количество концепций для бурения (2 или 4) | Шире/уже охват на каждом уровне |
| Уровень, с которого начинаешь | Пропусти COMMON, если нужен сразу PROFESSIONAL |
| Просить или не просить источники | Без источников — скорость, с источниками — проверяемость |
| Два параллельных диалога с разными моделями | Сравнение глубины знания на одной теме |
Шаблон промпта
Давай проверим глубину твоих знаний о {тема}.
Правила диалога:
1. Отвечай развёрнуто — называй конкретные понятия, механизмы, детали.
2. В конце каждого ответа выдели:
🔍 Концепции для углубления: [концепция 1], [концепция 2], [концепция 3]
3. Я выбираю концепцию — ты отвечаешь глубже, на уровне {уровень_знания}.
4. При каждом переходе вглубь — явно скажи, если тема становится спорной,
малоизученной или ты не уверен.
Уровни глубины, через которые пойдём:
— Общий уровень (что знает любой образованный человек)
— Учебник (детали, механизмы, исторический контекст)
— Профессиональный (стандарты, регуляции, практика)
— Экспертный (исследования, тонкости, edge cases)
Первый вопрос: {начальный_вопрос}
Что подставлять:
- {тема} — область знания: «трудовое право», «диабет 2 типа», «SEO», «уголовный кодекс»
- {уровень_знания} — насколько глубоко тебе важно: «практикующего специалиста» или «студента-старшекурсника»
- {начальный_вопрос} — широкий стартовый вопрос по теме
🚀 Быстрый старт — вставь в чат:
Вот шаблон для адаптивного бурения знаний.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить нужные поля.
[вставить шаблон выше]
LLM спросит тему и начальный вопрос — потому что без них она не знает, с какой точки начинать бурение и в каком направлении двигаться. Она возьмёт структуру уровней и систему выделения концепций, адаптирует под твою область.
Ограничения
⚠️ Субъективные и творческие области: Метод работает только там, где у вопросов есть верный/неверный ответ. Для оценки идей, текстов, стратегий — не применимо.
⚠️ Самооценка не означает точность: Когда модель сама ведёт бурение, она не всегда знает, где сделала ошибку. Для действительно критичных решений (медицина, юридические документы) — параллельно проверяй ответы в первичных источниках.
⚠️ Глубина ≠ актуальность: Модель может хорошо отвечать на экспертном уровне по знаниям 2022 года — и ошибаться по событиям последнего года. Бурение не заменяет проверку свежести данных.
⚠️ Модели разные по доменам: Исследование показало — одна модель побеждает другую в медицине, но проигрывает в праве. Не переноси вывод "эта модель глубже" с одной темы на другую.
Ресурсы
Работа: DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models
Автор: Alexander Sheppert — Legacy Health, Capitol Technology University (asheppert@captechu.edu)
Связанные концепции из работы: Bloom's Taxonomy применительно к LLM (Liu et al., COLING 2025), BloomWise prompting, адаптивное тестирование на основе IRT, LiveBench, MMLU
