arXiv:2603.23514 73 5 мар. 2026 г. FREE

DepthCharge: как проверить, насколько глубоко LLM понимает тему

КЛЮЧЕВАЯ СУТЬ

Модель отвечает уверенно — но уверенность одинаковая что на первом уровне, что на пятом. Даже когда знание давно закончилось. Техника адаптивного бурения позволяет найти точную границу: где заканчивается настоящая компетентность и начинается убедительная имитация. Фишка: каждый следующий вопрос берётся из концепций, которые модель сама же назвала — уйти в сторону невозможно. К третьему-четвёртому уровню появляются размытые формулировки, противоречия, уклончивость — это и есть граница реального знания, которую обычный вопрос никогда не покажет.

Адаптировать под запрос

⚡

TL;DR

LLM создаёт иллюзию компетентности: отвечает уверенно на общие вопросы, а на уточняющие — начинает ошибаться или галлюцинировать. DepthCharge — техника адаптивного бурения, которая обнажает эту иллюзию: задаёт вопросы глубже и глубже, опираясь именно на те концепции, которые модель сама же и назвала.

Главная находка: глубина знаний у LLM сильно зависит от домена и модели. Одна модель может превосходить другую в медицине, но проиграть в праве. Дорогая модель ≠ более глубокая. И ни один стандартный тест не покажет этого — потому что все тесты проверяют ширину, а не глубину.

Метод работает в пять уровней глубины: общие знания → учебник → профессиональный уровень → экспертный → передний край науки. На каждом уровне вопросы строятся из того, что сказала сама модель — не по скрипту. Как опытный преподаватель, который слушает студента и бьёт именно туда, где тот сделал паузу.

🔬

Схема метода

ШАГ 1: Задай начальный вопрос по теме 
        → модель отвечает, называет концепции

ШАГ 2: Выдели 2-3 конкретных термина/механизма из ответа
        → это следующие точки бурения

ШАГ 3: Задай углублённый вопрос по каждой концепции
        → ищи признаки неуверенности, обобщений, ошибок

ШАГ 4: Повтори — снова бери концепции из нового ответа
        → бури дальше вглубь

ШАГ 5: Остановись, когда ответы стали размытыми или противоречивыми
        → ты нашёл границу реального знания модели

Все шаги — в обычном диалоге в чате, без кода. Можно делать вручную или попросить LLM вести бурение самостоятельно.

🚀

Пример применения

Задача: Ты работаешь с юристом или сам разбираешь договор. Хочешь понять, насколько глубоко Claude знает закон о защите персональных данных (152-ФЗ) — прежде чем доверять его ответам.

Промпт:

Давай проверим, насколько глубоко ты знаешь 152-ФЗ (закон о персональных данных в России).

Вот правила нашего диалога:
1. Я задаю первый вопрос — ты отвечаешь развёрнуто, называя конкретные понятия, механизмы, требования.
2. После каждого ответа ты сам выделяешь 2-3 концепции, которые упомянул. Пиши их в конце ответа вот так:
   🔍 Концепции для углубления: [концепция 1], [концепция 2], [концепция 3]
3. Я выбираю одну из них — и ты отвечаешь глубже.
4. Продолжаем, пока я не скажу "стоп".

Первый вопрос: Что такое оператор персональных данных и какие у него основные обязанности?

Результат:

Модель начнёт с общего определения и общих обязанностей — это COMMON-уровень. В конце выделит концепции: например, «согласие субъекта», «трансграничная передача», «уведомление Роскомнадзора». Ты выбираешь одну — и начинается бурение вглубь. На 3-4 уровне обычно появляются первые признаки размытости: общие формулировки, уклончивость, противоречия между ответами. Это и есть граница реальной глубины знания модели по этой теме.

🧠

Почему это работает

LLM обучена предсказывать следующий токен. Для этого достаточно уловить паттерн из тысяч похожих текстов. Общий вопрос → задача лёгкая: паттернов много, ответ статистически стабильный.

Узкоспециальный вопрос — другое дело. Паттернов мало. Модель либо точно встречала нужный текст в обучении — либо начинает генерировать правдоподобное, не обязательно верное. При этом уверенность в голосе не меняется. Именно поэтому поверхностный ответ звучит убедительно, а ошибки на глубоком уровне — незаметны.

Адаптивное бурение ломает иллюзию: каждый следующий вопрос строится на предыдущем ответе. Модель не может "переключиться" — она вынуждена развивать именно то, что сказала. Если знание поверхностное, это проявится уже на 3-4 уровне.

Рычаги управления:

Что менять	Эффект
Количество концепций для бурения (2 или 4)	Шире/уже охват на каждом уровне
Уровень, с которого начинаешь	Пропусти COMMON, если нужен сразу PROFESSIONAL
Просить или не просить источники	Без источников — скорость, с источниками — проверяемость
Два параллельных диалога с разными моделями	Сравнение глубины знания на одной теме

📋

Шаблон промпта

Давай проверим глубину твоих знаний о {тема}.

Правила диалога:
1. Отвечай развёрнуто — называй конкретные понятия, механизмы, детали.
2. В конце каждого ответа выдели:
   🔍 Концепции для углубления: [концепция 1], [концепция 2], [концепция 3]
3. Я выбираю концепцию — ты отвечаешь глубже, на уровне {уровень_знания}.
4. При каждом переходе вглубь — явно скажи, если тема становится спорной, 
   малоизученной или ты не уверен.

Уровни глубины, через которые пойдём:
— Общий уровень (что знает любой образованный человек)
— Учебник (детали, механизмы, исторический контекст)
— Профессиональный (стандарты, регуляции, практика)
— Экспертный (исследования, тонкости, edge cases)

Первый вопрос: {начальный_вопрос}

Что подставлять: - {тема} — область знания: «трудовое право», «диабет 2 типа», «SEO», «уголовный кодекс» - {уровень_знания} — насколько глубоко тебе важно: «практикующего специалиста» или «студента-старшекурсника» - {начальный_вопрос} — широкий стартовый вопрос по теме

🚀 Быстрый старт — вставь в чат:

Вот шаблон для адаптивного бурения знаний. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить нужные поля.

[вставить шаблон выше]

LLM спросит тему и начальный вопрос — потому что без них она не знает, с какой точки начинать бурение и в каком направлении двигаться. Она возьмёт структуру уровней и систему выделения концепций, адаптирует под твою область.

⚠️

Ограничения

⚠️ Субъективные и творческие области: Метод работает только там, где у вопросов есть верный/неверный ответ. Для оценки идей, текстов, стратегий — не применимо.

⚠️ Самооценка не означает точность: Когда модель сама ведёт бурение, она не всегда знает, где сделала ошибку. Для действительно критичных решений (медицина, юридические документы) — параллельно проверяй ответы в первичных источниках.

⚠️ Глубина ≠ актуальность: Модель может хорошо отвечать на экспертном уровне по знаниям 2022 года — и ошибаться по событиям последнего года. Бурение не заменяет проверку свежести данных.

⚠️ Модели разные по доменам: Исследование показало — одна модель побеждает другую в медицине, но проигрывает в праве. Не переноси вывод "эта модель глубже" с одной темы на другую.

🔗

Ресурсы

Работа: DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models

Автор: Alexander Sheppert — Legacy Health, Capitol Technology University (asheppert@captechu.edu)

Связанные концепции из работы: Bloom's Taxonomy применительно к LLM (Liu et al., COLING 2025), BloomWise prompting, адаптивное тестирование на основе IRT, LiveBench, MMLU

📋 Дайджест исследования

Ключевая суть

Принцип работы

Пять уровней глубины: от «что знает любой образованный человек» до «передний край науки». На каждом уровне — вопрос по тому, что сама модель сказала в предыдущем ответе. Не скрипт — а ловушка из собственных слов. Модель не может переключиться на другую тему — она вынуждена развивать именно то, что назвала. Чем уже и глубже тема, тем слабее становится почва. Это и делает момент «знание кончилось» — видимым.

Почему работает

LLM предсказывает следующее слово по паттернам из обучения. Широкий вопрос — паттернов тысячи, ответ стабильный и точный. Узкоспециальный вопрос — паттернов единицы. Модель либо точно встречала нужный текст при обучении, либо начинает генерировать убедительно звучащее — но не обязательно верное. Ключевое: уверенность в голосе при этом не меняется. Модель не знает, что она не знает. Адаптивное бурение ловит именно этот момент — когда уверенный тон расходится с точностью ответа.

Когда применять

Профессиональные и технические темы → конкретно для проверки перед принятием решений, особенно когда поверхностный ответ может быть опасен: право, медицина, финансы, технические регламенты. Отлично работает для сравнения двух моделей на одной теме — параллельно два диалога, одни и те же вопросы. НЕ подходит для субъективных областей: оценка идей, текстов, стратегий — там нет правильного/неправильного ответа, бурить некуда.

Мини-рецепт

1. Задай широкий стартовый вопрос по нужной теме — достаточно общий, чтобы модель назвала несколько конкретных понятий или механизмов.
2. Добавь правило в первый промпт: в конце каждого ответа модель выделяет 2-3 концепции в формате «Концепции для углубления: [концепция 1], [концепция 2]».
3. Выбери одну концепцию из предложенных — ту, которая важна для твоей задачи или кажется подозрительно размытой.
4. Попроси ответить глубже именно по ней — не меняй тему, не уходи в сторону. Бури туда.
5. Повторяй шаги 3-4 пока ответы не начнут плыть: появятся оговорки, общие формулировки, противоречия с предыдущими ответами.
6. Зафиксируй уровень — это и есть граница реальной компетентности модели по данной теме.

Примеры

[ПЛОХО] :

Объясни основные обязанности оператора персональных данных по 152-ФЗ

— получить развёрнутый ответ и считать что модель хорошо знает тему

[ХОРОШО] :

Давай проверим глубину твоих знаний о 152-ФЗ.

Правила диалога:
1. Отвечай развёрнуто — называй конкретные понятия, требования, исключения.
2. В конце каждого ответа пиши:
   Концепции для углубления: [концепция 1], [концепция 2], [концепция 3]
3. Я выбираю одну — ты отвечаешь глубже, на уровне практикующего юриста.
4. Если тема становится спорной или ты не уверен — скажи прямо.

Первый вопрос: Что такое оператор персональных данных и каковы его основные обязанности?

После первого ответа модель выдаст, например: «трансграничная передача», «согласие субъекта», «уведомление Роскомнадзора». Выбираешь одно — и бурение начинается. К третьему-четвёртому циклу становится видно, где ответы начинают плыть.

Источник: DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models

ArXiv ID: 2603.23514 | Сгенерировано: 2026-03-26 04:31

Проблемы LLM

Проблема	Суть	Как обойти
Уверенный тон скрывает границу знания	Спрашиваешь сложное — модель отвечает уверенно. Но на глубоких уровнях начинает обобщать, уклоняться, противоречить себе. Тон не меняется. Снаружи не отличить точный ответ от правдоподобного. Проблема для всех задач где цена ошибки высока: право, медицина, финансы	Бури вглубь: задавай уточняющие вопросы именно по тем концепциям, которые модель сама назвала. На 3–4 вопросе граница реального знания обычно видна

Методы

Метод Суть

Адаптивное бурение — проверка глубины знания Попроси модель в конце каждого ответа выделять 2–3 концепции, которые она упомянула: 🔍 Концепции для углубления: [X], [Y], [Z]. Ты выбираешь одну — и задаёшь следующий вопрос именно по ней. Повторяй пока ответы не стали расплывчатыми. Почему работает: Модель вынуждена развивать то, что сама сказала. Не может переключиться на более лёгкое. Поверхностное знание проявляется уже на 3–4 уровне. Когда применять: Любая профессиональная тема с чёткими верными/неверными ответами. Когда не работает: Творческие и субъективные задачи — там нет «правильной глубины»

Метод	Суть
Адаптивное бурение — проверка глубины знания	Попроси модель в конце каждого ответа выделять 2–3 концепции, которые она упомянула: `🔍 Концепции для углубления: [X], [Y], [Z]`. Ты выбираешь одну — и задаёшь следующий вопрос именно по ней. Повторяй пока ответы не стали расплывчатыми. Почему работает: Модель вынуждена развивать то, что сама сказала. Не может переключиться на более лёгкое. Поверхностное знание проявляется уже на 3–4 уровне. Когда применять: Любая профессиональная тема с чёткими верными/неверными ответами. Когда не работает: Творческие и субъективные задачи — там нет «правильной глубины»

📖 Простыми словами

DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge inLargeLanguageModels

arXiv: 2603.23514

Суть в том, что современные нейронки — это короли поверхностного трепа. Они создают иллюзию компетентности, потому что обучены предсказывать следующее слово на основе миллионов текстов. На верхнем уровне это работает идеально: ты спрашиваешь про квантовую физику или юридический договор, и модель выдает бодрый, уверенный текст. Но проблема в том, что этот ответ — просто статистически стабильный паттерн, а не реальное понимание сути. Как только ты делаешь шаг в сторону от шаблона, модель начинает сыпаться, потому что за красивым фасадом часто скрывается пустота.

Это как встретить на вечеринке парня, который сыплет умными терминами и кажется гением, пока ты не начинаешь задавать уточняющие вопросы. На третьем-четвертом вопросе выясняется, что он просто прочитал статью в Википедии и красиво пересказывает заголовки. Метод DepthCharge работает именно так: он не верит модели на слово, а начинает адаптивное бурение, заставляя ИИ объяснять те самые концепции, которые он только что сам же и упомянул. Это проверка на вшивость в реальном времени, которая быстро отделяет реальные знания от удачной имитации.

Технически это выглядит как серия ударов в одну точку. Сначала идет общий вопрос, а затем система цепляется за ключевые термины в ответе и спрашивает: «А как именно работает вот эта деталь?». Если модель ответила про 152-ФЗ, DepthCharge заставит её пояснить конкретные механизмы передачи данных, а потом — исключения из этих механизмов. На каждом новом уровне глубины познания вероятность ошибки растет по экспоненте. Исследование показывает, что большинство моделей «сдуваются» уже на 3-4 итерации, начиная либо нести откровенную чушь, либо противоречить собственным словам.

Самое крутое, что этот принцип универсален и не привязан к конкретной теме. Неважно, тестируешь ты Claude на знание законов или GPT на умение писать код — механика везде одна. Ты просто берешь ответ и используешь его как фундамент для следующего, более сложного вопроса. Это позволяет составить реальную карту того, где у модели заканчиваются знания и начинаются галлюцинации. Теперь можно четко измерить, насколько глубоко «прокачан» конкретный домен, вместо того чтобы гадать на кофейной гуще и надеяться на авось.

Короче, хватит верить уверенному тону нейронок — это их работа, они так запрограммированы. Если хочешь понять, можно ли доверять ИИ в серьезном деле, используй DepthCharge: бури вглубь, пока не наткнешься на бред. Главный вывод исследования прост: глубина знаний LLM конечна и часто очень мала. Кто научится быстро находить этот предел, тот перестанет ловить факапы там, где модель казалась экспертом, но на деле просто прогнала красивый скрипт.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню