3,583 papers
arXiv:2605.17554 74 17 мая 2026 г. FREE

DRA-Bench: как проверить, думает ли ИИ — или просто копирует поверхность

КЛЮЧЕВАЯ СУТЬ
ИИ не читает твой документ — он совпадает с поверхностью текста. Встретил число в теле отчёта — берёт его. Сноска с другим числом? Модель её не поймала, уверенно пошла дальше, и весь расчёт поехал. Именно так объясняется результат: Claude и o3 дали приемлемый ответ лишь в 9,5% из 42 задач уровня управленческого консалтинга — при этом оба считаются топовыми агентами. Метод когнитивной ловушки позволяет за один промпт понять, думала ли модель или только сканировала паттерны: встраиваешь маленькую ошибку в материал и смотришь, поймал ли ИИ её до начала анализа. В паре с рубриком самооценки из пяти критериев это даёт реальный контроль над качеством ответа — вместо слепого доверия.
Адаптировать под запрос

TL;DR

Исследователи протестировали три топовых ИИ-агента (Claude, o3, Gemini) на 42 задачах уровня управленческого консалтинга — и все три провалились. Приняли как готовый к работе результат: Gemini — 21%, Claude и o3 — по 9,5%. Главный практический вывод: у каждой модели есть предсказуемый характер ошибок, и зная его, ты выбираешь инструмент осознанно, а не наугад.

Ключевая находка: ИИ-агенты не «читают» документ — они совпадают с поверхностью текста. Если в документе написано одно число, а в сноске — другое, модель берёт то, что на виду, и уверенно идёт дальше. Ошибка в одном шаге каскадирует через весь расчёт — и в итоге финансовая модель рекомендует решение, которое повлечёт убытки.

Из исследования можно вытащить два инструмента для работы в чате. Первый — пятикритериальный рубрик (Data Integrity, Analytical Rigor, Relevance & Focus, Execution Precision, Format & Deliverability) — проси ИИ оценить собственный ответ по этим критериям. Второйкогнитивная ловушка: намеренно встрой маленькую ошибку или противоречие в материал — если ИИ её не поймал, он не думал, а сканировал.


🔬

Схема метода

ИНСТРУМЕНТ 1: Рубрик самооценки (один промпт)
----
Источник → ИИ отвечает → ты просишь оценить ответ по 5 критериям → 
видишь где слабина → перезапрашиваешь конкретное слабое место

ИНСТРУМЕНТ 2: Когнитивная ловушка (один промпт)
----
Документ с намеренной ошибкой → ИИ анализирует → 
проверяешь поймал ли ошибку → если нет — доверие к остальному снижено

ИНСТРУМЕНТ 3: Выбор модели под задачу (знание, не промпт)
----
Нужен файл на выходе → Claude
Нужна чистота логики → o3
Нужно нащупать «попадёт или нет» → Gemini рискованно

Все три работают в обычном чате.


🚀

Пример применения

Задача: Ты готовишь аналитику по конкуренту для питча инвестору. Загрузил PDF с финансовой отчётностью и просишь Claude сделать обзор. Хочешь понять — насколько можно доверять ответу.

Промпт (Инструмент 2 — когнитивная ловушка):

Проанализируй финансовые показатели компании из документа ниже.

Важно: в документе **специально допущена одна маленькая ошибка** — 
противоречие между числом в теле документа и числом в сноске.
Найди это противоречие. Если нашёл — укажи его явно перед анализом.
Если не нашёл — напиши об этом тоже.

[вставь документ]

Результат: Если модель нашла противоречие — она действительно читала, а не сканировала паттерны. Можно доверять остальному анализу. Если не нашла — значит вся аналитика ниже потенциально содержит тихие ошибки. Это не повод выбрасывать ответ, но повод перепроверить числа вручную.


Промпт (Инструмент 1 — рубрик самооценки):

Вот мой вопрос и твой ответ ниже. Оцени свой ответ по 5 критериям — 
каждый по шкале 0-3, где 0 = серьёзная проблема, 3 = отлично:

1. **Точность данных (DI)** — все цифры, факты и ссылки верны? 
   Ничего не придумано?
2. **Качество анализа (AR)** — логика рассуждений звучная, 
   без пробелов?
3. **Попадание в задачу (RF)** — ответ именно на мой вопрос, 
   без лишнего?
4. **Точность выполнения (EP)** — если были расчёты или 
   структурные требования — всё сделано правильно?
5. **Готовность к использованию (FD)** — ответ полный, 
   не обрезан, подходит для дела?

После оценки — укажи по какому критерию ты сам не уверен.

[вставь свой предыдущий вопрос]
[вставь ответ модели]

Результат: Модель выдаст таблицу с баллами и — что важнее — честно укажет, где она сама чувствует неуверенность. Это работает лучше чем просить "проверь себя", потому что даёт конкретные измерения, а не общее "да, всё ок".


🧠

Почему это работает

Проблема: ИИ генерирует текст, предсказывая следующий токен — он не проверяет логику, не сверяет цифры с источником. Если документ содержит противоречие — модель берёт то, что встретила первым, или то, что статистически правдоподобнее. Это не баг, это фундаментальная механика.

Что ИИ умеет хорошо: следовать явным инструкциям, работать по заданному формату, генерировать структурированный текст по шаблону. Если ты заранее задал правила — модель их держит. Если правил нет — она действует по наиболее вероятному паттерну.

Как это использовать: Рубрик самооценки работает потому что переключает модель в режим критика: вместо генерации нового текста она применяет конкретные критерии к уже готовому. Когнитивная ловушка работает потому что делает проверку явной задачей — а не подразумеваемой. ИИ не «проверяет по умолчанию» — он проверяет, если ты попросил.

Рычаги управления: - Добавь «укажи уровень уверенности 1-5» → увидишь где модель сомневается - Попроси указать источник для каждой цифры → поймаешь fabrication (придуманные данные) - Сделай ловушку точнее: «в одном числе стоит не тот год» или «одна статья в сноске противоречит телу» → проверяешь конкретный тип ошибки


📋

Шаблон промпта

Рубрик самооценки:

Оцени свой предыдущий ответ по 5 критериям (шкала 0-3):

1. **Точность данных** — всё верно, ничего не придумано? 
2. **Качество логики** — рассуждение без пробелов?  
3. **Попадание в задачу** — ответил именно на {вопрос пользователя}?
4. **Точность расчётов/структуры** — выполнено без ошибок?
5. **Готовность к использованию** — результат полный и пригодный?

Формат: таблица 5 строк — критерий | балл | одна фраза пояснения.
В конце: по какому критерию ты наименее уверен?

Когнитивная ловушка:

Проанализируй {документ/данные} ниже.

Предупреждение: в материале есть {тип ошибки — 
например: «противоречие между таблицей и сноской» 
или «несоответствие единиц измерения»}.
Найди его явно ДО начала анализа. 
Если не нашёл — так и напиши.

{документ}

Плейсхолдеры: - {вопрос пользователя} — твой исходный запрос - {документ/данные} — что анализируешь - {тип ошибки} — что именно ищем (или напиши абстрактно «противоречие или несоответствие»)

🚀 Быстрый старт — вставь в чат:

Вот шаблоны DRA-рубрика и когнитивной ловушки. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой тип документа ты анализируешь и какой ошибки опасаешься — потому что тип ловушки зависит от характера материала (числа, логика, структура).


⚠️

Ограничения

⚠️ Малая выборка: 42 задачи — это мало для генерализации. Авторы сами предупреждают и готовят вторую версию с бо́льшим числом примеров.

⚠️ Узкий домен: Все задачи из управленческого консалтинга. Паттерны ошибок могут отличаться в других областях — юридических текстах, медицинских данных, коде.

⚠️ Самооценка не идеальна: Рубрик самооценки показывает, как модель думает о своём ответе — но не гарантирует объективность. Fabrication (придуманные данные) модель может не заметить сама.

⚠️ Агентские версии ≠ обычный чат: Исследовали специальные «deep research» режимы с веб-поиском, не стандартный чат. Численные показатели (9-21% acceptance) — про агентов, не про ChatGPT Plus.


🔍

Как исследовали

Команда из Deccan AI собрала 42 задачи уровня настоящего управленческого консалтинга — каждая с несколькими файлами (CSV, PDF, XLSX, PPTX), встроенными ловушками и детальным рубриком оценки. Важный момент: задачи писали и оценивали живые эксперты с опытом в MBB и Big Four, а не другой ИИ — это принципиально, потому что LLM-как-судья имеет известные проблемы с длинными ответами и sycophancy (склонностью хвалить чужие тексты).

Агентов гоняли одновременно через три API: Anthropic Messages API для Claude, OpenAI Responses API для o3, Google Interactions API для Gemini. Каждый из 126 ответов прошёл двойную независимую проверку: бинарные верификаторы (числовые ловушки, структурные требования) и пятикритериальный рубрик от эксперта. Результат неожиданный: o3 лучший по качеству рассуждений, но Claude лучший по выдаче файлов, а Gemini непредсказуем — либо попадает, либо полный ноль. Ни одна модель не прошла даже треть задач. При этом ошибки не случайные — каждая модель делает свои специфические провалы воспроизводимо.

Интересная деталь: задачи специально проектировались с детерминированными ловушками — там, где поверхностный агент возьмёт первое поставное число и сделает ошибку, а внимательный агент прочитает сноску и скорректирует. Оказалось, что модели с хорошим reasoning (o3) лучше справляются с логическими ловушками, но хуже с требованиями к структуре и полноте выходного файла.


📌

Профили ошибок: что делает каждая модель

Это практически применимо прямо сейчас — выбирай модель под задачу осознанно:

Модель Сильная сторона Слабое место
Claude Opus Файлы на выходе (90% vs 30% и 10%), структура Высокий уровень fabrication — придумывает данные уверенно
o3-deep-research Чистота логики, лучший средний балл по reasoning Пропускает required sections, ошибки в многошаговых расчётах каскадируют
Gemini Pro Лучший ACCEPT rate (21%), выигрывает на CRP и SCP Биполярный: либо отлично, либо ноль. 41 нулевой критерий против 10 у o3

Короткое правило: нужен документ на выходе → Claude. Нужна логика без ошибок → o3. Gemini — рулетка на сложных задачах.


📄

Оригинал из исследования

Пять типов промптов (классификация по когнитивной способности):

CRP — Constrained Research Prompt
Capability: Source discipline
Agent must restrict itself to authorized sources 
when tempted by easier external alternatives.

RCP — Relevance Compression Prompt  
Capability: Signal extraction
Large noisy corpora where 60–70% of the material is irrelevant.
Agent must locate buried qualifiers, footnotes, or dispersed references.

SCP — Structural Compliance Prompt
Capability: Algorithmic obedience
Multi-layer non-trivial output structure (nested sections, fixed-column 
tables, JSON schemas, cross-references). Agent must hold and faithfully 
execute a structural specification across a long deliverable.

LDP — Latent Decomposition Prompt
Capability: Problem decomposition
Tasks requiring inference of unlisted variables (intermediate calculations, 
latent factors, model components not directly given). Agent must identify 
what needs to be computed before the analysis can proceed.

FSP — Failure-Sensitive Prompt
Capability: Precision and exactness
Tasks where small factual or logical errors invalidate the entire output 
(a single mis-pulled value cascades to a wrong recommendation).

Контекст: Авторы использовали эту таксономию для разработки задач. Для практики — это чеклист: какой тип задачи ты сейчас ставишь ИИ, и какой провал ожидать.


💡

Адаптации и экстраполяции

1. Типы задач как диагностика промпта

Пять типов из исследования — это не только про оценку ИИ. Это классификатор твоих запросов. Перед тем как писать промпт, спроси себя:

💡 Адаптация для диагностики задачи: - Это CRP (работа только с моими материалами)? → Прямо напиши: «используй только прикреплённый документ, не ищи внешних данных» - Это RCP (важное спрятано в шуме)? → Добавь: «найди все qualifiers и сноски, которые меняют основный вывод» - Это FSP (одна ошибка всё рушит)? → Добавь: «проверь каждую цифру, укажи источник»

2. Когнитивная ловушка для редактуры

🔧 Техника: ловушка на редактуру текста → проверка внимательности

Если просишь ИИ отредактировать твой текст — встрой намеренную опечатку или фактическую ошибку в исходник. Попроси «отредактировать и сохранить фактическую точность». Проверь исправил ли ошибку. Это быстрый тест: модель работает внимательно или просто делает стилистические правки не глядя на смысл.

3. Двухслойная проверка важного документа

💡 Адаптация для критически важных материалов:

Для любого ИИ-вывода с числами или решениями — запроси двухслойную проверку в одном промпте:

Это важное решение. Прежде чем дать финальный ответ:

Слой 1 — Фактическая проверка:
Перечисли все числа и факты которые использовал. 
Для каждого: откуда взял? Есть ли в документе что-то, 
что противоречит этому числу?

Слой 2 — Логическая проверка:
Есть ли шаг в рассуждении, где ты сделал допущение 
вместо того чтобы найти конкретный ответ?

Только после этих двух слоёв — финальный вывод.

Задача: {вопрос}
Материал: {документ}

🔗

Ресурсы

Название работы: Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps

Авторы: Tanmay Asthana, Aman Saksena, Divyansh Sahu — Deccan AI Research

Датасет: huggingface.co/datasets/deccan-ai/dra-bench

Код: github.com/tanm-ast-deccan/dra-response-gen


📋 Дайджест исследования

Ключевая суть

ИИ не читает твой документ — он совпадает с поверхностью текста. Встретил число в теле отчёта — берёт его. Сноска с другим числом? Модель её не поймала, уверенно пошла дальше, и весь расчёт поехал. Именно так объясняется результат: Claude и o3 дали приемлемый ответ лишь в 9,5% из 42 задач уровня управленческого консалтинга — при этом оба считаются топовыми агентами. Метод когнитивной ловушки позволяет за один промпт понять, думала ли модель или только сканировала паттерны: встраиваешь маленькую ошибку в материал и смотришь, поймал ли ИИ её до начала анализа. В паре с рубриком самооценки из пяти критериев это даёт реальный контроль над качеством ответа — вместо слепого доверия.

Принцип работы

Два инструмента. Работают в обычном чате, никакого дообучения. Инструмент 1: Когнитивная ловушка. Встрой в материал намеренное противоречие — например, год не совпадает в таблице и в сноске, или единицы измерения разные. Попроси модель найти это противоречие явно, до начала анализа. Нашла — читала. Не нашла — сканировала. Весь последующий анализ нужно перепроверять вручную. Инструмент 2: Рубрик самооценки. После того как модель ответила — попроси её оценить свой ответ по пяти критериям: точность данных, качество логики, попадание в задачу, точность расчётов, готовность к использованию. Шкала 0–3. В конце — по какому критерию она сама наименее уверена. Переключение в режим критика работает лучше чем просить «проверь себя» — потому что даёт конкретные измерения, а не общее «да, всё ок».

Почему работает

ИИ предсказывает следующий токен — он не проверяет логику и не сверяет цифры с источником по умолчанию. Если документ содержит противоречие — модель берёт то, что статистически правдоподобнее или встретила первой. Это не баг, это фундаментальная механика. Ловушка работает потому что делает проверку явной задачей, а не подразумеваемой. ИИ не проверяет «сам по себе» — он проверяет, когда ты попросил. Рубрик самооценки работает по той же причине: ты задаёшь конкретные критерии оценки, и модель применяет их к готовому тексту — вместо того чтобы просто продолжать генерировать. Практическое следствие из исследования: у каждой модели предсказуемый характер ошибок. Claude держит формат, но проваливает логику. o3 чище в рассуждениях, но тоже плывёт на противоречиях в источниках. Gemini лучше принимается — 21% против 9,5%, — но нестабильно. Знаешь это заранее — выбираешь инструмент осознанно.

Когда применять

Анализ документов с цифрами → для финансовых отчётов, питч-деков, технических спецификаций, особенно когда цена ошибки высокая и перепроверить вручную сложно. НЕ подходит для: задач без проверяемых фактов (генерация идей, написание текстов в свободном стиле) — там когнитивная ловушка не имеет смысла, а рубрик по критерию «точность данных» даст мало.

Мини-рецепт

1. Встрой ловушку: возьми документ, который будешь анализировать. Измени одну маленькую деталь — год в одном месте, число в сноске, единицу измерения. Запомни что изменил.
2. Дай задачу с предупреждением: скажи модели что в материале есть намеренное противоречие и попроси найти его явно, до анализа. Шаблон: В документе ниже есть одно противоречие — [тип, например: несоответствие между таблицей и сноской]. Найди его явно до начала анализа. Если не нашёл — так и напиши. [документ]
3. Проверь результат: нашла модель противоречие — можно доверять анализу. Не нашла — значит цифры из ответа нужно проверять вручную.
4. Запроси самооценку: после основного ответа вставь рубрик. Шаблон: Оцени свой предыдущий ответ по 5 критериям (шкала 0–3): 1. Точность данных — всё верно, ничего не придумано? 2. Качество логики — рассуждение без пробелов? 3. Попадание в задачу — ответил именно на мой вопрос? 4. Точность расчётов — выполнено без ошибок? 5. Готовность к использованию — результат полный? Формат: таблица — критерий, балл, одна фраза. В конце: по какому критерию наименее уверен?
5. Дожми слабое место: посмотри какой критерий получил низкий балл или вызвал неуверенность. Перезапроси именно его — конкретно, не «проверь ещё раз».

Примеры

[ПЛОХО] : Проанализируй финансовый отчёт компании и сделай выводы.
[ХОРОШО] : Проанализируй финансовый отчёт ниже. Предупреждение: в документе есть противоречие между числом в основном тексте и числом в сноске к таблице 3. Найди его явно до начала анализа. Если не нашёл — напиши об этом. После анализа оцени свой ответ по пяти критериям (точность данных, качество логики, попадание в задачу, точность расчётов, готовность к использованию) — шкала 0-3, таблицей. Укажи по какому критерию наименее уверен. [вставить отчёт]
Источник: Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps
ArXiv ID: 2605.17554 | Сгенерировано: 2026-05-19 05:34

Проблемы LLM

ПроблемаСутьКак обойти
Модель берёт первое число, не сверяет с остальным документомВ документе одно число в тексте, другое в сноске. Модель берёт то, что встретила первой. Уверенно идёт дальше. Ошибка тихая — ты не видишь что что-то пошло не так. Следующие расчёты строятся на неверной базе. Работает так при любом анализе документов с цифрамиВстрой в документ намеренное противоречие и попроси найти его до начала анализа. Если не нашла — значит остальное тоже под вопросом. Перепроверяй числа вручную

Методы

МетодСуть
Когнитивная ловушка — тест на реальное чтениеВставь в документ намеренную ошибку: противоречие между таблицей и сноской, несоответствие единиц, неверный год. Попроси найти её явно до анализа. Предупреждение: в материале есть противоречие между [тип]. Найди его явно ДО начала анализа. Если не нашёл — так и напиши. Почему работает: модель не проверяет по умолчанию. Проверяет только если это явная задача. Ловушка делает проверку задачей. Когда применять: анализ документов с числами, несколько источников в одном файле, чужая аналитика. Когда не нужно: генерация текста без опоры на документ
Рубрик самооценки — переключение в режим критикаПопроси модель оценить свой ответ по пяти критериям по шкале 0–3. Точность данных (ничего не придумано?). Качество логики (нет пробелов?). Попадание в задачу. Точность расчётов. Готовность к использованию. Оцени свой ответ: таблица — критерий, балл, одна фраза. В конце: по какому критерию наименее уверен? Почему работает: генерация нового текста и оценка готового — разные режимы. Модель в роли критика замечает то, что пропустила при генерации. Конкретные числа выявляют слабину точнее чем "проверь себя". Когда применять: важный результат, нет возможности проверить вручную. Ограничение: придуманные данные (галлюцинации) модель может не выявить сама
📖 Простыми словами

Evaluating Deep ResearchAgentson Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps

arXiv: 2605.17554

Нейросети сегодня — это не аналитики, а одаренные имитаторы, которые работают на статистике, а не на логике. Когда ты просишь ИИ решить задачу уровня топового консалтинга, он не «думает», а просто подбирает наиболее вероятные слова. Фундаментальный облом в том, что для сложных бизнес-кейсов этого мало: модели предсказывают токены, но не проверяют факты и не ищут подвохи в данных. Если в отчете написано одно, а в таблице другое, нейронка просто выберет то, что ей «ближе по духу», даже не заметив конфликта.

Это как нанять на работу стажера-отличника, который прочитал все учебники мира, но ни разу не был в реальном офисе. Он говорит очень уверенно, сыплет терминами и рисует красивые графики, но абсолютно не чувствует подвоха. Если ты подсунешь ему документ с намеренной ошибкой, он не переспросит, а просто впишет эту чушь в итоговую презентацию. В итоге ты получаешь галлюцинации в красивой обертке, которые выглядят как работа эксперта, но рассыпаются при первой проверке.

Исследование показало, что топовые агенты вроде Claude, o3 и Gemini в 80% случаев выдают мусор, который нельзя нести клиенту. Gemini справилась чуть лучше остальных, выдав 21% адекватных ответов, в то время как Claude и o3 позорно слились на уровне 9,5%. Проблема не в том, что они глупые, а в когнитивных ловушках: модели ведутся на ложные подсказки и игнорируют противоречия в источниках. Они работают как исполнительные роботы, которые не умеют сомневаться в задаче.

Принцип «доверяй, но проверяй» здесь универсален и касается не только консалтинга. Тестировали на бизнес-кейсах, но это работает и для юристов, и для медиков, и для программистов — везде, где цена ошибки выше, чем просто опечатка. Сейчас мы находимся в эре GEO (Generative Engine Optimization), где важно понимать «характер» каждой модели. Одна лажает в цифрах, другая — в логических связях, третья — просто слишком вежлива, чтобы указать на твою ошибку в промпте.

Короче: не надейся, что ИИ сделает за тебя сложную работу «под ключ» — он все еще хронический фантазер. Используй модели как черновик, но помни, что 8 из 10 их выводов могут быть полной фигней. Зная предсказуемые косяки каждой модели, ты можешь выбирать инструмент под конкретный риск, а не тыкать пальцем в небо. Кто научится ловить ИИ на вранье сейчас, тот выживет, когда нейронки окончательно завалят интернет правдоподобным бредом.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с