TL;DR
Исследователи протестировали три топовых ИИ-агента (Claude, o3, Gemini) на 42 задачах уровня управленческого консалтинга — и все три провалились. Приняли как готовый к работе результат: Gemini — 21%, Claude и o3 — по 9,5%. Главный практический вывод: у каждой модели есть предсказуемый характер ошибок, и зная его, ты выбираешь инструмент осознанно, а не наугад.
Ключевая находка: ИИ-агенты не «читают» документ — они совпадают с поверхностью текста. Если в документе написано одно число, а в сноске — другое, модель берёт то, что на виду, и уверенно идёт дальше. Ошибка в одном шаге каскадирует через весь расчёт — и в итоге финансовая модель рекомендует решение, которое повлечёт убытки.
Из исследования можно вытащить два инструмента для работы в чате. Первый — пятикритериальный рубрик (Data Integrity, Analytical Rigor, Relevance & Focus, Execution Precision, Format & Deliverability) — проси ИИ оценить собственный ответ по этим критериям. Второй — когнитивная ловушка: намеренно встрой маленькую ошибку или противоречие в материал — если ИИ её не поймал, он не думал, а сканировал.
Схема метода
ИНСТРУМЕНТ 1: Рубрик самооценки (один промпт)
----
Источник → ИИ отвечает → ты просишь оценить ответ по 5 критериям →
видишь где слабина → перезапрашиваешь конкретное слабое место
ИНСТРУМЕНТ 2: Когнитивная ловушка (один промпт)
----
Документ с намеренной ошибкой → ИИ анализирует →
проверяешь поймал ли ошибку → если нет — доверие к остальному снижено
ИНСТРУМЕНТ 3: Выбор модели под задачу (знание, не промпт)
----
Нужен файл на выходе → Claude
Нужна чистота логики → o3
Нужно нащупать «попадёт или нет» → Gemini рискованно
Все три работают в обычном чате.
Пример применения
Задача: Ты готовишь аналитику по конкуренту для питча инвестору. Загрузил PDF с финансовой отчётностью и просишь Claude сделать обзор. Хочешь понять — насколько можно доверять ответу.
Промпт (Инструмент 2 — когнитивная ловушка):
Проанализируй финансовые показатели компании из документа ниже.
Важно: в документе **специально допущена одна маленькая ошибка** —
противоречие между числом в теле документа и числом в сноске.
Найди это противоречие. Если нашёл — укажи его явно перед анализом.
Если не нашёл — напиши об этом тоже.
[вставь документ]
Результат: Если модель нашла противоречие — она действительно читала, а не сканировала паттерны. Можно доверять остальному анализу. Если не нашла — значит вся аналитика ниже потенциально содержит тихие ошибки. Это не повод выбрасывать ответ, но повод перепроверить числа вручную.
Промпт (Инструмент 1 — рубрик самооценки):
Вот мой вопрос и твой ответ ниже. Оцени свой ответ по 5 критериям —
каждый по шкале 0-3, где 0 = серьёзная проблема, 3 = отлично:
1. **Точность данных (DI)** — все цифры, факты и ссылки верны?
Ничего не придумано?
2. **Качество анализа (AR)** — логика рассуждений звучная,
без пробелов?
3. **Попадание в задачу (RF)** — ответ именно на мой вопрос,
без лишнего?
4. **Точность выполнения (EP)** — если были расчёты или
структурные требования — всё сделано правильно?
5. **Готовность к использованию (FD)** — ответ полный,
не обрезан, подходит для дела?
После оценки — укажи по какому критерию ты сам не уверен.
[вставь свой предыдущий вопрос]
[вставь ответ модели]
Результат: Модель выдаст таблицу с баллами и — что важнее — честно укажет, где она сама чувствует неуверенность. Это работает лучше чем просить "проверь себя", потому что даёт конкретные измерения, а не общее "да, всё ок".
Почему это работает
Проблема: ИИ генерирует текст, предсказывая следующий токен — он не проверяет логику, не сверяет цифры с источником. Если документ содержит противоречие — модель берёт то, что встретила первым, или то, что статистически правдоподобнее. Это не баг, это фундаментальная механика.
Что ИИ умеет хорошо: следовать явным инструкциям, работать по заданному формату, генерировать структурированный текст по шаблону. Если ты заранее задал правила — модель их держит. Если правил нет — она действует по наиболее вероятному паттерну.
Как это использовать: Рубрик самооценки работает потому что переключает модель в режим критика: вместо генерации нового текста она применяет конкретные критерии к уже готовому. Когнитивная ловушка работает потому что делает проверку явной задачей — а не подразумеваемой. ИИ не «проверяет по умолчанию» — он проверяет, если ты попросил.
Рычаги управления: - Добавь «укажи уровень уверенности 1-5» → увидишь где модель сомневается - Попроси указать источник для каждой цифры → поймаешь fabrication (придуманные данные) - Сделай ловушку точнее: «в одном числе стоит не тот год» или «одна статья в сноске противоречит телу» → проверяешь конкретный тип ошибки
Шаблон промпта
Рубрик самооценки:
Оцени свой предыдущий ответ по 5 критериям (шкала 0-3):
1. **Точность данных** — всё верно, ничего не придумано?
2. **Качество логики** — рассуждение без пробелов?
3. **Попадание в задачу** — ответил именно на {вопрос пользователя}?
4. **Точность расчётов/структуры** — выполнено без ошибок?
5. **Готовность к использованию** — результат полный и пригодный?
Формат: таблица 5 строк — критерий | балл | одна фраза пояснения.
В конце: по какому критерию ты наименее уверен?
Когнитивная ловушка:
Проанализируй {документ/данные} ниже.
Предупреждение: в материале есть {тип ошибки —
например: «противоречие между таблицей и сноской»
или «несоответствие единиц измерения»}.
Найди его явно ДО начала анализа.
Если не нашёл — так и напиши.
{документ}
Плейсхолдеры:
- {вопрос пользователя} — твой исходный запрос
- {документ/данные} — что анализируешь
- {тип ошибки} — что именно ищем (или напиши абстрактно «противоречие или несоответствие»)
🚀 Быстрый старт — вставь в чат:
Вот шаблоны DRA-рубрика и когнитивной ловушки.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой тип документа ты анализируешь и какой ошибки опасаешься — потому что тип ловушки зависит от характера материала (числа, логика, структура).
Ограничения
⚠️ Малая выборка: 42 задачи — это мало для генерализации. Авторы сами предупреждают и готовят вторую версию с бо́льшим числом примеров.
⚠️ Узкий домен: Все задачи из управленческого консалтинга. Паттерны ошибок могут отличаться в других областях — юридических текстах, медицинских данных, коде.
⚠️ Самооценка не идеальна: Рубрик самооценки показывает, как модель думает о своём ответе — но не гарантирует объективность. Fabrication (придуманные данные) модель может не заметить сама.
⚠️ Агентские версии ≠ обычный чат: Исследовали специальные «deep research» режимы с веб-поиском, не стандартный чат. Численные показатели (9-21% acceptance) — про агентов, не про ChatGPT Plus.
Как исследовали
Команда из Deccan AI собрала 42 задачи уровня настоящего управленческого консалтинга — каждая с несколькими файлами (CSV, PDF, XLSX, PPTX), встроенными ловушками и детальным рубриком оценки. Важный момент: задачи писали и оценивали живые эксперты с опытом в MBB и Big Four, а не другой ИИ — это принципиально, потому что LLM-как-судья имеет известные проблемы с длинными ответами и sycophancy (склонностью хвалить чужие тексты).
Агентов гоняли одновременно через три API: Anthropic Messages API для Claude, OpenAI Responses API для o3, Google Interactions API для Gemini. Каждый из 126 ответов прошёл двойную независимую проверку: бинарные верификаторы (числовые ловушки, структурные требования) и пятикритериальный рубрик от эксперта. Результат неожиданный: o3 лучший по качеству рассуждений, но Claude лучший по выдаче файлов, а Gemini непредсказуем — либо попадает, либо полный ноль. Ни одна модель не прошла даже треть задач. При этом ошибки не случайные — каждая модель делает свои специфические провалы воспроизводимо.
Интересная деталь: задачи специально проектировались с детерминированными ловушками — там, где поверхностный агент возьмёт первое поставное число и сделает ошибку, а внимательный агент прочитает сноску и скорректирует. Оказалось, что модели с хорошим reasoning (o3) лучше справляются с логическими ловушками, но хуже с требованиями к структуре и полноте выходного файла.
Профили ошибок: что делает каждая модель
Это практически применимо прямо сейчас — выбирай модель под задачу осознанно:
| Модель | Сильная сторона | Слабое место |
|---|---|---|
| Claude Opus | Файлы на выходе (90% vs 30% и 10%), структура | Высокий уровень fabrication — придумывает данные уверенно |
| o3-deep-research | Чистота логики, лучший средний балл по reasoning | Пропускает required sections, ошибки в многошаговых расчётах каскадируют |
| Gemini Pro | Лучший ACCEPT rate (21%), выигрывает на CRP и SCP | Биполярный: либо отлично, либо ноль. 41 нулевой критерий против 10 у o3 |
Короткое правило: нужен документ на выходе → Claude. Нужна логика без ошибок → o3. Gemini — рулетка на сложных задачах.
Оригинал из исследования
Пять типов промптов (классификация по когнитивной способности):
CRP — Constrained Research Prompt
Capability: Source discipline
Agent must restrict itself to authorized sources
when tempted by easier external alternatives.
RCP — Relevance Compression Prompt
Capability: Signal extraction
Large noisy corpora where 60–70% of the material is irrelevant.
Agent must locate buried qualifiers, footnotes, or dispersed references.
SCP — Structural Compliance Prompt
Capability: Algorithmic obedience
Multi-layer non-trivial output structure (nested sections, fixed-column
tables, JSON schemas, cross-references). Agent must hold and faithfully
execute a structural specification across a long deliverable.
LDP — Latent Decomposition Prompt
Capability: Problem decomposition
Tasks requiring inference of unlisted variables (intermediate calculations,
latent factors, model components not directly given). Agent must identify
what needs to be computed before the analysis can proceed.
FSP — Failure-Sensitive Prompt
Capability: Precision and exactness
Tasks where small factual or logical errors invalidate the entire output
(a single mis-pulled value cascades to a wrong recommendation).
Контекст: Авторы использовали эту таксономию для разработки задач. Для практики — это чеклист: какой тип задачи ты сейчас ставишь ИИ, и какой провал ожидать.
Адаптации и экстраполяции
1. Типы задач как диагностика промпта
Пять типов из исследования — это не только про оценку ИИ. Это классификатор твоих запросов. Перед тем как писать промпт, спроси себя:
💡 Адаптация для диагностики задачи: - Это CRP (работа только с моими материалами)? → Прямо напиши: «используй только прикреплённый документ, не ищи внешних данных» - Это RCP (важное спрятано в шуме)? → Добавь: «найди все qualifiers и сноски, которые меняют основный вывод» - Это FSP (одна ошибка всё рушит)? → Добавь: «проверь каждую цифру, укажи источник»
2. Когнитивная ловушка для редактуры
🔧 Техника: ловушка на редактуру текста → проверка внимательности
Если просишь ИИ отредактировать твой текст — встрой намеренную опечатку или фактическую ошибку в исходник. Попроси «отредактировать и сохранить фактическую точность». Проверь исправил ли ошибку. Это быстрый тест: модель работает внимательно или просто делает стилистические правки не глядя на смысл.
3. Двухслойная проверка важного документа
💡 Адаптация для критически важных материалов:
Для любого ИИ-вывода с числами или решениями — запроси двухслойную проверку в одном промпте:
Это важное решение. Прежде чем дать финальный ответ: Слой 1 — Фактическая проверка: Перечисли все числа и факты которые использовал. Для каждого: откуда взял? Есть ли в документе что-то, что противоречит этому числу? Слой 2 — Логическая проверка: Есть ли шаг в рассуждении, где ты сделал допущение вместо того чтобы найти конкретный ответ? Только после этих двух слоёв — финальный вывод. Задача: {вопрос} Материал: {документ}
Ресурсы
Название работы: Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps
Авторы: Tanmay Asthana, Aman Saksena, Divyansh Sahu — Deccan AI Research
Датасет: huggingface.co/datasets/deccan-ai/dra-bench
Код: github.com/tanm-ast-deccan/dra-response-gen
