TL;DR
Исследователи проверили, почему не работает обучение пользователей паттернам ошибок LLM — подход, где людям показывают типичные случаи провала модели, чтобы они лучше понимали когда ей доверять. Изучили четырёхшаговый процесс: (1) найти где модель ошибается, (2) автоматически описать паттерны этих ошибок, (3) научить людей этим паттернам, (4) проверить помогло ли. Предыдущая попытка на MMLU с GPT-3.5 показала что после обучения люди не стали точнее работать с моделью — метод признали неэффективным.
Главная находка: проблема не в отсутствии паттернов (они есть — например, GPT-3.5 стабильно ошибается на 37.6% математических задач определённого типа) и не в том что их нельзя найти. Проблема в методе автоматического обнаружения — простой промпт описывает паттерны с точностью 4 из 5, а сложный алгоритм IntegrAI только 3 из 5. Плюс измеряли не то: точность команды человек+AI не показывает научился ли человек распознавать ошибки, потому что он может правильно понять что модель ошибётся, но сам не знать ответа.
Когда заменили метрику на "может ли человек предсказать провал LLM" — обучение сработало. Люди после тренинга стали на 11.7% точнее предсказывать когда GPT-3.5 ошибётся на MMLU (с 48.3% до 60.0%). Вывод: учить паттернам ошибок работает, но нужны (1) точные методы обнаружения паттернов и (2) правильная метрика успеха.
Схема исследования
ЭТАП 1: Группировка данных
↓ Датасет → разделить на правильные/неправильные ответы LLM
↓ Найти группы с частыми ошибками (coverage + error ratio)
ЭТАП 2: Автоматическое описание
↓ Метод генерации → описать паттерны ошибок текстом
↓ Сравнить методы: Direct prompting vs IntegrAI vs Mapper Graphs
ЭТАП 3: Обучение пользователей
↓ Превратить паттерны в рекомендации ("не используй LLM для X")
↓ Тренировать на примерах
ЭТАП 4: Измерение эффекта
↓ Старая метрика: точность команды человек+AI
↓ Новая метрика: точность предсказания ошибок LLM
Ключевые находки
1. Паттерны ошибок существуют
Проверили на MMLU (вопросы по математике и медицине) и MathCAMPS (математика для классов K-8). Группировали задачи по мета-лейблам и считали:
- Coverage — доля ошибок модели, которые попадают в группу
- Error ratio — соотношение неправильных к правильным ответам в группе
Критерий "стоит учить": error ratio ≥ 0.5 (модель ошибается минимум в 1 из 3 случаев).
Результат: - MMLU Math + GPT-3.5: ВСЕ темы имеют error ratio > 0.5, покрывают 100% ошибок - MMLU Health + GPT-3.5: 2 темы, покрывают 36.7% ошибок - MathCAMPS + GPT-3.5: 5 стандартов, покрывают 37.6% ошибок - MathCAMPS + GPT-4o: 1 стандарт, покрывает 11.2% ошибок
Инсайт: Чем слабее модель, тем больше чётких паттернов провала. GPT-3.5 стабильно ошибается на целых категориях задач, GPT-4o — только на узких типах.
2. Простой промпт находит паттерны лучше сложных алгоритмов
Тестировали 4 метода автоматического описания:
Prompting-based: - Direct — дать все неправильные примеры GPT-4o, попросить описать общие свойства - D5 — адаптация метода сравнения текстовых корпусов: контраст между неправильными и правильными
Embedding-based: - IntegrAI — кластеризация эмбеддингов + итеративное уточнение описаний - Mapper Graphs — топологический анализ пространства эмбеддингов + жадное слияние кластеров
Оценка: o3-mini как судья, шкала 1-5 насколько сгенерированное описание совпадает с истинным паттерном.
Результат: - Direct: recall ~4 (Strong Match) — почти точно восстанавливает паттерны - IntegrAI: recall ~3 (Moderate Match) — пропускает ключевые детали - D5: recall 2.4-3.3 — нестабильно - Mapper Graphs: recall 3.0-3.8 — между Direct и IntegrAI
Вывод: Неэффективность в работе Mozannar et al. (2023) может объясняться тем что они использовали IntegrAI — метод который генерирует зашумлённые описания паттернов. Учить людей неточным паттернам бесполезно.
Неожиданность: Больше паттернов ≠ сложнее их найти. Recall не коррелирует с количеством паттернов для обнаружения.
3. Метрика определяет выводы
Старая метрика (Mozannar et al.): Точность команды человек+AI - Человек видит вопрос + предсказание LLM → даёт финальный ответ - Измеряют % правильных финальных ответов - Проблема: Если человек понял что LLM ошибётся, но сам не знает ответа — метрика не покажет что обучение сработало
Новая метрика (это исследование): Точность предсказания провала LLM - Человек видит вопрос (БЕЗ ответа LLM) → предсказывает ошибётся ли модель - Измеряют % правильных предсказаний - Фокус: Научился ли человек распознавать когда модели нельзя доверять, не обязательно решать задачу сам
User study на MMLU + GPT-3.5: - До обучения: 48.3% точность предсказания ошибок - После обучения: 60.0% точность (+11.7 п.п.) - Статистически значимо (p < 0.05)
Интерпретация: Обучение паттернам ошибок работает — люди стали лучше чувствовать когда модель провалится. Но это не видно по team accuracy, потому что человек может правильно избежать использования LLM, но всё равно дать неправильный ответ сам.
Пример применения
⚠️ Ограничение метода: Требует истории ваших задач где LLM ошибалась. Работает для повторяющихся типов задач (аналитика, написание текстов определённого формата, расчёты). Не подходит для разовых вопросов.
Задача: Вы маркетолог, регулярно просите ChatGPT написать посты для Telegram-канала про нейросети. Замечаете что иногда получается отлично, иногда — мимо. Хотите понять когда модель даёт слабый результат, чтобы не тратить время на правки.
Промпт:
Вот 8 постов которые ты написал для моего канала. Я оценил их как "плохие" — пришлось сильно переписывать:
[вставить тексты неудачных постов]
А вот 8 постов которые получились хорошо с первого раза:
[вставить тексты удачных постов]
Проанализируй: что общего у плохих постов? Опиши 2-3 чётких паттерна когда ты делаешь слабый текст. Будь конкретным — не "сложная тема", а например "пост про технические ограничения моделей" или "когда нужен пример из российских реалий".
Результат:
Модель выдаст список паттернов типа: - "Посты про этические дилеммы AI — я даю общие фразы вместо конкретных кейсов" - "Когда нужен пример из российского рынка — подставляю западные компании или выдумываю факты" - "Длинные посты >1200 знаков — теряю фокус к концу, размываю главную мысль"
Вы получаете персональный список когда НЕ доверять первому варианту от ChatGPT в вашем конкретном случае использования.
Почему это работает
Слабость LLM: Модели ошибаются не случайно. Есть типы задач где они стабильно проваливаются — определённые математические концепты, темы где мало данных в обучающей выборке, запросы требующие культурно-специфичных знаний. Но эти паттерны не очевидны пользователю — он видит что модель решает сложные задачи и предполагает что простые тоже решит.
Сильная сторона LLM: Модели отлично находят общие свойства в наборах текстов. Если показать примеры ошибок и попросить описать что у них общего — модель выделит паттерны которые человек мог не заметить (например, "все эти задачи требуют отслеживания нескольких переменных одновременно").
Как метод работает: Две стратегии в зависимости от того насколько систематично вы используете LLM:
Разовый анализ (пример выше): Собрали ~10-20 примеров провалов и успехов → попросили модель описать паттерны → получили чеклист для своего use case
Систематический pipeline (для исследователей/команд):
- Собираете датасет своих задач + оценки качества
- Группируете по характеристикам (тема, формат, длина)
- Считаете error ratio для каждой группы
- Формулируете правила когда не использовать LLM
Рычаги управления:
Порог error ratio: В исследовании использовали 0.5 (ошибка в 1 из 3 случаев). Для критичных задач (медицина, финансы) можно снизить до 0.3 — даже редкие ошибки требуют внимания. Для черновиков можно поднять до 0.7 — допустимы частые правки.
Размер выборки для анализа: Исследование показало что 5-10 паттернов — когнитивный лимит для обучения. Если ваш анализ выдал 15 паттернов — сфокусируйтесь на топ-5 по coverage (покрывают больше ошибок).
Контрастирование: Показывать не только провалы, но и успехи (как в D5 методе). Это помогает модели выделить специфичные свойства ошибок, а не общее "задача сложная".
Шаблон промпта
Для разового анализа своих задач:
Вот примеры задач где ты дал слабый результат:
{список_неудачных_примеров}
А вот примеры где результат был хороший:
{список_удачных_примеров}
Проанализируй различия. Опиши 2-3 конкретных паттерна когда твой результат получается слабым. Каждый паттерн опиши одним предложением с примером.
Формат ответа:
**Паттерн 1:** [описание]
Пример: [конкретный случай из моих примеров]
**Паттерн 2:** ...
Для продвинутого анализа (если есть Chain-of-Thought):
Вот задачи где ты ошибся, с твоими рассуждениями:
{пример_задачи}
Твои рассуждения: {CoT}
Правильный ответ: {answer}
[ещё 5-10 примеров]
Найди общие свойства этих задач. Опиши каждый паттерн через:
1. Тип задачи (тема, формат, особенности)
2. Что идёт не так в рассуждениях (где ломается логика)
3. Почему этот тип сложен для тебя
Плейсхолдеры:
- {список_неудачных_примеров} — 5-15 примеров ваших задач где результат не устроил
- {список_удачных_примеров} — столько же примеров где результат был хорош (для контраста)
- {пример_задачи}, {CoT}, {answer} — для продвинутой версии: задача, рассуждения модели (если просили chain-of-thought), правильный ответ
🚀 Быстрый старт — вставь в чат:
Помоги мне выработать стратегию когда тебе доверять, а когда перепроверять. Вот шаблон для анализа моих задач — адаптируй под мой контекст: [моя область работы]. Задавай вопросы чтобы собрать примеры.
[вставить шаблон выше]
LLM спросит про вашу область работы, типы задач, попросит 3-5 примеров провалов и успехов для старта. Она возьмёт паттерн анализа из шаблона и найдёт закономерности в ваших конкретных кейсах.
Применение принципов
Принцип 1: Учитесь распознавать провалы, не только использовать
Классический подход: Научиться писать хорошие промпты → получать лучшие результаты
Этот принцип: Научиться предсказывать когда модель провалится → избегать использования в этих случаях
Как применить в своей работе:
После месяца использования ChatGPT/Claude для задачи — выделите час на рефлексию: 1. Вспомните 5 случаев когда результат был плох 2. Вспомните 5 случаев когда результат был отличен 3. Попросите модель найти паттерн (шаблон выше) 4. Создайте личный чеклист "когда НЕ использовать"
Пример чеклиста для работы с текстами: - ❌ Тексты про российские законы — модель путает редакции и выдумывает статьи - ❌ Посты требующие свежих новостей после апреля 2023 - ✅ Структурирование сырых мыслей в связный текст - ✅ Адаптация тона под аудиторию (formal ↔ casual)
Принцип 2: Контрастирование усиливает понимание
Инсайт из D5 метода: Показывать не только ошибки, но и успехи — так модель выделяет специфичные свойства провалов.
Применение без кода:
Вместо: "Вот задачи где ты ошибся, что общего?"
Лучше: "Вот пары задач: похожие, но в одной ты ошибся, в другой нет. В чём ключевое различие?"
**Пара 1:**
Ошибка: "Посчитай доходность вклада 500к₽ на 12 месяцев под 16% с капитализацией"
Успех: "Посчитай проценты по вкладу 500к₽ на год под 16% без капитализации"
**Пара 2:**
Ошибка: "Сколько налога заплачу с дохода 2.5 млн на самозанятости если часть дохода от физлиц, часть от ИП?"
Успех: "Сколько налога с дохода 2.5 млн на самозанятости если все клиенты — физлица?"
[3-5 пар]
Что общего у задач где ты ошибаешься? Какая характеристика отличает их от успешных?
Это даёт более точные паттерны: не "расчёты сложны", а "многоступенчатые расчёты где результат одного шага влияет на следующий".
Ограничения
⚠️ Требует истории использования: Метод работает когда вы регулярно даёте LLM однотипные задачи. Нужно 10-20 примеров провалов чтобы найти паттерн. Для разовых вопросов не применим.
⚠️ Субъективная оценка "провала": Что такое "плохой результат" зависит от ваших критериев. Если критерии размыты — паттерны будут шумными. Работает лучше для задач с чёткой оценкой (правильно/неправильно, требует правок/не требует).
⚠️ Не работает для новых типов задач: Паттерны построены на прошлых ошибках. Если вы даёте модели принципиально новую задачу — предсказать провал по историческим паттернам не получится.
⚠️ Паттерны устаревают: Исследование показало что GPT-4o имеет в 5 раз меньше чётких паттернов провала чем GPT-3.5 на том же датасете. При обновлении модели ваши паттерны могут перестать работать — нужен повторный анализ.
⚠️ Когнитивная нагрузка: Исследование показало что пользователи эффективно запоминают 5-10 паттернов. Если анализ выдал 20 — придётся выбрать приоритетные, остальные не будут применяться на практике.
Как исследовали
Команда из University of Utah хотела понять почему AI-integration teaching pipeline (четырёхшаговый процесс обучения людей паттернам ошибок LLM) провалился в работе Mozannar et al. 2023. Тот pipeline не улучшил точность людей работающих с GPT-3.5 на MMLU, и метод признали неэффективным. Авторы проверили три гипотезы о причинах провала.
Гипотеза 1: Паттернов не существует — ошибки слишком разнообразны
Взяли два датасета с готовой разметкой (мета-лейблы): - MMLU — 5 предметов по математике + 2 по медицине (вопросы с multiple choice) - MathCAMPS — 4900 математических задач для классов K-8, размеченных по 49 образовательным стандартам
Использовали существующие предсказания 5 LLM (GPT-4o, GPT-3.5, Claude-3 Sonnet/Opus/Haiku). Сгруппировали задачи по мета-лейблам, посчитали для каждой группы: - Error ratio = неправильные / (неправильные + правильные) в группе - Coverage = ошибки в группе / все ошибки модели
Критерий "стоит учить": error ratio ≥ 0.5 (модель ошибается минимум раз в три попытки).
Результат: Нашли группы отвечающие критерию для всех пар модель-датасет. Например, GPT-3.5 на MathCAMPS имеет 5 стандартов с error ratio > 0.5, покрывающих 37.6% всех ошибок. Вывод: паттерны существуют, проблема не в Stage 1.
Гипотеза 2: Паттерны есть, но автоматические методы их не находят
Сравнили 4 метода генерации описаний паттернов: - Direct prompting — отдать GPT-4o все ошибочные примеры, попросить описать общее - D5 — адаптация метода сравнения корпусов (контраст ошибок vs успехов) - IntegrAI — метод из Mozannar et al.: кластеризация эмбеддингов + итеративное уточнение - Mapper Graphs — топологический анализ эмбеддингов + жадное слияние кластеров
Оценка: o3-mini как судья, шкала 1-5 (насколько описание совпадает с истинным мета-лейблом). Проверили согласованность с человеком: Cohen's kappa 0.838 (quadratic weights) — высокое согласие.
Результат: Direct достигает recall ~4, IntegrAI только ~3. Это объясняет провал Mozannar et al. — их метод генерировал зашумлённые описания. Учить неточным паттернам бесполезно. Вывод: проблема в Stage 2.
Неожиданность: Больше паттернов для обнаружения ≠ сложнее задача. Recall не коррелировал с количеством паттернов.
Гипотеза 3: Метрика измерения неправильная
Провели user study на 40 участниках, MMLU + GPT-3.5. Две метрики: - Human-AI team accuracy (из Mozannar et al.) — человек видит вопрос + предсказание модели, даёт финальный ответ - AI failure prediction accuracy (новая) — человек видит только вопрос, предсказывает ошибётся ли модель
Процедура: 1. Pre-test: 20 вопросов, участник решает + предсказывает провалы LLM (baseline) 2. Training: показывают паттерны ошибок GPT-3.5 + практика на примерах 3. Post-test: те же метрики
Результат: - Team accuracy: изменение незначимо (как у Mozannar et al.) - Failure prediction: +11.7 п.п. (с 48.3% до 60.0%), статистически значимо
Инсайт: Человек может правильно понять что LLM ошибётся, но не знать ответа сам — тогда team accuracy не вырастет, хотя обучение сработало. Новая метрика показывает: люди научились распознавать провалы модели. Вывод: выбор метрики в Stage 4 критичен для интерпретации успеха.
Ресурсы
Teaching People LLM's Errors and Getting it Right
Nathan Stringham, Fateme Hashemi Chaleshtori, Xinyuan Yan, Zhichao Xu, Bei Wang, Ana Marasović
University of Utah, 2025
Связанные работы упомянутые в исследовании: - Mozannar et al. (2023) — оригинальная работа про AI-integration teaching pipeline - Zhong et al. (2023) — метод D5 для сравнения текстовых корпусов - MMLU benchmark (Hendrycks et al., 2021) - MathCAMPS dataset (Mishra et al., 2024)
