TL;DR
Reasoning-модели (o1, Claude Opus, Gemini 2.5 Pro, Grok-4-Fast-Reasoning) достигли человеческого уровня в задачах, требующих когнитивной гибкости — способности отказаться от очевидного шаблонного решения, когда контекст делает его неправильным. Лучшая модель (Claude 4.1 Opus) показала 75% точности против 66% у врачей на бенчмарке mARC — медицинских кейсах, специально сконструированных как ловушки для автоматического мышления.
Эффект Einstellung (от нем. "установка") — когнитивная ловушка, когда знакомая подсказка запускает стандартную реакцию, даже если она неприменима. Пример: пациент на антикоагулянтах + симптом → врач думает "кровоизлияние в мозг, нужен КТ". НО если в описании есть "анэнцефалия" (отсутствие мозга) — кровоизлияния быть не может физически. Правильный ответ: "собрать больше данных", а не следовать шаблону. Старые модели попадались в эту ловушку, reasoning-модели — нет.
На вопросах, где большинство врачей ошиблись (20 из 100), топовые модели отвечали правильно в 55-70% случаев с высокой уверенностью. Это значит модели могут избегать человеческих когнитивных ловушек там, где люди наиболее уязвимы.
Схема исследования
Не метод промптинга, а анализ способностей моделей:
Тест mARC (100 медицинских кейсов)
└── Каждый кейс = ловушка Einstellung:
├── Подсказка (C): знакомый триггер (антикоагулянты)
├── Блокер (B): факт, делающий шаблон невозможным (нет мозга)
└── Два варианта ответа:
├── Ловушка: следовать шаблону (КТ головы)
└── Верно: признать недостаток информации (собрать данные)
Сравнение:
- Reasoning-модели (o1, Claude Opus, Gemini 2.5 Pro...)
- Базовые модели (GPT-4o, Claude Sonnet...)
- 5 врачей (педиатр, терапевт, невролог)
15 прогонов на модель с небольшими вариациями (возраст пациента ±10 дней), чтобы оценить стабильность и уверенность.
Главная находка
Reasoning-модели когнитивно гибче базовых и сравнимы с людьми:
- Claude 4.1 Opus: 75% точности [74-76%]
- Врачи: 66% [55-75%]
- GPT-4o (базовая): значительно хуже
На "человеческих провалах" модели сильнее людей: - 20 вопросов, где ≥3 из 5 врачей ошиблись - Врачи: 36% точности на этих вопросах - Claude 4.1 Opus: 55% уверенно правильных ответов (с высокой confidence) - Grok-4-Fast-Reasoning: до 70% на этом подмножестве
Что это значит: Модели научились не идти по пути наименьшего сопротивления, когда контекст требует остановиться и переосмыслить.
Пример из исследования
Кейс 1: Измерение давления на лбу
Ситуация: У новорождённого отёк конечностей, невозможно измерить АД на руках/ногах. Врач измерил на лбу: 60/40. Ребёнок активный, хорошо ест, цвет кожи нормальный.
Ловушка Einstellung: "Низкое АД → нужна неотложная помощь" (шаблонная реакция).
Блокер: АД на лбу технически невалидно — там нет крупной артерии для точного измерения.
Ответы: - ❌ o1 (слабая reasoning): "Перемерить АД на лбу" (не распознал бессмысленность метода) - ✅ GPT-5.1 (сильная reasoning): "Недостаточно информации. Измерение на лбу ненадёжно, а клинически ребёнок стабилен. Нужна дополнительная оценка."
Кейс 2: Антикоагулянты + анэнцефалия
Ситуация: Беременная, антикоагулянты. УЗИ показало анэнцефалию плода (отсутствие мозга). Снижена активность плода.
Ловушка: "Антикоагулянты + симптом → кровоизлияние в мозг → КТ головы плода"
Блокер: Анэнцефалия = нет мозга → кровоизлияния в мозг физически невозможно.
Правильный ответ: "Собрать больше клинической информации" (искать другую причину снижения активности).
Reasoning-модели применили логическое ограничение (нет мозга → нет кровоизлияния) вместо шаблона.
Почему это работает
Слабость базовых LLM: Обучены предсказывать следующий токен по частотным паттернам. Увидели "антикоагулянты" → статистически вероятное продолжение "проверить кровоизлияние". Это статистическая корреляция, не логика.
Сильная сторона reasoning-моделей: Многошаговые цепочки рассуждений (как в o1, Claude extended thinking). Модель явно "проговаривает" шаги: 1. Увидела подсказку (антикоагулянты) 2. Активировала типичный паттерн (кровоизлияние) 3. Проверила контекст (анэнцефалия) 4. Применила дедуктивное ограничение (нет мозга → нет кровоизлияния) 5. Отклонила типичный паттерн 6. Выбрала "собрать больше данных"
Reasoning-модели делают явным то, что у базовых моделей скрыто. Это создаёт точки проверки, где можно отловить противоречие между шаблоном и контекстом.
Аналогия для не-медиков: Представь, что модель видит задачу "запустить стартап в России, нужен быстрый рост". Шаблон: "привлечь венчурное финансирование". Блокер в контексте: "основатель против размывания доли, хочет сохранить контроль". Базовая модель выдаст шаблонное "ищи инвесторов". Reasoning-модель распознает конфликт и предложит "бутстрэппинг + альтернативное финансирование (гранты, краудфандинг)".
Применимый принцип
Исследование не даёт готовых промптов, но даёт принцип выбора модели:
Когда использовать reasoning-модели (o1, Claude Opus extended, Gemini 2.5 Pro thinking):
✅ Задачи с потенциальными ловушками: - Медицинская диагностика, юридический анализ, техническая диагностика - Стратегические решения в бизнесе (где "очевидный" путь может быть неправильным) - Оценка рисков и инвестиционные решения - Сложные кейсы с противоречиями в данных
✅ Когда контекст может противоречить общим правилам: - "В нашей отрасли все делают X, но у нас есть условие Y — что делать?" - "Стандартная практика A, но клиент сказал B — как быть?"
✅ Когда нужна явная проверка логики: - Финальное решение с высокой ценой ошибки - Критика собственного первого решения - "Дьявол в деталях" — задачи, где один упущенный факт меняет всё
Как явно активировать гибкое мышление
Даже без специальных reasoning-моделей, можно использовать принцип явной проверки на противоречия:
Промпт-усилитель когнитивной гибкости:
Задача: {описание задачи с контекстом}
Перед ответом выполни проверку на эффект Einstellung:
1. Какое ОЧЕВИДНОЕ решение приходит в голову первым?
2. Есть ли в контексте факты, которые ПРОТИВОРЕЧАТ этому решению?
3. Если есть противоречие — отклони очевидное и найди альтернативу.
4. Если контекста недостаточно — скажи "нужна дополнительная информация".
Думай вслух: покажи ход рассуждений.
Пример применения (российский контекст):
Ты консультируешь российский e-commerce стартап. Основатель жалуется: "продажи упали после смены дизайна сайта".
Без проверки → очевидное решение: "верни старый дизайн".
С проверкой на Einstellung:
Задача: Продажи упали после редизайна сайта интернет-магазина одежды.
Основатель хочет вернуть старый дизайн.
Контекст:
- Редизайн был 3 недели назад
- Одновременно конкурент запустил агрессивную акцию "-50% на всё"
- Яндекс.Метрика показывает: трафик тот же, но конверсия упала
- В отзывах клиенты пишут "у вас дорого, пошёл к конкурентам"
Перед ответом выполни проверку на эффект Einstellung:
1. Какое ОЧЕВИДНОЕ решение приходит в голову первым?
2. Есть ли в контексте факты, которые ПРОТИВОРЕЧАТ этому решению?
3. Если есть противоречие — отклони очевидное и найди альтернативу.
4. Если контекста недостаточно — скажи "нужна дополнительная информация".
Ожидаемый результат: Модель выявит корреляцию ≠ причинность. Очевидное решение "редизайн убил продажи" опровергается фактом агрессивной акции конкурента в тот же период. Альтернатива: временная ценовая акция или другой конкурентный ответ, а не откат дизайна.
Ограничения
⚠️ Не универсальная техника: Это исследование способностей моделей, не метод промптинга. Принцип применим, но требует адаптации под вашу задачу.
⚠️ Требуются топовые модели: Эффект сильно проявляется только у reasoning-моделей последнего поколения (o1, Claude 4.1 Opus extended, Gemini 2.5 Pro thinking). Базовые модели и более слабые reasoning-модели продолжают попадаться в ловушки.
⚠️ Калибровка всё ещё несовершенна: Даже топовые модели могут быть излишне уверены в неправильных ответах. На подмножестве "человеческих провалов" Claude 4.1 Opus была уверенно неправильна в 25% случаев.
⚠️ Медицинская специфика: Все примеры из медицины. Переносимость на другие домены подтверждается логикой (когнитивная гибкость универсальна), но эмпирически не доказана в этом исследовании.
⚠️ Небольшой датасет: 100 вопросов — достаточно для демонстрации эффекта, но статистическая мощность ограничена. Будущие версии mARC обещают расширение.
Как исследовали
Команда из UCSF и Stanford создала mARC — 100 медицинских кейсов в формате USMLE (как на врачебном экзамене в США), где каждый вопрос — ловушка для автоматического мышления. Логика такая: берём знакомый триггер (антикоагулянты → кровоизлияние), добавляем скрытый блокер (нет мозга), и смотрим — пойдёт ли модель/врач по шаблону или остановится и переосмыслит.
Формализация через логику первого порядка: - База знаний _K_: "Кровоизлияние в мозг → мозг есть" + "Анэнцефалия → мозга нет" - Дедукция: _K_ + "анэнцефалия" → "кровоизлияния быть не может" - Эвристика: "Антикоагулянты" → по умолчанию подозревать кровоизлияние - Конфликт: эвристика vs логическое ограничение
Сравнили 19 моделей (OpenAI, Anthropic, Google, xAI, DeepSeek, Mistral, Meta) и 5 врачей (педиатр, терапевт, невролог) из UCSF Medical Center. По 15 прогонов на каждую модель с микровариациями (возраст пациента менялся на 1-10 дней), чтобы индуцировать стохастичность и оценить стабильность.
Ключевая находка: Разрыв в производительности коррелирует с силой reasoning. Слабые reasoning-модели близки к базовым (плохо). Сильные reasoning-модели (Claude 4.1 Opus, Gemini 2.5-Pro, GPT-5.1) на уровне врачей или лучше.
Почему это убедительно: Использовали Wilson confidence intervals (статистически строже стандартных) и коррекцию Benjamini-Hochberg для множественных сравнений. На подмножестве "человеческих провалов" модели были decisively correct (нижняя граница CI > 50%) в 55-70% случаев, в то время как врачи — в 36%.
Неожиданное: На самых сложных для людей вопросах модели обыгрывают людей. Это говорит не просто о "догнали человека", а о потенциале превзойти человеческие когнитивные ограничения в конкретных типах задач.
Ресурсы
Advances in LLM Reasoning Enable Flexibility in Clinical Problem-Solving — preprint, January 2025
Датасет mARC и код анализа: github.com/bernardolab/mARC-Reasoning
Авторы: Kie Shidara, Jonathan Kim (Stanford), Feng Liu (Stevens Institute), Ahmed Alaa (UC Berkeley), Danilo Bernardo (UCSF)
Одобрено IRB UCSF (протокол #24-42911)
