3,583 papers
arXiv:2601.11866 74 17 янв. 2026 г. FREE

Reasoning-модели против эффекта Einstellung: когнитивная гибкость в сложных решениях

КЛЮЧЕВАЯ СУТЬ
Парадокс: Топовые reasoning-модели (o1, Claude Opus extended thinking, Gemini 2.5 Pro) научились избегать когнитивные ловушки лучше экспертов-людей. Исследование показало: на медицинских кейсах, где большинство врачей ошиблись, модели давали правильный ответ в 55-70% случаев против 36% у людей. Это решает проблему эффекта Einstellung (когнитивной ловушки): когда знакомая подсказка запускает шаблонное решение, даже если контекст делает его неправильным. Пример: пациент на антикоагулянтах + симптом → врач думает "кровоизлияние в мозг". НО если в описании есть "анэнцефалия" (нет мозга) — кровоизлияния физически невозможно. Reasoning-модели применяют явные цепочки проверки: увидели подсказку → активировали типичный паттерн → проверили контекст → нашли противоречие → отклонили шаблон. Результат: Claude 4.1 Opus 75% точности vs 66% у врачей на бенчмарке из 100 ловушек.
Адаптировать под запрос

TL;DR

Reasoning-модели (o1, Claude Opus, Gemini 2.5 Pro, Grok-4-Fast-Reasoning) достигли человеческого уровня в задачах, требующих когнитивной гибкости — способности отказаться от очевидного шаблонного решения, когда контекст делает его неправильным. Лучшая модель (Claude 4.1 Opus) показала 75% точности против 66% у врачей на бенчмарке mARC — медицинских кейсах, специально сконструированных как ловушки для автоматического мышления.

Эффект Einstellung (от нем. "установка") — когнитивная ловушка, когда знакомая подсказка запускает стандартную реакцию, даже если она неприменима. Пример: пациент на антикоагулянтах + симптом → врач думает "кровоизлияние в мозг, нужен КТ". НО если в описании есть "анэнцефалия" (отсутствие мозга) — кровоизлияния быть не может физически. Правильный ответ: "собрать больше данных", а не следовать шаблону. Старые модели попадались в эту ловушку, reasoning-модели — нет.

На вопросах, где большинство врачей ошиблись (20 из 100), топовые модели отвечали правильно в 55-70% случаев с высокой уверенностью. Это значит модели могут избегать человеческих когнитивных ловушек там, где люди наиболее уязвимы.


📌

Схема исследования

Не метод промптинга, а анализ способностей моделей:

Тест mARC (100 медицинских кейсов)
└── Каждый кейс = ловушка Einstellung:
    ├── Подсказка (C): знакомый триггер (антикоагулянты)
    ├── Блокер (B): факт, делающий шаблон невозможным (нет мозга)
    └── Два варианта ответа:
        ├── Ловушка: следовать шаблону (КТ головы)
        └── Верно: признать недостаток информации (собрать данные)

Сравнение:
- Reasoning-модели (o1, Claude Opus, Gemini 2.5 Pro...)
- Базовые модели (GPT-4o, Claude Sonnet...)
- 5 врачей (педиатр, терапевт, невролог)

15 прогонов на модель с небольшими вариациями (возраст пациента ±10 дней), чтобы оценить стабильность и уверенность.


📌

Главная находка

Reasoning-модели когнитивно гибче базовых и сравнимы с людьми:

  • Claude 4.1 Opus: 75% точности [74-76%]
  • Врачи: 66% [55-75%]
  • GPT-4o (базовая): значительно хуже

На "человеческих провалах" модели сильнее людей: - 20 вопросов, где ≥3 из 5 врачей ошиблись - Врачи: 36% точности на этих вопросах - Claude 4.1 Opus: 55% уверенно правильных ответов (с высокой confidence) - Grok-4-Fast-Reasoning: до 70% на этом подмножестве

Что это значит: Модели научились не идти по пути наименьшего сопротивления, когда контекст требует остановиться и переосмыслить.


📌

Пример из исследования

📌

Кейс 1: Измерение давления на лбу

Ситуация: У новорождённого отёк конечностей, невозможно измерить АД на руках/ногах. Врач измерил на лбу: 60/40. Ребёнок активный, хорошо ест, цвет кожи нормальный.

Ловушка Einstellung: "Низкое АД → нужна неотложная помощь" (шаблонная реакция).

Блокер: АД на лбу технически невалидно — там нет крупной артерии для точного измерения.

Ответы: - ❌ o1 (слабая reasoning): "Перемерить АД на лбу" (не распознал бессмысленность метода) - ✅ GPT-5.1 (сильная reasoning): "Недостаточно информации. Измерение на лбу ненадёжно, а клинически ребёнок стабилен. Нужна дополнительная оценка."

📌

Кейс 2: Антикоагулянты + анэнцефалия

Ситуация: Беременная, антикоагулянты. УЗИ показало анэнцефалию плода (отсутствие мозга). Снижена активность плода.

Ловушка: "Антикоагулянты + симптом → кровоизлияние в мозг → КТ головы плода"

Блокер: Анэнцефалия = нет мозга → кровоизлияния в мозг физически невозможно.

Правильный ответ: "Собрать больше клинической информации" (искать другую причину снижения активности).

Reasoning-модели применили логическое ограничение (нет мозга → нет кровоизлияния) вместо шаблона.


🧠

Почему это работает

Слабость базовых LLM: Обучены предсказывать следующий токен по частотным паттернам. Увидели "антикоагулянты" → статистически вероятное продолжение "проверить кровоизлияние". Это статистическая корреляция, не логика.

Сильная сторона reasoning-моделей: Многошаговые цепочки рассуждений (как в o1, Claude extended thinking). Модель явно "проговаривает" шаги: 1. Увидела подсказку (антикоагулянты) 2. Активировала типичный паттерн (кровоизлияние) 3. Проверила контекст (анэнцефалия) 4. Применила дедуктивное ограничение (нет мозга → нет кровоизлияния) 5. Отклонила типичный паттерн 6. Выбрала "собрать больше данных"

Reasoning-модели делают явным то, что у базовых моделей скрыто. Это создаёт точки проверки, где можно отловить противоречие между шаблоном и контекстом.

Аналогия для не-медиков: Представь, что модель видит задачу "запустить стартап в России, нужен быстрый рост". Шаблон: "привлечь венчурное финансирование". Блокер в контексте: "основатель против размывания доли, хочет сохранить контроль". Базовая модель выдаст шаблонное "ищи инвесторов". Reasoning-модель распознает конфликт и предложит "бутстрэппинг + альтернативное финансирование (гранты, краудфандинг)".


📌

Применимый принцип

Исследование не даёт готовых промптов, но даёт принцип выбора модели:

📌

Когда использовать reasoning-модели (o1, Claude Opus extended, Gemini 2.5 Pro thinking):

Задачи с потенциальными ловушками: - Медицинская диагностика, юридический анализ, техническая диагностика - Стратегические решения в бизнесе (где "очевидный" путь может быть неправильным) - Оценка рисков и инвестиционные решения - Сложные кейсы с противоречиями в данных

Когда контекст может противоречить общим правилам: - "В нашей отрасли все делают X, но у нас есть условие Y — что делать?" - "Стандартная практика A, но клиент сказал B — как быть?"

Когда нужна явная проверка логики: - Финальное решение с высокой ценой ошибки - Критика собственного первого решения - "Дьявол в деталях" — задачи, где один упущенный факт меняет всё

📌

Как явно активировать гибкое мышление

Даже без специальных reasoning-моделей, можно использовать принцип явной проверки на противоречия:

Промпт-усилитель когнитивной гибкости:

Задача: {описание задачи с контекстом}

Перед ответом выполни проверку на эффект Einstellung:
1. Какое ОЧЕВИДНОЕ решение приходит в голову первым?
2. Есть ли в контексте факты, которые ПРОТИВОРЕЧАТ этому решению?
3. Если есть противоречие — отклони очевидное и найди альтернативу.
4. Если контекста недостаточно — скажи "нужна дополнительная информация".

Думай вслух: покажи ход рассуждений.

Пример применения (российский контекст):

Ты консультируешь российский e-commerce стартап. Основатель жалуется: "продажи упали после смены дизайна сайта".

Без проверки → очевидное решение: "верни старый дизайн".

С проверкой на Einstellung:

Задача: Продажи упали после редизайна сайта интернет-магазина одежды. 
Основатель хочет вернуть старый дизайн.

Контекст:
- Редизайн был 3 недели назад
- Одновременно конкурент запустил агрессивную акцию "-50% на всё"
- Яндекс.Метрика показывает: трафик тот же, но конверсия упала
- В отзывах клиенты пишут "у вас дорого, пошёл к конкурентам"

Перед ответом выполни проверку на эффект Einstellung:
1. Какое ОЧЕВИДНОЕ решение приходит в голову первым?
2. Есть ли в контексте факты, которые ПРОТИВОРЕЧАТ этому решению?
3. Если есть противоречие — отклони очевидное и найди альтернативу.
4. Если контекста недостаточно — скажи "нужна дополнительная информация".

Ожидаемый результат: Модель выявит корреляцию ≠ причинность. Очевидное решение "редизайн убил продажи" опровергается фактом агрессивной акции конкурента в тот же период. Альтернатива: временная ценовая акция или другой конкурентный ответ, а не откат дизайна.


⚠️

Ограничения

⚠️ Не универсальная техника: Это исследование способностей моделей, не метод промптинга. Принцип применим, но требует адаптации под вашу задачу.

⚠️ Требуются топовые модели: Эффект сильно проявляется только у reasoning-моделей последнего поколения (o1, Claude 4.1 Opus extended, Gemini 2.5 Pro thinking). Базовые модели и более слабые reasoning-модели продолжают попадаться в ловушки.

⚠️ Калибровка всё ещё несовершенна: Даже топовые модели могут быть излишне уверены в неправильных ответах. На подмножестве "человеческих провалов" Claude 4.1 Opus была уверенно неправильна в 25% случаев.

⚠️ Медицинская специфика: Все примеры из медицины. Переносимость на другие домены подтверждается логикой (когнитивная гибкость универсальна), но эмпирически не доказана в этом исследовании.

⚠️ Небольшой датасет: 100 вопросов — достаточно для демонстрации эффекта, но статистическая мощность ограничена. Будущие версии mARC обещают расширение.


🔍

Как исследовали

Команда из UCSF и Stanford создала mARC — 100 медицинских кейсов в формате USMLE (как на врачебном экзамене в США), где каждый вопрос — ловушка для автоматического мышления. Логика такая: берём знакомый триггер (антикоагулянты → кровоизлияние), добавляем скрытый блокер (нет мозга), и смотрим — пойдёт ли модель/врач по шаблону или остановится и переосмыслит.

Формализация через логику первого порядка: - База знаний _K_: "Кровоизлияние в мозг → мозг есть" + "Анэнцефалия → мозга нет" - Дедукция: _K_ + "анэнцефалия" → "кровоизлияния быть не может" - Эвристика: "Антикоагулянты" → по умолчанию подозревать кровоизлияние - Конфликт: эвристика vs логическое ограничение

Сравнили 19 моделей (OpenAI, Anthropic, Google, xAI, DeepSeek, Mistral, Meta) и 5 врачей (педиатр, терапевт, невролог) из UCSF Medical Center. По 15 прогонов на каждую модель с микровариациями (возраст пациента менялся на 1-10 дней), чтобы индуцировать стохастичность и оценить стабильность.

Ключевая находка: Разрыв в производительности коррелирует с силой reasoning. Слабые reasoning-модели близки к базовым (плохо). Сильные reasoning-модели (Claude 4.1 Opus, Gemini 2.5-Pro, GPT-5.1) на уровне врачей или лучше.

Почему это убедительно: Использовали Wilson confidence intervals (статистически строже стандартных) и коррекцию Benjamini-Hochberg для множественных сравнений. На подмножестве "человеческих провалов" модели были decisively correct (нижняя граница CI > 50%) в 55-70% случаев, в то время как врачи — в 36%.

Неожиданное: На самых сложных для людей вопросах модели обыгрывают людей. Это говорит не просто о "догнали человека", а о потенциале превзойти человеческие когнитивные ограничения в конкретных типах задач.


🔗

Ресурсы

Advances in LLM Reasoning Enable Flexibility in Clinical Problem-Solving — preprint, January 2025

Датасет mARC и код анализа: github.com/bernardolab/mARC-Reasoning

Авторы: Kie Shidara, Jonathan Kim (Stanford), Feng Liu (Stevens Institute), Ahmed Alaa (UC Berkeley), Danilo Bernardo (UCSF)

Одобрено IRB UCSF (протокол #24-42911)


📋 Дайджест исследования

Ключевая суть

Парадокс: Топовые reasoning-модели (o1, Claude Opus extended thinking, Gemini 2.5 Pro) научились избегать когнитивные ловушки лучше экспертов-людей. Исследование показало: на медицинских кейсах, где большинство врачей ошиблись, модели давали правильный ответ в 55-70% случаев против 36% у людей. Это решает проблему эффекта Einstellung (когнитивной ловушки): когда знакомая подсказка запускает шаблонное решение, даже если контекст делает его неправильным. Пример: пациент на антикоагулянтах + симптом → врач думает "кровоизлияние в мозг". НО если в описании есть "анэнцефалия" (нет мозга) — кровоизлияния физически невозможно. Reasoning-модели применяют явные цепочки проверки: увидели подсказку → активировали типичный паттерн → проверили контекст → нашли противоречие → отклонили шаблон. Результат: Claude 4.1 Opus 75% точности vs 66% у врачей на бенчмарке из 100 ловушек.

Принцип работы

Базовые LLM работают через статистические корреляции — увидели "антикоагулянты" → выдают статистически частое продолжение "проверить кровоизлияние". Это корреляция, не логика. Reasoning-модели делают иначе: многошаговые цепочки рассуждений создают точки проверки, где можно отловить противоречие между шаблоном и контекстом. Модель "проговаривает" шаги: увидела подсказку → активировала паттерн → проверила контекст на противоречия → применила дедуктивное ограничение → отклонила типичный путь → выбрала альтернативу. Это как разница между рефлексом (базовая модель) и обдумыванием (reasoning-модель). Рефлекс быстрый, но слепой к контексту. Обдумывание медленнее, но замечает "стоп, здесь шаблон не работает".

Почему работает

Reasoning-модели выносят наружу то, что у базовых моделей скрыто внутри. Когда модель явно расписывает рассуждения, она вынуждена проверить каждый шаг на логическую связь с контекстом. Прикол: на 20 вопросах, где ≥3 из 5 врачей ошиблись, модели показали 55-70% правильных ответов против 36% у врачей. Это значит модели избегают человеческих когнитивных ловушек там, где эксперты наиболее уязвимы. Почему? Врачи работают под нагрузкой, устают, полагаются на интуицию ("я видел такое 100 раз"). Модель не устаёт и не имеет интуитивных предубеждений — она тупо проходит по цепочке проверок. Если шаг 3 противоречит шагу 5 — модель это увидит.

Когда применять

Задачи с потенциальными ловушками — где "очевидное" решение может быть неправильным из-за деталей контекста: → Медицинская диагностика, юридический анализ, техническая диагностика неисправностей → Стратегические решения в бизнесе: "В нашей отрасли все делают X, но у нас есть условие Y — что делать?" → Оценка рисков и инвестиционные решения (где один упущенный факт меняет всё) → Критика собственного первого решения в задачах с высокой ценой ошибки НЕ подходит для простых задач без противоречий — там базовые модели быстрее и дешевле. Reasoning-модели нужны когда контекст может противоречить общим правилам.

Мини-рецепт

1. Выбери reasoning-модель: o1, Claude Opus с extended thinking, Gemini 2.5 Pro thinking mode, Grok-4-Fast-Reasoning.

2. Задай явную проверку на противоречия (даже если модель не топовая, это усилит эффект):
``
Перед ответом выполни проверку:
1. Какое ОЧЕВИДНОЕ решение приходит в голову первым?
2. Есть ли в контексте факты, которые ПРОТИВОРЕЧАТ этому решению?
3. Если есть противоречие — отклони очевидное, найди альтернативу
4. Если контекста недостаточно — скажи "нужна дополнительная информация"

Думай вслух: покажи ход рассуждений.
``

3. Дай полный контекст с потенциальными блокерами: Не скрывай детали которые могут опровергнуть шаблонное решение — модель должна их увидеть.

4. Проверь логику рассуждений: Reasoning-модели показывают цепочку мыслей — читай её, ищи пропущенные противоречия.

Примеры

[ПЛОХО] : Клиент жалуется что продажи упали после редизайна сайта. Что делать? (Модель выдаст шаблон "верни старый дизайн", не проверив контекст)
[ХОРОШО] : Продажи упали после редизайна сайта интернет-магазина одежды 3 недели назад. Одновременно конкурент запустил акцию "-50% на всё". Яндекс.Метрика: трафик тот же, конверсия упала. Отзывы: "у вас дорого, пошёл к конкурентам". Перед решением: 1. Какое очевидное решение? (откатить дизайн) 2. Есть ли факты противоречащие этому? (акция конкурента в тот же период) 3. Если да — найди альтернативу Думай вслух. (Модель выявит: корреляция ≠ причинность. Редизайн совпал с агрессивной акцией конкурента — это более вероятная причина. Альтернатива: временная ценовая акция, не откат дизайна)
Источник: Advances in LLM Reasoning Enable Flexibility in Clinical Problem-Solving (2601.11866)
ArXiv ID: 2601.11866 | Сгенерировано: 2026-01-21 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Базовая модель идёт по шаблону даже когда контекст его запрещаетМодель видит знакомую подсказку. Активирует статистически частый паттерн. Выдаёт типичное решение. НО в контексте есть факт который делает это решение невозможным или бессмысленным. Модель игнорирует этот факт. Пример: "клиент на антикоагулянтах + симптом" модель выдаёт "проверить кровотечение". Но в контексте написано "нет органа где может быть кровотечение" — модель пропускает это противоречие. Это эффект Einstellung: шаблон сильнее логикиИспользуй reasoning-модель (o1, Claude Opus extended thinking, Gemini 2.5 Pro thinking) для задач где "очевидный" ответ может быть ловушкой. Или добавь явную проверку: "Назови очевидное решение. Есть ли в контексте факты которые противоречат ему? Если да — отклони очевидное и ищи альтернативу"

Методы

МетодСуть
Явная проверка на противоречиеПеред финальным ответом попроси модель выполнить три шага: (1) Назови очевидное решение — что приходит в голову первым. (2) Найди блокеры — есть ли в контексте факты которые делают это решение невозможным или неправильным. (3) Если есть блокер — отклони очевидное, ищи альтернативу. Если контекста мало — скажи "нужно больше информации". Почему работает: Создаёт точку явной проверки где модель сравнивает статистический паттерн с дедуктивными ограничениями контекста. Разделяет "что часто бывает" и "что возможно здесь". Когда применять: Сложные решения с высокой ценой ошибки. Задачи где есть стандартная практика но могут быть исключения. Диагностика проблем (технические, медицинские, бизнес). Когда не работает: Простые задачи без противоречий. Творческие задачи где нет "правильного" ответа
📖 Простыми словами

Advances inLLMReasoning Enable Flexibility in Clinical Problem-Solving

arXiv: 2601.11866

Современные нейронки наконец-то перестали быть просто продвинутым Т9 и начали по-настоящему «думать» перед тем, как выдать ответ. Суть в том, что старые модели работали на статистических корреляциях: они видели знакомые слова и выдавали самый вероятный ответ из учебника, не вникая в детали. Новые reasoning-модели (вроде o1 или Claude 4.1 Opus) используют когнитивную гибкость. Это значит, что они умеют вовремя нажать на тормоза, заметить в условии странную деталь и отказаться от стандартного шаблона, если он ведет в тупик.

Это как опытный водитель против новичка на навигаторе. Новичок тупо едет по стрелке прямо в разрытую яму, потому что «так показывает карта». Опытный же видит знаки, понимает, что дорога перекрыта, и ищет объезд, даже если это противоречит привычному маршруту. В медицине это критично: когда все симптомы кричат об одной болезни, но одна маленькая деталь делает стандартное лечение смертельным, обычная нейронка «убьет» пациента по шаблону, а модель с рассуждением учует подвох.

В цифрах это выглядит пугающе: на бенчмарке mARC, где собраны медицинские задачи-ловушки, Claude 4.1 Opus выдала 75% точности. Для сравнения, живые врачи на тех же кейсах набрали всего 66%. Модели побеждают за счет того, что у них нет «замыленного глаза» и усталости — они методично проверяют каждый факт через цепочку рассуждений, пока человек по инерции выбирает самый очевидный, но неверный вариант. Формально врач знает базу, но машина лучше справляется с тем, чтобы не попасться в ловушку автоматизма.

Хотя тест проводили на медицине, этот универсальный паттерн применим везде, где цена ошибки высока: в юриспруденции, аудите или сложном кодинге. Это переход от «угадывания» к логическому выводу. Теперь ИИ — это не просто база знаний, а полноценный аналитик, который может спорить с общепринятым мнением, если факты говорят об обратном. Эра шаблонов закончилась, началась эра адаптивного мышления, где модель понимает контекст глубже, чем средний специалист.

Короче: мы перешли черту, где ИИ перестал быть просто справочником и стал умнее человека в вопросах сложного выбора. Если раньше нейронки лажали на нестандартных задачах, то теперь они справляются с ними лучше профи. 75% против 66% — это не просто цифры, это приговор старому подходу к обучению. Либо ты учишься использовать эти инструменты для проверки своих решений, либо твоя интуиция проиграет холодной логике алгоритма.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с