3,583 papers
arXiv:2603.02540 74 3 мар. 2026 г. FREE

NeuroCognition: нейропсихологические тесты раскрыли три когнитивных слабости LLM — и как их обойти

КЛЮЧЕВАЯ СУТЬ
Парадокс: главный промпт-совет из каждого туториала — «думай пошагово» — на задачах с выбором вариантов работает наоборот. Не помогает. Вредит. Исследователи прогнали топовые модели через нейропсихологические тесты (те самые, которыми проверяют людей с повреждениями мозга) — и обнаружили три конкретные когнитивные слабости. Метод позволяет компенсировать каждую через изменение структуры промпта, без дообучения и магии. Фишка: на задачах с выбором из вариантов явно запрети размышления — модель перестаёт генерировать «убедительные аргументы за каждый вариант» и даёт прямой ответ. На многошаговых задачах добавляй явный журнал состояния прямо в промпт — две простые инструкции закрывают два самых частых провала LLM.
Адаптировать под запрос

TL;DR

Исследователи прогнали топовые модели через тесты, которыми психологи проверяют людей с повреждениями мозга: задачи на абстрактное мышление, рабочую память и гибкость. Выяснилось, что модели хорошо переключаются между правилами, но ломаются на отслеживании состояния — когда нужно помнить что уже сделал и систематически исключать варианты.

Главное неожиданное открытие: развёрнутые рассуждения (Chain-of-Thought) на вопросах с вариантами ответов не помогают — они вредят. Модель начинает «придумывать» сложные паттерны там, где есть простой ответ, и уходит в переусложнение. Когда у нескольких моделей отключили расширенные рассуждения — точность на задачах с выбором ответа заметно выросла.

Второй практический вывод: когда модели давали явные заметки о текущем состоянии задачи (что уже открыто, что проверено, какое правило работает) — часть моделей резко улучшила результат. Вынести состояние наружу — в промпт — частично компенсирует слабость рабочей памяти LLM.


🔬

Схема метода

Это не техника, а набор диагностических находок. Каждая — самостоятельный принцип:

НАХОДКА 1: Тип задачи → нужны ли рассуждения?
  Задача с вариантами (выбор из N) → отключи CoT → точность растёт
  Задача открытая (генерация) → оставь рассуждения → эффект нейтральный

НАХОДКА 2: Многошаговая задача с состоянием
  Без внешних заметок → модель забывает что делала → повторяет ошибки
  С явным журналом состояния в промпте → часть моделей резко улучшается

НАХОДКА 3: Модель ищет сложное там, где есть простое
  Попроси сначала проверить простое объяснение → потом сложное
  Не давай «думать широко» — сужай пространство гипотез

НАХОДКА 4: Текст > Изображения всегда
  Если задача допускает текстовый формат — используй текст, не картинки

🚀

Пример применения

Задача: Ты выбираешь подрядчика для редизайна лендинга. У тебя три варианта: студия за 150 000 ₽, фрилансер за 40 000 ₽, знакомый в рассрочку. Хочешь спросить ChatGPT — какой вариант взять на основе твоих критериев.

Промпт (стандартный — плохой вариант):

Помоги выбрать подрядчика. Подумай пошагово, взвесь все за и против, 
порассуждай развёрнуто и скажи кого выбрать из трёх вариантов:
[варианты и критерии]

Промпт (на основе находки — лучший вариант):

Выбери один из трёх вариантов. Не размышляй развёрнуто.
Дай прямой ответ и одну фразу-обоснование.

Мои критерии: [срочность, бюджет, качество].
Варианты: [студия 150 000, фрилансер 40 000, знакомый в рассрочку].

Ответ: [номер варианта] — [одна фраза почему].

Результат: Модель даст прямой ответ без многостраничного «с одной стороны / с другой стороны». Когда выбор структурирован — расширенные рассуждения заставляют модель генерировать аргументы за каждый вариант, что размывает выбор. Прямая инструкция «не размышляй развёрнуто» убирает этот эффект.


🧠

Почему это работает

Слабость LLM: Модель не «думает» в человеческом смысле — она генерирует токены по вероятности. Когда её просят «рассуждать пошагово», она создаёт текст рассуждений, который часто содержит случайные связи и усиливает нерелевантные паттерны. На задачах с чётким пространством выбора это превращается в генерацию лишних «объяснений», которые сами по себе начинают влиять на финальный ответ.

Сильная сторона LLM: Модели хорошо работают с правилами и их переключением — они быстро понимают «теперь действуй по новому правилу» и перестраиваются. Это называется когнитивной гибкостью, и здесь LLM превосходит большинство людей.

Как использовать: На задачах с вариантами — явно ограничивай объём ответа и запрещай развёрнутые рассуждения. На задачах с состоянием (многошаговые переговоры, итеративный редакт, последовательные проверки) — давай модели явный журнал состояния прямо в каждом промпте: что уже сделано, что проверено, какие гипотезы отброшены.

Рычаги управления: - «Не рассуждай» на выборе из вариантов → убирает переусложнение - Явный список уже проверенного в многошаговой задаче → компенсирует слабость рабочей памяти - «Сначала проверь простейшее объяснение» → борется со склонностью к сложным гипотезам


📋

Шаблон промпта

📌

Шаблон 1: Выбор из вариантов — без CoT

Выбери один вариант из {число} предложенных.

Не рассуждай развёрнуто. Дай прямой ответ в формате:
Вариант: {название}
Причина: {одно предложение}

Мои критерии выбора: {критерии через запятую}

Варианты:
1. {вариант_1}
2. {вариант_2}
3. {вариант_3}

Что подставлять: - {критерии} — что важно: срок, цена, риск, качество - {варианты} — конкретные опции с ключевыми параметрами


📌

Шаблон 2: Многошаговая задача — с явным журналом состояния

Ты выполняешь задачу поэтапно. После каждого шага обновляй журнал.

Задача: {описание задачи}

=== ЖУРНАЛ СОСТОЯНИЯ ===
Сделано: {что уже выполнено}
Проверено и отброшено: {что не подошло и почему}
Текущий шаг: {что делаем сейчас}
Осталось: {что ещё предстоит}
========================

Выполни текущий шаг. После — обнови журнал.

Что подставлять: - {задача} — цель всей последовательности - В первом запросе Сделано и Проверено — пустые - В каждом следующем — копируй обновлённый журнал из предыдущего ответа


📌

Шаблон 3: Поиск паттерна — от простого к сложному

Проанализируй {объект анализа}.

Ищи объяснение в таком порядке:
1. Сначала проверь: есть ли простое локальное правило (повтор, чередование, прямая зависимость)?
2. Только если простое не работает — переходи к сложным гипотезам.

Скажи: какое самое простое объяснение подходит?

🚀 Быстрый старт — вставь в чат:

Вот три шаблона для разных задач с LLM. 
Адаптируй нужный под мою ситуацию: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип задачи (выбор, многошаговая или поиск паттерна) и детали — потому что от этого зависит какой шаблон и какие ограничения на рассуждения подходят.


⚠️

Ограничения

⚠️ Отключение рассуждений работает только для задач с чётким выбором: На открытых вопросах (напиши текст, придумай стратегию) эффект нейтральный или отрицательный. Не применяй «думай кратко» к творческим задачам.

⚠️ Журнал состояния помогает неравномерно: У части моделей эффект большой, у части — почти нулевой. Это зависит от конкретной модели, не от техники. Попробуй на своей задаче — если не помогло, проблема может быть структурной.

⚠️ С изображениями техники работают хуже: Все находки о рассуждениях и журнале состояния касаются прежде всего текстовых задач. Если твоя задача завязана на анализ картинок — рассчитывай на худший результат и дублируй ключевую информацию текстом.

⚠️ Подсказки с готовыми паттернами почти не помогают: Если ты скажешь «ищи по правилу X» — это не гарантирует что модель найдёт правило X. Улучшение есть, но статистически незначимое. Не полагайся на «подскажи правило» как на надёжный метод.


🔍

Как исследовали

Команда из KAIST (Южная Корея) взяла три классических нейропсихологических теста — те самые, которыми врачи диагностируют шизофрению, аутизм и повреждения префронтальной коры. Идея была простой: если тест надёжно измеряет конкретную когнитивную функцию у людей — он измерит её и у модели.

Прогнали 10 топовых моделей (GPT-5, Gemini 2.5 Pro, Claude Sonnet 4, Grok 4, o4-Mini и другие) через три типа задач: матрицы с паттернами, поиск «спрятанного токена» с памятью и сортировку карточек по меняющимся правилам. Каждый тест — в двух форматах (текст и изображение) и двух сложностях.

Самый неожиданный результат — отключение расширенных рассуждений дало +17-43% на задачах с выбором ответа. Дело в том, что на ограниченном пространстве вариантов модель с включённым CoT начинает генерировать обоснования для каждого варианта, запутывается в них и чаще выбирает неправильно. Без «думай пошагово» — просто выдаёт ответ по наиболее вероятному паттерну, и это точнее.

Интересный паттерн по ошибкам: модели предпочитают видеть симметрию и глобальные структуры там, где достаточно простого локального правила (вроде XOR или повтора). Это прямое следствие тренировки — в обучающих данных сложные объяснения статистически «правдоподобнее». Исследователи дополнительно подтвердили факторным анализом 156 моделей: у LLM есть «общий интеллектуальный фактор» (как g-фактор у людей), но конкретные когнитивные функции при этом расходятся независимо.


💡

Адаптации и экстраполяции

1. Сделай модель «экстравертом памяти» в длинном диалоге

Самостоятельно давай модели в начале каждого сообщения краткий контекст что уже решено. Особенно актуально для сессий дольше 10 сообщений:

🔧 Техника: явный контекстный якорь в начале каждого запроса

[Контекст диалога: мы выбираем подрядчика для сайта. 
Уже отклонили: студию А (дорого), фрилансера Б (нет кейсов).
Сейчас обсуждаем: фрилансера В.]

Вопрос: ...

Это не «подсказка AI» — это компенсация структурной слабости: модель не «помнит» прошлое, она видит токены в контексте. Дай их явно.

2. Антидот к переусложнению — принцип «бритва Оккама в промпте»

Исследование показало: модели тяготеют к сложным объяснениям. Используй это знание:

Объясни {явление}.

Правило: предложи самое простое объяснение, 
которое соответствует всем фактам.
Если простого не хватает — добавляй сложность минимальными шагами.

3. Для задач с правилами — явно сообщай о смене правила

LLM хорошо переключается между правилами — это её сильная сторона. Используй это структурно:

До этого момента мы работали по правилу: {старое правило}.
Теперь переключаемся: {новое правило}.
Продолжай с учётом нового правила.

🔗

Ресурсы

NeuroCognition Benchmarkgithub.com/reggans/CognitiveEval

Авторы: Faiz Ghifari Haznitrama, Faeyza Rishad Ardi, Alice Oh — School of Computing, KAIST, Daejeon, Южная Корея

Preprint: март 2026


📋 Дайджест исследования

Ключевая суть

Парадокс: главный промпт-совет из каждого туториала — «думай пошагово» — на задачах с выбором вариантов работает наоборот. Не помогает. Вредит. Исследователи прогнали топовые модели через нейропсихологические тесты (те самые, которыми проверяют людей с повреждениями мозга) — и обнаружили три конкретные когнитивные слабости. Метод позволяет компенсировать каждую через изменение структуры промпта, без дообучения и магии. Фишка: на задачах с выбором из вариантов явно запрети размышления — модель перестаёт генерировать «убедительные аргументы за каждый вариант» и даёт прямой ответ. На многошаговых задачах добавляй явный журнал состояния прямо в промпт — две простые инструкции закрывают два самых частых провала LLM.

Принцип работы

На задачах с выбором из вариантов — не давай модели «думать вслух». Попросишь рассуждать пошагово — она начнёт генерировать аргументы за каждую опцию. Потом эти аргументы сами влияют на финальный ответ и размывают выбор. Модель не думает — она генерирует убедительный текст. А убедительный текст за каждый вариант звучит примерно одинаково. Результат: «с одной стороны / с другой стороны» вместо ответа. На многошаговых задачах — другая механика. Модель не «помнит» предыдущие шаги. Она видит только то, что написано в контексте прямо сейчас. Поэтому явный список — что сделано, что проверено, что дальше — работает не как костыль, а как единственный способ дать ей рабочую память. Как стикеры на мониторе: не потому что умнее, просто не нужно держать в голове.

Почему работает

LLM хорошо переключается между правилами — тест на гибкость она проходит лучше большинства людей. Но отслеживание состояния — провал. Модель не помнит что делала шаг назад. Она видит только текст контекста. Именно поэтому явный журнал в промпте так работает: ты не улучшаешь память модели — ты просто кладёшь нужное прямо в поле зрения. С «думай пошагово» на задачах выбора — та же механика наоборот: модель создаёт текст рассуждений, и этот текст становится частью контекста. Чем больше она «думает» — тем больше вес случайных аргументов в финальном решении. Ещё один паттерн из исследования: модели склонны искать сложное объяснение там, где есть простое. Если не задать явный порядок «сначала проверь простую гипотезу» — будет уходить в переусложнение.

Когда применять

Задачи с выбором из вариантов (выбрать подрядчика, инструмент, стратегию из N) → явно запрети рассуждения, требуй прямой ответ плюс одна фраза-обоснование. Многошаговые задачи с состоянием (итеративный редакт, последовательные проверки, планирование в несколько этапов) → добавляй явный журнал состояния в каждый промпт. Поиск паттерна или причины аномалии → требуй сначала простейшее объяснение, потом сложное. НЕ подходит для творческих задач с открытым результатом — на генерации текста и брейнсторминге запрет на рассуждения нейтральный или вредный. Также слабо работает когда задача завязана на анализ изображений — все находки касаются прежде всего текста.

Мини-рецепт

1. Определи тип задачи: выбор из вариантов, многошаговая с состоянием, или поиск паттерна — от этого зависит всё остальное. Не применяй одну технику ко всем задачам.
2. Для выбора: добавь строку «Не рассуждай развёрнуто. Дай прямой ответ в формате: Вариант: [название]. Причина: [одно предложение]». Убирает генерацию аргументов за каждую сторону.
3. Для многошаговой: начни с явного журнала состояния прямо в промпте: «Сделано: [...]. Проверено и отброшено: [...]. Текущий шаг: [...]. Осталось: [...]». В каждом следующем запросе копируй обновлённый журнал из предыдущего ответа.
4. Для поиска паттерна: добавь явный порядок — «Сначала проверь самое простое объяснение: повтор, прямая зависимость, очевидная причина. Только если не работает — переходи к сложным гипотезам». Это борется со склонностью модели сразу строить сложные версии.

Примеры

[ПЛОХО] : Помоги выбрать подрядчика для редизайна. Подумай пошагово, взвесь все за и против и скажи кого лучше взять из трёх вариантов: студия за 150к, фрилансер за 40к, знакомый в рассрочку
[ХОРОШО] : Выбери один из трёх вариантов. Не рассуждай развёрнуто. Ответ строго в формате — Вариант: [название]. Причина: [одна фраза]. Мои критерии: срок две недели, бюджет до 60к, нужна гарантия правок. Варианты: 1. Студия — 150к, срок три недели. 2. Фрилансер — 40к, срок полторы недели. 3. Знакомый — рассрочка на три месяца, срок неизвестен Примечание: тот же запрос с «подумай пошагово» генерирует три абзаца аргументов за каждый вариант и заканчивается «зависит от ваших приоритетов». Без рассуждений — прямой выбор с обоснованием.
Источник: A Neuropsychologically Grounded Evaluation of LLM Cognitive Abilities
ArXiv ID: 2603.02540 | Сгенерировано: 2026-03-04 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Цепочка рассуждений мешает при выборе из вариантовПросишь модель "подумать пошагово" перед выбором. Она генерирует аргументы за каждый вариант. Эти аргументы начинают влиять на финальный ответ. Итог: модель "убеждает себя" в сложном решении там, где есть простое. Проблема для любых задач формата "выбери один из N"Запрети рассуждения явно. Пиши: "Не рассуждай. Дай ответ в формате: Вариант — одна фраза почему." Это убирает эффект самоубеждения
Модель не помнит что уже делала в многошаговой задачеВ длинной последовательности шагов модель не отслеживает: что проверила, что отбросила, что осталось. Начинает повторять отброшенные варианты. Теряет нить. Это не "забывает контекст" — это структурная слабость отслеживания состоянияПередавай состояние явно в каждый промпт. Добавь блок: "Сделано: … Проверено и отброшено: … Осталось: …" Копируй обновлённый блок из ответа в следующий запрос

Методы

МетодСуть
Запрет рассуждений на выборе из вариантовДобавь в промпт прямой запрет: "Не рассуждай развёрнуто. Ответ: [вариант][одна фраза]". Почему работает: Цепочка рассуждений на выборе — это генерация аргументов за каждый вариант. Сами аргументы смещают финальный ответ. Без них модель опирается на прямую оценку, а не на случайный перевес аргументов. Когда да: выбор из 2–10 вариантов с чёткими критериями. Когда нет: открытые задачи — написать текст, придумать стратегию. Там рассуждения помогают
Внешний журнал состояния для многошаговых задачВ каждый промпт добавляй блок: === СОСТОЯНИЕ === / Сделано: ... / Отброшено: ... почему / Текущий шаг: ... / Осталось: .... После каждого ответа копируй обновлённый блок в следующий запрос. Почему работает: Рабочая память модели не хранит историю шагов надёжно. Явный текстовый журнал выносит отслеживание наружу — в контекст, который модель точно видит. Когда да: итеративный редакт, отладка, последовательные проверки гипотез, переговоры с несколькими раундами. Когда нет: простые одношаговые задачи — журнал только добавляет шум

Тезисы

ТезисКомментарий
Цепочка рассуждений на выборе из вариантов снижает точностьКогда просишь "думать пошагово" перед выбором, модель не "анализирует" — она генерирует текст с аргументами. Эти аргументы случайно усиливают одни варианты и ослабляют другие. Финальный ответ смещается не к правильному, а к тому за который набралось больше слов. Применяй: На любом выборе из вариантов — явно запрещай рассуждения. Это контринтуитивно, но точность растёт
📖 Простыми словами

A Neuropsychologically Grounded Evaluation ofLLMCognitive Abilities

arXiv: 2603.02540

Суть в том, что современные нейронки — это не «цифровой мозг», а скорее гениальный имитатор, который спотыкается там, где справляется даже пациент с травмой головы. Исследователи прогнали топовые модели через нейропсихологические тесты, которыми обычно проверяют людей с повреждениями лобных долей. Оказалось, что LLM отлично справляются с логическими правилами, но абсолютно беспомощны в отслеживании состояния. Они не умеют держать в уме, что уже сделано, а что нет, из-за чего их «мышление» превращается в бесконечный бег по кругу без понимания прогресса.

Это как если бы ты пытался собрать шкаф из Икеи, имея память как у золотой рыбки. Ты прочитал инструкцию, понял, как вкрутить болт, и даже успешно его вкрутил. Но через секунду ты забыл, что этот болт уже на месте, и начинаешь пытаться вкрутить его снова или переходишь к шагу номер десять, пропустив основу. Формально ты занят делом, но шкаф никогда не будет собран, потому что у тебя нет системного исключения вариантов и понимания общей картины процесса.

Главный провал обнаружили в методах, которые мы привыкли считать спасением: Chain-of-Thought (рассуждай пошагово) и рабочая память. Выяснилось, что когда модель заставляют рассуждать вслух, она начинает верить собственным галлюцинациям. Если в процессе «размышлений» она выдала случайную фигню, эта фигня становится для неё истиной, и весь дальнейший вывод летит в трубу. Модели неплохо переключаются между задачами, но мониторинг прогресса у них на нуле — они просто генерируют текст, который похож на решение, не понимая, достигнута ли цель.

Этот принцип универсален: он объясняет, почему ChatGPT лажает в сложных юридических разборах, планировании маршрутов или написании кода с кучей зависимостей. Тестировали на медицинских тестах, но проблема системного контроля вылезает везде, где нужно не просто выдать красивый ответ, а методично отсекать лишнее. Будь то выбор подрядчика или стратегия маркетинга — если задача требует удержания в памяти пяти условий одновременно, модель начнет путаться в показаниях и выдавать нерелевантные паттерны за глубокую аналитику.

Короче, не надейся, что нейронка сама выстроит сложную стратегию от и до — она обязательно потеряет нить и начнет нести уверенную чушь. LLM — это исполнитель, а не контролер. Тебе нужно самому разбивать задачу на микро-этапы и проверять каждый шаг, иначе ты получишь текст, который выглядит логично, но по факту является полной фигней. Кто понимает этот лимит, тот использует AI как инструмент, остальные — как генератор случайных проблем.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с