arXiv:2603.02540 74 3 мар. 2026 г. FREE

NeuroCognition: нейропсихологические тесты раскрыли три когнитивных слабости LLM — и как их обойти

КЛЮЧЕВАЯ СУТЬ

Парадокс: главный промпт-совет из каждого туториала — «думай пошагово» — на задачах с выбором вариантов работает наоборот. Не помогает. Вредит. Исследователи прогнали топовые модели через нейропсихологические тесты (те самые, которыми проверяют людей с повреждениями мозга) — и обнаружили три конкретные когнитивные слабости. Метод позволяет компенсировать каждую через изменение структуры промпта, без дообучения и магии. Фишка: на задачах с выбором из вариантов явно запрети размышления — модель перестаёт генерировать «убедительные аргументы за каждый вариант» и даёт прямой ответ. На многошаговых задачах добавляй явный журнал состояния прямо в промпт — две простые инструкции закрывают два самых частых провала LLM.

Адаптировать под запрос

⚡

TL;DR

Исследователи прогнали топовые модели через тесты, которыми психологи проверяют людей с повреждениями мозга: задачи на абстрактное мышление, рабочую память и гибкость. Выяснилось, что модели хорошо переключаются между правилами, но ломаются на отслеживании состояния — когда нужно помнить что уже сделал и систематически исключать варианты.

Главное неожиданное открытие: развёрнутые рассуждения (Chain-of-Thought) на вопросах с вариантами ответов не помогают — они вредят. Модель начинает «придумывать» сложные паттерны там, где есть простой ответ, и уходит в переусложнение. Когда у нескольких моделей отключили расширенные рассуждения — точность на задачах с выбором ответа заметно выросла.

Второй практический вывод: когда модели давали явные заметки о текущем состоянии задачи (что уже открыто, что проверено, какое правило работает) — часть моделей резко улучшила результат. Вынести состояние наружу — в промпт — частично компенсирует слабость рабочей памяти LLM.

🔬

Схема метода

Это не техника, а набор диагностических находок. Каждая — самостоятельный принцип:

НАХОДКА 1: Тип задачи → нужны ли рассуждения?
  Задача с вариантами (выбор из N) → отключи CoT → точность растёт
  Задача открытая (генерация) → оставь рассуждения → эффект нейтральный

НАХОДКА 2: Многошаговая задача с состоянием
  Без внешних заметок → модель забывает что делала → повторяет ошибки
  С явным журналом состояния в промпте → часть моделей резко улучшается

НАХОДКА 3: Модель ищет сложное там, где есть простое
  Попроси сначала проверить простое объяснение → потом сложное
  Не давай «думать широко» — сужай пространство гипотез

НАХОДКА 4: Текст > Изображения всегда
  Если задача допускает текстовый формат — используй текст, не картинки

🚀

Пример применения

Задача: Ты выбираешь подрядчика для редизайна лендинга. У тебя три варианта: студия за 150 000 ₽, фрилансер за 40 000 ₽, знакомый в рассрочку. Хочешь спросить ChatGPT — какой вариант взять на основе твоих критериев.

Промпт (стандартный — плохой вариант):

Помоги выбрать подрядчика. Подумай пошагово, взвесь все за и против, 
порассуждай развёрнуто и скажи кого выбрать из трёх вариантов:
[варианты и критерии]

Промпт (на основе находки — лучший вариант):

Выбери один из трёх вариантов. Не размышляй развёрнуто.
Дай прямой ответ и одну фразу-обоснование.

Мои критерии: [срочность, бюджет, качество].
Варианты: [студия 150 000, фрилансер 40 000, знакомый в рассрочку].

Ответ: [номер варианта] — [одна фраза почему].

Результат: Модель даст прямой ответ без многостраничного «с одной стороны / с другой стороны». Когда выбор структурирован — расширенные рассуждения заставляют модель генерировать аргументы за каждый вариант, что размывает выбор. Прямая инструкция «не размышляй развёрнуто» убирает этот эффект.

🧠

Почему это работает

Слабость LLM: Модель не «думает» в человеческом смысле — она генерирует токены по вероятности. Когда её просят «рассуждать пошагово», она создаёт текст рассуждений, который часто содержит случайные связи и усиливает нерелевантные паттерны. На задачах с чётким пространством выбора это превращается в генерацию лишних «объяснений», которые сами по себе начинают влиять на финальный ответ.

Сильная сторона LLM: Модели хорошо работают с правилами и их переключением — они быстро понимают «теперь действуй по новому правилу» и перестраиваются. Это называется когнитивной гибкостью, и здесь LLM превосходит большинство людей.

Как использовать: На задачах с вариантами — явно ограничивай объём ответа и запрещай развёрнутые рассуждения. На задачах с состоянием (многошаговые переговоры, итеративный редакт, последовательные проверки) — давай модели явный журнал состояния прямо в каждом промпте: что уже сделано, что проверено, какие гипотезы отброшены.

Рычаги управления: - «Не рассуждай» на выборе из вариантов → убирает переусложнение - Явный список уже проверенного в многошаговой задаче → компенсирует слабость рабочей памяти - «Сначала проверь простейшее объяснение» → борется со склонностью к сложным гипотезам

📋

Шаблон промпта

📌

Шаблон 1: Выбор из вариантов — без CoT

Выбери один вариант из {число} предложенных.

Не рассуждай развёрнуто. Дай прямой ответ в формате:
Вариант: {название}
Причина: {одно предложение}

Мои критерии выбора: {критерии через запятую}

Варианты:
1. {вариант_1}
2. {вариант_2}
3. {вариант_3}

Что подставлять: - {критерии} — что важно: срок, цена, риск, качество - {варианты} — конкретные опции с ключевыми параметрами

📌

Шаблон 2: Многошаговая задача — с явным журналом состояния

Ты выполняешь задачу поэтапно. После каждого шага обновляй журнал.

Задача: {описание задачи}

=== ЖУРНАЛ СОСТОЯНИЯ ===
Сделано: {что уже выполнено}
Проверено и отброшено: {что не подошло и почему}
Текущий шаг: {что делаем сейчас}
Осталось: {что ещё предстоит}
========================

Выполни текущий шаг. После — обнови журнал.

Что подставлять: - {задача} — цель всей последовательности - В первом запросе Сделано и Проверено — пустые - В каждом следующем — копируй обновлённый журнал из предыдущего ответа

📌

Шаблон 3: Поиск паттерна — от простого к сложному

Проанализируй {объект анализа}.

Ищи объяснение в таком порядке:
1. Сначала проверь: есть ли простое локальное правило (повтор, чередование, прямая зависимость)?
2. Только если простое не работает — переходи к сложным гипотезам.

Скажи: какое самое простое объяснение подходит?

🚀 Быстрый старт — вставь в чат:

Вот три шаблона для разных задач с LLM. 
Адаптируй нужный под мою ситуацию: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип задачи (выбор, многошаговая или поиск паттерна) и детали — потому что от этого зависит какой шаблон и какие ограничения на рассуждения подходят.

⚠️

Ограничения

⚠️ Отключение рассуждений работает только для задач с чётким выбором: На открытых вопросах (напиши текст, придумай стратегию) эффект нейтральный или отрицательный. Не применяй «думай кратко» к творческим задачам.

⚠️ Журнал состояния помогает неравномерно: У части моделей эффект большой, у части — почти нулевой. Это зависит от конкретной модели, не от техники. Попробуй на своей задаче — если не помогло, проблема может быть структурной.

⚠️ С изображениями техники работают хуже: Все находки о рассуждениях и журнале состояния касаются прежде всего текстовых задач. Если твоя задача завязана на анализ картинок — рассчитывай на худший результат и дублируй ключевую информацию текстом.

⚠️ Подсказки с готовыми паттернами почти не помогают: Если ты скажешь «ищи по правилу X» — это не гарантирует что модель найдёт правило X. Улучшение есть, но статистически незначимое. Не полагайся на «подскажи правило» как на надёжный метод.

🔍

Как исследовали

Команда из KAIST (Южная Корея) взяла три классических нейропсихологических теста — те самые, которыми врачи диагностируют шизофрению, аутизм и повреждения префронтальной коры. Идея была простой: если тест надёжно измеряет конкретную когнитивную функцию у людей — он измерит её и у модели.

Прогнали 10 топовых моделей (GPT-5, Gemini 2.5 Pro, Claude Sonnet 4, Grok 4, o4-Mini и другие) через три типа задач: матрицы с паттернами, поиск «спрятанного токена» с памятью и сортировку карточек по меняющимся правилам. Каждый тест — в двух форматах (текст и изображение) и двух сложностях.

Самый неожиданный результат — отключение расширенных рассуждений дало +17-43% на задачах с выбором ответа. Дело в том, что на ограниченном пространстве вариантов модель с включённым CoT начинает генерировать обоснования для каждого варианта, запутывается в них и чаще выбирает неправильно. Без «думай пошагово» — просто выдаёт ответ по наиболее вероятному паттерну, и это точнее.

Интересный паттерн по ошибкам: модели предпочитают видеть симметрию и глобальные структуры там, где достаточно простого локального правила (вроде XOR или повтора). Это прямое следствие тренировки — в обучающих данных сложные объяснения статистически «правдоподобнее». Исследователи дополнительно подтвердили факторным анализом 156 моделей: у LLM есть «общий интеллектуальный фактор» (как g-фактор у людей), но конкретные когнитивные функции при этом расходятся независимо.

💡

Адаптации и экстраполяции

1. Сделай модель «экстравертом памяти» в длинном диалоге

Самостоятельно давай модели в начале каждого сообщения краткий контекст что уже решено. Особенно актуально для сессий дольше 10 сообщений:

🔧 Техника: явный контекстный якорь в начале каждого запроса
[Контекст диалога: мы выбираем подрядчика для сайта. 
Уже отклонили: студию А (дорого), фрилансера Б (нет кейсов).
Сейчас обсуждаем: фрилансера В.]

Вопрос: ...
Это не «подсказка AI» — это компенсация структурной слабости: модель не «помнит» прошлое, она видит токены в контексте. Дай их явно.

2. Антидот к переусложнению — принцип «бритва Оккама в промпте»

Исследование показало: модели тяготеют к сложным объяснениям. Используй это знание:

Объясни {явление}.

Правило: предложи самое простое объяснение, 
которое соответствует всем фактам.
Если простого не хватает — добавляй сложность минимальными шагами.

3. Для задач с правилами — явно сообщай о смене правила

LLM хорошо переключается между правилами — это её сильная сторона. Используй это структурно:

До этого момента мы работали по правилу: {старое правило}.
Теперь переключаемся: {новое правило}.
Продолжай с учётом нового правила.

🔗

Ресурсы

NeuroCognition Benchmark — github.com/reggans/CognitiveEval

Авторы: Faiz Ghifari Haznitrama, Faeyza Rishad Ardi, Alice Oh — School of Computing, KAIST, Daejeon, Южная Корея

Preprint: март 2026

📋 Дайджест исследования

Ключевая суть

Принцип работы

На задачах с выбором из вариантов — не давай модели «думать вслух». Попросишь рассуждать пошагово — она начнёт генерировать аргументы за каждую опцию. Потом эти аргументы сами влияют на финальный ответ и размывают выбор. Модель не думает — она генерирует убедительный текст. А убедительный текст за каждый вариант звучит примерно одинаково. Результат: «с одной стороны / с другой стороны» вместо ответа. На многошаговых задачах — другая механика. Модель не «помнит» предыдущие шаги. Она видит только то, что написано в контексте прямо сейчас. Поэтому явный список — что сделано, что проверено, что дальше — работает не как костыль, а как единственный способ дать ей рабочую память. Как стикеры на мониторе: не потому что умнее, просто не нужно держать в голове.

Почему работает

LLM хорошо переключается между правилами — тест на гибкость она проходит лучше большинства людей. Но отслеживание состояния — провал. Модель не помнит что делала шаг назад. Она видит только текст контекста. Именно поэтому явный журнал в промпте так работает: ты не улучшаешь память модели — ты просто кладёшь нужное прямо в поле зрения. С «думай пошагово» на задачах выбора — та же механика наоборот: модель создаёт текст рассуждений, и этот текст становится частью контекста. Чем больше она «думает» — тем больше вес случайных аргументов в финальном решении. Ещё один паттерн из исследования: модели склонны искать сложное объяснение там, где есть простое. Если не задать явный порядок «сначала проверь простую гипотезу» — будет уходить в переусложнение.

Когда применять

Задачи с выбором из вариантов (выбрать подрядчика, инструмент, стратегию из N) → явно запрети рассуждения, требуй прямой ответ плюс одна фраза-обоснование. Многошаговые задачи с состоянием (итеративный редакт, последовательные проверки, планирование в несколько этапов) → добавляй явный журнал состояния в каждый промпт. Поиск паттерна или причины аномалии → требуй сначала простейшее объяснение, потом сложное. НЕ подходит для творческих задач с открытым результатом — на генерации текста и брейнсторминге запрет на рассуждения нейтральный или вредный. Также слабо работает когда задача завязана на анализ изображений — все находки касаются прежде всего текста.

Мини-рецепт

1. Определи тип задачи: выбор из вариантов, многошаговая с состоянием, или поиск паттерна — от этого зависит всё остальное. Не применяй одну технику ко всем задачам.
2. Для выбора: добавь строку «Не рассуждай развёрнуто. Дай прямой ответ в формате: Вариант: [название]. Причина: [одно предложение]». Убирает генерацию аргументов за каждую сторону.
3. Для многошаговой: начни с явного журнала состояния прямо в промпте: «Сделано: [...]. Проверено и отброшено: [...]. Текущий шаг: [...]. Осталось: [...]». В каждом следующем запросе копируй обновлённый журнал из предыдущего ответа.
4. Для поиска паттерна: добавь явный порядок — «Сначала проверь самое простое объяснение: повтор, прямая зависимость, очевидная причина. Только если не работает — переходи к сложным гипотезам». Это борется со склонностью модели сразу строить сложные версии.

Примеры

[ПЛОХО] :

Помоги выбрать подрядчика для редизайна. Подумай пошагово, взвесь все за и против и скажи кого лучше взять из трёх вариантов: студия за 150к, фрилансер за 40к, знакомый в рассрочку

[ХОРОШО] :

Выбери один из трёх вариантов. Не рассуждай развёрнуто. Ответ строго в формате — Вариант: [название]. Причина: [одна фраза]. Мои критерии: срок две недели, бюджет до 60к, нужна гарантия правок. Варианты: 1. Студия — 150к, срок три недели. 2. Фрилансер — 40к, срок полторы недели. 3. Знакомый — рассрочка на три месяца, срок неизвестен

Примечание: тот же запрос с «подумай пошагово» генерирует три абзаца аргументов за каждый вариант и заканчивается «зависит от ваших приоритетов». Без рассуждений — прямой выбор с обоснованием.

Источник: A Neuropsychologically Grounded Evaluation of LLM Cognitive Abilities

ArXiv ID: 2603.02540 | Сгенерировано: 2026-03-04 05:23

Проблемы LLM

Проблема	Суть	Как обойти
Цепочка рассуждений мешает при выборе из вариантов	Просишь модель "подумать пошагово" перед выбором. Она генерирует аргументы за каждый вариант. Эти аргументы начинают влиять на финальный ответ. Итог: модель "убеждает себя" в сложном решении там, где есть простое. Проблема для любых задач формата "выбери один из N"	Запрети рассуждения явно. Пиши: "Не рассуждай. Дай ответ в формате: Вариант — одна фраза почему." Это убирает эффект самоубеждения
Модель не помнит что уже делала в многошаговой задаче	В длинной последовательности шагов модель не отслеживает: что проверила, что отбросила, что осталось. Начинает повторять отброшенные варианты. Теряет нить. Это не "забывает контекст" — это структурная слабость отслеживания состояния	Передавай состояние явно в каждый промпт. Добавь блок: "Сделано: … Проверено и отброшено: … Осталось: …" Копируй обновлённый блок из ответа в следующий запрос

Методы

Метод Суть

Запрет рассуждений на выборе из вариантов Добавь в промпт прямой запрет: "Не рассуждай развёрнуто. Ответ: [вариант] — [одна фраза]". Почему работает: Цепочка рассуждений на выборе — это генерация аргументов за каждый вариант. Сами аргументы смещают финальный ответ. Без них модель опирается на прямую оценку, а не на случайный перевес аргументов. Когда да: выбор из 2–10 вариантов с чёткими критериями. Когда нет: открытые задачи — написать текст, придумать стратегию. Там рассуждения помогают

Внешний журнал состояния для многошаговых задач В каждый промпт добавляй блок: === СОСТОЯНИЕ === / Сделано: ... / Отброшено: ... почему / Текущий шаг: ... / Осталось: .... После каждого ответа копируй обновлённый блок в следующий запрос. Почему работает: Рабочая память модели не хранит историю шагов надёжно. Явный текстовый журнал выносит отслеживание наружу — в контекст, который модель точно видит. Когда да: итеративный редакт, отладка, последовательные проверки гипотез, переговоры с несколькими раундами. Когда нет: простые одношаговые задачи — журнал только добавляет шум

Метод	Суть
Запрет рассуждений на выборе из вариантов	Добавь в промпт прямой запрет: "Не рассуждай развёрнуто. Ответ: `[вариант] — [одна фраза]`". Почему работает: Цепочка рассуждений на выборе — это генерация аргументов за каждый вариант. Сами аргументы смещают финальный ответ. Без них модель опирается на прямую оценку, а не на случайный перевес аргументов. Когда да: выбор из 2–10 вариантов с чёткими критериями. Когда нет: открытые задачи — написать текст, придумать стратегию. Там рассуждения помогают
Внешний журнал состояния для многошаговых задач	В каждый промпт добавляй блок: `=== СОСТОЯНИЕ === / Сделано: ... / Отброшено: ... почему / Текущий шаг: ... / Осталось: ...`. После каждого ответа копируй обновлённый блок в следующий запрос. Почему работает: Рабочая память модели не хранит историю шагов надёжно. Явный текстовый журнал выносит отслеживание наружу — в контекст, который модель точно видит. Когда да: итеративный редакт, отладка, последовательные проверки гипотез, переговоры с несколькими раундами. Когда нет: простые одношаговые задачи — журнал только добавляет шум

Тезисы

Тезис	Комментарий
Цепочка рассуждений на выборе из вариантов снижает точность	Когда просишь "думать пошагово" перед выбором, модель не "анализирует" — она генерирует текст с аргументами. Эти аргументы случайно усиливают одни варианты и ослабляют другие. Финальный ответ смещается не к правильному, а к тому за который набралось больше слов. Применяй: На любом выборе из вариантов — явно запрещай рассуждения. Это контринтуитивно, но точность растёт

Тезис

Комментарий

Цепочка рассуждений на выборе из вариантов снижает точность

Когда просишь "думать пошагово" перед выбором, модель не "анализирует" — она генерирует текст с аргументами. Эти аргументы случайно усиливают одни варианты и ослабляют другие. Финальный ответ смещается не к правильному, а к тому за который набралось больше слов. Применяй: На любом выборе из вариантов — явно запрещай рассуждения. Это контринтуитивно, но точность растёт

📖 Простыми словами

A Neuropsychologically Grounded Evaluation ofLLMCognitive Abilities

arXiv: 2603.02540

Суть в том, что современные нейронки — это не «цифровой мозг», а скорее гениальный имитатор, который спотыкается там, где справляется даже пациент с травмой головы. Исследователи прогнали топовые модели через нейропсихологические тесты, которыми обычно проверяют людей с повреждениями лобных долей. Оказалось, что LLM отлично справляются с логическими правилами, но абсолютно беспомощны в отслеживании состояния. Они не умеют держать в уме, что уже сделано, а что нет, из-за чего их «мышление» превращается в бесконечный бег по кругу без понимания прогресса.

Это как если бы ты пытался собрать шкаф из Икеи, имея память как у золотой рыбки. Ты прочитал инструкцию, понял, как вкрутить болт, и даже успешно его вкрутил. Но через секунду ты забыл, что этот болт уже на месте, и начинаешь пытаться вкрутить его снова или переходишь к шагу номер десять, пропустив основу. Формально ты занят делом, но шкаф никогда не будет собран, потому что у тебя нет системного исключения вариантов и понимания общей картины процесса.

Главный провал обнаружили в методах, которые мы привыкли считать спасением: Chain-of-Thought (рассуждай пошагово) и рабочая память. Выяснилось, что когда модель заставляют рассуждать вслух, она начинает верить собственным галлюцинациям. Если в процессе «размышлений» она выдала случайную фигню, эта фигня становится для неё истиной, и весь дальнейший вывод летит в трубу. Модели неплохо переключаются между задачами, но мониторинг прогресса у них на нуле — они просто генерируют текст, который похож на решение, не понимая, достигнута ли цель.

Этот принцип универсален: он объясняет, почему ChatGPT лажает в сложных юридических разборах, планировании маршрутов или написании кода с кучей зависимостей. Тестировали на медицинских тестах, но проблема системного контроля вылезает везде, где нужно не просто выдать красивый ответ, а методично отсекать лишнее. Будь то выбор подрядчика или стратегия маркетинга — если задача требует удержания в памяти пяти условий одновременно, модель начнет путаться в показаниях и выдавать нерелевантные паттерны за глубокую аналитику.

Короче, не надейся, что нейронка сама выстроит сложную стратегию от и до — она обязательно потеряет нить и начнет нести уверенную чушь. LLM — это исполнитель, а не контролер. Тебе нужно самому разбивать задачу на микро-этапы и проверять каждый шаг, иначе ты получишь текст, который выглядит логично, но по факту является полной фигней. Кто понимает этот лимит, тот использует AI как инструмент, остальные — как генератор случайных проблем.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню