TL;DR
Исследователи прогнали топовые модели через тесты, которыми психологи проверяют людей с повреждениями мозга: задачи на абстрактное мышление, рабочую память и гибкость. Выяснилось, что модели хорошо переключаются между правилами, но ломаются на отслеживании состояния — когда нужно помнить что уже сделал и систематически исключать варианты.
Главное неожиданное открытие: развёрнутые рассуждения (Chain-of-Thought) на вопросах с вариантами ответов не помогают — они вредят. Модель начинает «придумывать» сложные паттерны там, где есть простой ответ, и уходит в переусложнение. Когда у нескольких моделей отключили расширенные рассуждения — точность на задачах с выбором ответа заметно выросла.
Второй практический вывод: когда модели давали явные заметки о текущем состоянии задачи (что уже открыто, что проверено, какое правило работает) — часть моделей резко улучшила результат. Вынести состояние наружу — в промпт — частично компенсирует слабость рабочей памяти LLM.
Схема метода
Это не техника, а набор диагностических находок. Каждая — самостоятельный принцип:
НАХОДКА 1: Тип задачи → нужны ли рассуждения?
Задача с вариантами (выбор из N) → отключи CoT → точность растёт
Задача открытая (генерация) → оставь рассуждения → эффект нейтральный
НАХОДКА 2: Многошаговая задача с состоянием
Без внешних заметок → модель забывает что делала → повторяет ошибки
С явным журналом состояния в промпте → часть моделей резко улучшается
НАХОДКА 3: Модель ищет сложное там, где есть простое
Попроси сначала проверить простое объяснение → потом сложное
Не давай «думать широко» — сужай пространство гипотез
НАХОДКА 4: Текст > Изображения всегда
Если задача допускает текстовый формат — используй текст, не картинки
Пример применения
Задача: Ты выбираешь подрядчика для редизайна лендинга. У тебя три варианта: студия за 150 000 ₽, фрилансер за 40 000 ₽, знакомый в рассрочку. Хочешь спросить ChatGPT — какой вариант взять на основе твоих критериев.
Промпт (стандартный — плохой вариант):
Помоги выбрать подрядчика. Подумай пошагово, взвесь все за и против,
порассуждай развёрнуто и скажи кого выбрать из трёх вариантов:
[варианты и критерии]
Промпт (на основе находки — лучший вариант):
Выбери один из трёх вариантов. Не размышляй развёрнуто.
Дай прямой ответ и одну фразу-обоснование.
Мои критерии: [срочность, бюджет, качество].
Варианты: [студия 150 000, фрилансер 40 000, знакомый в рассрочку].
Ответ: [номер варианта] — [одна фраза почему].
Результат: Модель даст прямой ответ без многостраничного «с одной стороны / с другой стороны». Когда выбор структурирован — расширенные рассуждения заставляют модель генерировать аргументы за каждый вариант, что размывает выбор. Прямая инструкция «не размышляй развёрнуто» убирает этот эффект.
Почему это работает
Слабость LLM: Модель не «думает» в человеческом смысле — она генерирует токены по вероятности. Когда её просят «рассуждать пошагово», она создаёт текст рассуждений, который часто содержит случайные связи и усиливает нерелевантные паттерны. На задачах с чётким пространством выбора это превращается в генерацию лишних «объяснений», которые сами по себе начинают влиять на финальный ответ.
Сильная сторона LLM: Модели хорошо работают с правилами и их переключением — они быстро понимают «теперь действуй по новому правилу» и перестраиваются. Это называется когнитивной гибкостью, и здесь LLM превосходит большинство людей.
Как использовать: На задачах с вариантами — явно ограничивай объём ответа и запрещай развёрнутые рассуждения. На задачах с состоянием (многошаговые переговоры, итеративный редакт, последовательные проверки) — давай модели явный журнал состояния прямо в каждом промпте: что уже сделано, что проверено, какие гипотезы отброшены.
Рычаги управления: - «Не рассуждай» на выборе из вариантов → убирает переусложнение - Явный список уже проверенного в многошаговой задаче → компенсирует слабость рабочей памяти - «Сначала проверь простейшее объяснение» → борется со склонностью к сложным гипотезам
Шаблон промпта
Шаблон 1: Выбор из вариантов — без CoT
Выбери один вариант из {число} предложенных.
Не рассуждай развёрнуто. Дай прямой ответ в формате:
Вариант: {название}
Причина: {одно предложение}
Мои критерии выбора: {критерии через запятую}
Варианты:
1. {вариант_1}
2. {вариант_2}
3. {вариант_3}
Что подставлять:
- {критерии} — что важно: срок, цена, риск, качество
- {варианты} — конкретные опции с ключевыми параметрами
Шаблон 2: Многошаговая задача — с явным журналом состояния
Ты выполняешь задачу поэтапно. После каждого шага обновляй журнал.
Задача: {описание задачи}
=== ЖУРНАЛ СОСТОЯНИЯ ===
Сделано: {что уже выполнено}
Проверено и отброшено: {что не подошло и почему}
Текущий шаг: {что делаем сейчас}
Осталось: {что ещё предстоит}
========================
Выполни текущий шаг. После — обнови журнал.
Что подставлять:
- {задача} — цель всей последовательности
- В первом запросе Сделано и Проверено — пустые
- В каждом следующем — копируй обновлённый журнал из предыдущего ответа
Шаблон 3: Поиск паттерна — от простого к сложному
Проанализируй {объект анализа}.
Ищи объяснение в таком порядке:
1. Сначала проверь: есть ли простое локальное правило (повтор, чередование, прямая зависимость)?
2. Только если простое не работает — переходи к сложным гипотезам.
Скажи: какое самое простое объяснение подходит?
🚀 Быстрый старт — вставь в чат:
Вот три шаблона для разных задач с LLM.
Адаптируй нужный под мою ситуацию: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про тип задачи (выбор, многошаговая или поиск паттерна) и детали — потому что от этого зависит какой шаблон и какие ограничения на рассуждения подходят.
Ограничения
⚠️ Отключение рассуждений работает только для задач с чётким выбором: На открытых вопросах (напиши текст, придумай стратегию) эффект нейтральный или отрицательный. Не применяй «думай кратко» к творческим задачам.
⚠️ Журнал состояния помогает неравномерно: У части моделей эффект большой, у части — почти нулевой. Это зависит от конкретной модели, не от техники. Попробуй на своей задаче — если не помогло, проблема может быть структурной.
⚠️ С изображениями техники работают хуже: Все находки о рассуждениях и журнале состояния касаются прежде всего текстовых задач. Если твоя задача завязана на анализ картинок — рассчитывай на худший результат и дублируй ключевую информацию текстом.
⚠️ Подсказки с готовыми паттернами почти не помогают: Если ты скажешь «ищи по правилу X» — это не гарантирует что модель найдёт правило X. Улучшение есть, но статистически незначимое. Не полагайся на «подскажи правило» как на надёжный метод.
Как исследовали
Команда из KAIST (Южная Корея) взяла три классических нейропсихологических теста — те самые, которыми врачи диагностируют шизофрению, аутизм и повреждения префронтальной коры. Идея была простой: если тест надёжно измеряет конкретную когнитивную функцию у людей — он измерит её и у модели.
Прогнали 10 топовых моделей (GPT-5, Gemini 2.5 Pro, Claude Sonnet 4, Grok 4, o4-Mini и другие) через три типа задач: матрицы с паттернами, поиск «спрятанного токена» с памятью и сортировку карточек по меняющимся правилам. Каждый тест — в двух форматах (текст и изображение) и двух сложностях.
Самый неожиданный результат — отключение расширенных рассуждений дало +17-43% на задачах с выбором ответа. Дело в том, что на ограниченном пространстве вариантов модель с включённым CoT начинает генерировать обоснования для каждого варианта, запутывается в них и чаще выбирает неправильно. Без «думай пошагово» — просто выдаёт ответ по наиболее вероятному паттерну, и это точнее.
Интересный паттерн по ошибкам: модели предпочитают видеть симметрию и глобальные структуры там, где достаточно простого локального правила (вроде XOR или повтора). Это прямое следствие тренировки — в обучающих данных сложные объяснения статистически «правдоподобнее». Исследователи дополнительно подтвердили факторным анализом 156 моделей: у LLM есть «общий интеллектуальный фактор» (как g-фактор у людей), но конкретные когнитивные функции при этом расходятся независимо.
Адаптации и экстраполяции
1. Сделай модель «экстравертом памяти» в длинном диалоге
Самостоятельно давай модели в начале каждого сообщения краткий контекст что уже решено. Особенно актуально для сессий дольше 10 сообщений:
🔧 Техника: явный контекстный якорь в начале каждого запроса
[Контекст диалога: мы выбираем подрядчика для сайта. Уже отклонили: студию А (дорого), фрилансера Б (нет кейсов). Сейчас обсуждаем: фрилансера В.] Вопрос: ...Это не «подсказка AI» — это компенсация структурной слабости: модель не «помнит» прошлое, она видит токены в контексте. Дай их явно.
2. Антидот к переусложнению — принцип «бритва Оккама в промпте»
Исследование показало: модели тяготеют к сложным объяснениям. Используй это знание:
Объясни {явление}. Правило: предложи самое простое объяснение, которое соответствует всем фактам. Если простого не хватает — добавляй сложность минимальными шагами.
3. Для задач с правилами — явно сообщай о смене правила
LLM хорошо переключается между правилами — это её сильная сторона. Используй это структурно:
До этого момента мы работали по правилу: {старое правило}. Теперь переключаемся: {новое правило}. Продолжай с учётом нового правила.
Ресурсы
NeuroCognition Benchmark — github.com/reggans/CognitiveEval
Авторы: Faiz Ghifari Haznitrama, Faeyza Rishad Ardi, Alice Oh — School of Computing, KAIST, Daejeon, Южная Корея
Preprint: март 2026
