3,583 papers
arXiv:2601.16823 74 23 янв. 2026 г. FREE

Fluid vs Crystallized Intelligence: почему LLM слабеют на новых задачах

КЛЮЧЕВАЯ СУТЬ
Парадокс: GPT-5 играет лучше случайности в знакомых шахматных дебютах, хуже случайности в редких позициях — качество падает в 7.79 раз. Шахматы дали контролируемую лабораторию: знакомые позиции (>1000 раз в базах) vs редкие из середины игры (вероятность в тренировочных данных ≈0). Исследование показывает как определить попадает ли твоя задача в слабую зону LLM и вытащить её обратно в знакомую территорию. Фишка: чем дальше задача от тренировочных данных, тем больше контекста нужно давать — reasoning помогает только на грани знакомого, в новых доменах жжёт токены впустую.
Адаптировать под запрос

TL;DR

Исследователи использовали шахматы как лабораторию для разделения двух типов интеллекта LLM: запоминание (crystallized) и рассуждение (fluid). Они создали три типа позиций: знакомые из начала партии (встречались >1000 раз в базах игр), похожие (структурно близкие, но отсутствующие в базах), и новые (редкие позиции из середины игры). Шахматы идеальны для этого: первые ходы повторяются миллионы раз, но после 10-го хода большинство позиций уникальны — вероятность встретить их в тренировочных данных стремится к нулю.

Главная находка: Все модели GPT (от 3.5 до 5) показывают резкое падение качества по мере удаления от знакомых позиций. В знакомых дебютах GPT-5 играет лучше случайных ходов. В незнакомых позициях все модели хуже случайности — они чаще нарушают правила и делают грубые ошибки. Centipawn Loss (мера качества хода) в 4.75× выше в похожих позициях и в 7.79× выше в новых по сравнению со знакомыми. Прогресс между поколениями замедляется: улучшение от GPT-3.5 к GPT-4 составило 49.5%, от GPT-4 к GPT-5 — только 16.6%. В новых позициях прогресс почти остановился.

Reasoning modes помогают, но не спасают: GPT-5 с включённым chain-of-thought рассуждением (moderate effort) улучшает результаты на 15-20% в знакомых позициях, но эффект на токен снижается в незнакомых ситуациях. Модель тратит больше токенов, но пропорционального улучшения нет. Это указывает на фундаментальное ограничение: LLM сильны в воспроизведении паттернов, слабы в рассуждениях за пределами тренировочных данных.

🧠

Почему это работает (или не работает)

Слабость LLM: Модели обучены на огромных корпусах текста, но это даёт кристаллизованный интеллект — способность вспомнить и воспроизвести. Когда задача выходит за пределы "видел похожее" — начинаются проблемы. В шахматах это проявляется драматически: знакомые дебюты есть в миллионах текстов (книги, разборы, обсуждения), редкие позиции — почти нигде.

Что выявило исследование: Шахматы дали исследователям контролируемый градиент знакомости. Они точно знали, какие позиции часто встречаются (есть в базе >1000 раз), какие похожи (10 случайных ходов от знакомой позиции), какие новые (случайная расстановка фигур по правилам). Это невозможно сделать в обычных бенчмарках — никто не знает точно, что было в тренировочных данных GPT.

Почему не хватает reasoning: Даже с включённым chain-of-thought GPT-5 не может систематически рассуждать в новых ситуациях. Reasoning помогает распаковать знакомые паттерны (разбить задачу на подзадачи, которые модель видела), но не создаёт способность к first-principles thinking. Отсюда эффект убывающей отдачи: в знакомых позициях рассуждение добавляет 20% качества, в новых — едва 5-7%, при этом токенов тратится в 3-5 раз больше.

💡

Практические выводы

📌

1. Стратегия "приближения к знакомому"

Когда даёшь LLM задачу, загружай контекст, который приближает её к тренировочным данным:

Вместо:

Придумай стратегию для нового продукта в нише X

Лучше:

Я запускаю [продукт] в нише [X]. Похожие кейсы:
- [Компания A] делала [что-то похожее] и получила [результат]
- [Компания B] пробовала [другой подход] с [итогом]

Используя эти референсы и общие принципы [домена], предложи стратегию

Ты сокращаешь дистанцию от "новая задача" до "комбинация знакомых паттернов". Модель сильна в рекомбинации — дай ей материал для комбинирования.

🚀

2. Few-shot примеры для неизвестного

Если задача совсем новая — покажи паттерн через примеры:

Мне нужно [новая задача]. Вот как это работает на примерах:

ПРИМЕР 1:
Вход: [описание]
Выход: [результат]

ПРИМЕР 2:
Вход: [описание]
Выход: [результат]

Теперь примени тот же подход к моему случаю: [твои данные]

Ты создаёшь локальный training set в рамках диалога. Модель сильна в pattern matching — дай ей паттерн.

📌

3. Декомпозиция через знакомые подзадачи

Новая сложная задача = комбинация знакомых простых:

Мне нужно [сложная новая задача]. Разбей на подзадачи, 
где каждая подзадача — это что-то стандартное:

1. [Знакомая подзадача 1]
2. [Знакомая подзадача 2]
3. [Знакомая подзадача 3]

Потом покажи как собрать результаты в финальное решение.

Модель решает каждую подзадачу на высоком уровне (знакомая территория), потом собирает.

📌

4. Используй reasoning modes разумно

GPT-5 с reasoning, o1, deep research — это усиление pattern matching, не magic reasoning. Используй для:

Задач на грани знакомого: Сложная комбинация известных элементов — reasoning поможет распаковать

Многошаговой логики: Если каждый шаг знаком, но цепочка длинная — reasoning удержит контекст

Совсем новых доменов: Если модель никогда не видела похожего — reasoning сожжёт токены без результата

📌

5. Проверяй "незнакомость" задачи

Перед сложным запросом спроси себя: - Есть ли в интернете тексты об этом? (Если да — модель видела) - Похоже ли на стандартные кейсы? (Если да — модель применит паттерн) - Требует ли это рассуждений за пределами известного? (Если да — будь осторожен)

Чем дальше от тренировочных данных — тем больше нужно давать контекста, примеров, референсов.

⚠️

Ограничения

⚠️ Домен-специфичность: Исследование на шахматах. Точные цифры (4.75× хуже, 16.6% прогресс) могут не переноситься на текстовые задачи. Но принцип (падение качества в OOD) подтверждается в других исследованиях (ARC benchmark, reasoning tasks).

⚠️ Data contamination: Исследователи не могли гарантировать, что OOD позиции ВООБЩЕ не встречались в тренировочных данных. Их оценки — верхняя граница истинных способностей. Реальная fluid intelligence может быть ещё слабее.

⚠️ Reasoning modes: Эксперименты с GPT-5 reasoning (minimal/moderate effort). Более агрессивные режимы (o1, deep research) не тестировались. Но тренд убывающей отдачи намекает, что радикального улучшения ждать не стоит.

⚠️ Только GPT family: Gemini, Claude, другие модели могут показать другие результаты. Но архитектурно все transformer-based LLM работают схожим образом — находка скорее всего универсальна.

🔍

Как исследовали

Команда из Technical University Munich взяла шахматы как контролируемую лабораторию интеллекта. Идея проста: шахматные позиции из начала игры встречаются миллионы раз (в книгах, разборах, статьях) — это crystallized knowledge. Позиции из середины/конца игры настолько разнообразны (10^120 возможных партий), что вероятность встретить конкретную в тренировочных данных стремится к нулю — это требует fluid reasoning.

Исследователи создали три набора по 500 позиций каждый: 1. Within-distribution (WD): Взяли из базы Lichess Masters (2.7 млн партий мастеров с 1952 года) позиции, встречавшиеся >1000 раз. Это популярные дебюты — точно были в тренировочных данных. 2. Near-distribution (ND): Сгенерировали, сделав 10 случайных легальных ходов от начальной позиции, убрали те, что нашлись в базе. Структурно похожи на знакомые (материал сбалансирован, фигуры развиты), но отсутствуют в базах. 3. Out-of-distribution (OOD): Случайно расставили по 10 фигур каждой стороны на доску (с соблюдением правил). Типичные позиции середины игры — крайне маловероятно, что модель видела.

Протестировали три поколения GPT (3.5, 4o, 5) и две настройки reasoning для GPT-5 (minimal/moderate effort). Каждой модели дали одинаковый промпт с позицией в FEN-нотации, попросили лучший ход. Оценивали через Stockfish 17.1 (топовый движок) на глубине 30 — он вычислял Centipawn Loss (CPL): сколько "стоимости позиции" потеряно ходом. CPL < 10 = отличный ход, 10-50 = неточность, 50-100 = ошибка, 100+ = грубый просчёт. Нелегальный ход = автоматически CPL 1000 (мгновенное поражение).

Что удивило: Прогресс между поколениями резко замедляется для незнакомых задач. От GPT-3.5 к GPT-4 улучшение на 49.5%, от GPT-4 к GPT-5 — только 16.6%. В OOD позициях кривая прогресса почти плоская. Ещё более показательно: reasoning modes дают убывающую отдачу. В WD позициях moderate effort улучшает CPL на ~20%, в OOD — на ~7%, при этом тратя в 3-5 раз больше токенов. Это говорит о том, что scaling (больше параметров, больше compute) не решает проблему OOD generalization — архитектурный лимит.

Экстраполируя тренды, исследователи показали: если прогресс продолжится линейно, потребуется 8-10 поколений моделей, чтобы достичь производительности специализированного шахматного движка на незнакомых позициях. Но учитывая замедление — реальная цифра может быть выше или потребуется архитектурный прорыв.

Инсайт для практики: LLM = мощные pattern matchers, слабые first-principles reasoners. Твоя стратегия — приближать задачу к знакомым паттернам через контекст, примеры, аналогии. Не жди, что модель "додумает" в совершенно новом домене.

🔗

Ресурсы

Trapped in the past? Disentangling fluid and crystallized intelligence of large language models using chess

Lichess Masters Database — база из 2.7 млн партий мастеров, использованная для оценки WD позиций

Stockfish Chess Engine — движок для оценки качества ходов

Leonard S. Pleiss, Maximilian Schiffer, Robert K. von Weizsäcker — Technical University Munich


📋 Дайджест исследования

Ключевая суть

Парадокс: GPT-5 играет лучше случайности в знакомых шахматных дебютах, хуже случайности в редких позициях — качество падает в 7.79 раз. Шахматы дали контролируемую лабораторию: знакомые позиции (>1000 раз в базах) vs редкие из середины игры (вероятность в тренировочных данных ≈0). Исследование показывает как определить попадает ли твоя задача в слабую зону LLM и вытащить её обратно в знакомую территорию. Фишка: чем дальше задача от тренировочных данных, тем больше контекста нужно давать — reasoning помогает только на грани знакомого, в новых доменах жжёт токены впустую.

Принцип работы

LLM обучены на огромных текстах — это даёт кристаллизованный интеллект (способность вспомнить и воспроизвести паттерн). Но не даёт текучий интеллект (рассуждение за пределами известного). Когда задача выходит за границы "видел похожее" — модель теряет до 7.79× качества. В шахматах это видно драматически: знакомые дебюты есть в миллионах текстов (книги, разборы, обсуждения). Редкие позиции середины игры — почти нигде. Модель сильна в рекомбинации знакомого, беспомощна в первопринципном мышлении.

Почему работает

Шахматы дали контролируемый градиент знакомости — исследователи точно знали частоту каждой позиции в базах игр. Знакомые (>1000 раз), похожие (<10 раз), новые (никогда). Это невозможно в обычных бенчмарках — никто не знает что было в тренировочных данных GPT. Инсайт: даже с reasoning GPT-5 не может систематически рассуждать в новых ситуациях. Reasoning помогает распаковать знакомые паттерны (разбить на подзадачи которые модель видела), но не создаёт мышление от базовых принципов. Отсюда убывающая отдача: в знакомых позициях +20% качества, в новых едва +5-7% при трате в 3-5 раз больше токенов. Прогресс между поколениями тоже замедлился: GPT-3.5→GPT-4 дал улучшение на 49.5%, GPT-4→GPT-5 только 16.6%. В новых позициях прогресс почти остановился.

Когда применять

Любые задачи с LLM → конкретно для оценки попадает ли задача в слабую зону (далеко от тренировочных данных), особенно когда домен редкий/специфичный или требует рассуждений за пределами стандартных кейсов. НЕ подходит: если задача на 100% знакомая ("напиши email с извинениями", "объясни что такое photosynthesis") — тогда можно без спецподготовки.

Мини-рецепт

1. Оцени знакомость задачи: Есть ли в интернете тексты об этом? Похоже на стандартные кейсы? Чем дальше от известного — тем больше подготовки нужно
2. Загрузи контекст-референсы: Найди похожие примеры/кейсы и дай их в промпт. Ты сокращаешь дистанцию от "новая задача" до "комбинация знакомых паттернов"
3. Разбей на знакомые подзадачи: Сложная новая задача = набор простых знакомых. Модель решит каждую на высоком уровне, потом соберёшь результаты
4. Few-shot (обучение на примерах) если совсем новое: Покажи 2-3 примера "Вход→Выход" прямо в диалоге — создаёшь локальный набор для обучения
5. Reasoning только на грани знакомого: Если каждый шаг знаком но цепочка длинная — reasoning удержит контекст. В новых доменах где модель не видела похожего — жжёт токены без результата

Примеры

[ПЛОХО] : Придумай стратегию для нового продукта в нише X
[ХОРОШО] : Я запускаю [продукт] в нише [X]. Похожие кейсы: [Компания A] делала [это] и получила [результат], [Компания B] пробовала [то] с [итогом]. Используя эти референсы и общие принципы [домена], предложи стратегию — приближаешь задачу к знакомым паттернам, модель рекомбинирует их вместо рассуждений с нуля
Источник: Trapped in the past? Disentangling fluid and crystallized intelligence of large language models using chess
ArXiv ID: 2601.16823 | Сгенерировано: 2026-01-26 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Деградация на незнакомых задачахМодель сильна когда задача похожа на тренировочные данные. Чем дальше от "видел похожее" — тем хуже результат. В знакомых ситуациях работает хорошо. В похожих — в 4-5 раз хуже. В новых — в 7-8 раз хуже и часто нарушает базовые правила. Это проблема для любых задач где нет прямых аналогов в интернете: новые продукты, редкие комбинации, нестандартные доменыСокращай дистанцию до знакомого. Вместо "реши новую задачу X" дай референсы: "вот 2-3 похожих кейса из известных областей, примени тот же принцип к X". Или разбей новую задачу на подзадачи где каждая — стандартная операция. Модель сильна в рекомбинации знакомых паттернов, слабá в first-principles мышлении

Тезисы

ТезисКомментарий
LLM воспроизводят паттерны, не рассуждают от базовых принциповМодель обучена на корпусе текстов — это даёт способность вспомнить и скомбинировать, но не вывести с нуля. Когда задача близка к тренировочным данным — модель применяет знакомый паттерн. Когда задача выходит за границы — качество падает в разы, появляются грубые ошибки. Механика: в архитектуре transformer нет механизма первопринципного рассуждения, есть только pattern matching через attention. Применяй: для новых доменов загружай примеры, кейсы, референсы — создавай "локальный training set" в промпте. Чем дальше задача от интернета — тем больше контекста нужно дать
📖 Простыми словами

Trapped in the past? Disentangling fluid and crystallized intelligence oflargelanguagemodelsusing chess

arXiv: 2601.16823

Нейросети не умеют думать в привычном смысле слова, они просто чертовски хорошо запоминают. Чтобы это доказать, исследователи затащили LLM на шахматное поле. Шахматы здесь — идеальный детектор лжи: первые ходы повторяются в интернете миллионы раз, но уже к середине партии количество комбинаций превышает число атомов во Вселенной. Это позволило разделить интеллект модели на кристаллизованный (тупая зубрежка базы данных) и флюидный (способность соображать в ситуации, которую ты видишь впервые). Если модель выдает гениальный ход в дебюте, это не значит, что она гроссмейстер, — скорее всего, она просто цитирует учебник.

Это как разница между отличником-заучкой и смекалистым троечником. Заучка блестяще отвечает по билету, потому что вызубрил текст до дыр, но стоит чуть изменить условие задачи — и он впадает в ступор. Формально ответ правильный, но понимания процесса ноль. Исследование показало, что современные модели — это те самые отличники: они короли шаблонов, но беспомощны, когда реальность подкидывает им сценарий, которого не было в методичке. Как только позиция на доске становится уникальной, «интеллект» модели начинает сыпаться, обнажая обычный статистический автозаполнитель.

В эксперименте использовали три типа задач: знакомые позиции (встречались в базах чаще 1000 раз), похожие (чуть измененные) и абсолютно новые. Результат предсказуем: на знакомых ходах модели ведут себя как чемпионы мира, но на редких позициях их уровень игры падает ниже плинтуса. Оказалось, что успех нейросетей в сложных задачах — это на 80-90% эффект насмотренности, а не логического вывода. Они не решают шахматную задачу, они пытаются вспомнить, как ее решали другие в похожем контексте.

Этот принцип применим не только к шахматам, но и к кодингу, юриспруденции или медицине. Если ты просишь нейросеть написать стандартный скрипт, она выдаст идеал, потому что видела его миллион раз на GitHub. Но если задача требует нестандартной логики или уникального сочетания условий, модель начнет галлюцинировать. Мы принимаем огромный объем памяти за высокий IQ, хотя на самом деле это просто гигантская шпаргалка, которая заканчивается ровно там, где начинается реальная новизна.

Короче, мы все еще заперты в ловушке данных: LLM — это интеллектуальные зеркала заднего вида, которые прекрасно видят прошлое, но слепнут перед будущим. Главный вывод исследования: не путай эрудицию с умением рассуждать. Пока модель не научится работать с новыми структурами так же уверенно, как с заученными паттернами, она останется лишь очень продвинутым попугаем. Хочешь проверить нейронку на вшивость — убери из задачи все стандартные вводные и посмотри, как она начнет лажать.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с