TL;DR
Исследователи использовали шахматы как лабораторию для разделения двух типов интеллекта LLM: запоминание (crystallized) и рассуждение (fluid). Они создали три типа позиций: знакомые из начала партии (встречались >1000 раз в базах игр), похожие (структурно близкие, но отсутствующие в базах), и новые (редкие позиции из середины игры). Шахматы идеальны для этого: первые ходы повторяются миллионы раз, но после 10-го хода большинство позиций уникальны — вероятность встретить их в тренировочных данных стремится к нулю.
Главная находка: Все модели GPT (от 3.5 до 5) показывают резкое падение качества по мере удаления от знакомых позиций. В знакомых дебютах GPT-5 играет лучше случайных ходов. В незнакомых позициях все модели хуже случайности — они чаще нарушают правила и делают грубые ошибки. Centipawn Loss (мера качества хода) в 4.75× выше в похожих позициях и в 7.79× выше в новых по сравнению со знакомыми. Прогресс между поколениями замедляется: улучшение от GPT-3.5 к GPT-4 составило 49.5%, от GPT-4 к GPT-5 — только 16.6%. В новых позициях прогресс почти остановился.
Reasoning modes помогают, но не спасают: GPT-5 с включённым chain-of-thought рассуждением (moderate effort) улучшает результаты на 15-20% в знакомых позициях, но эффект на токен снижается в незнакомых ситуациях. Модель тратит больше токенов, но пропорционального улучшения нет. Это указывает на фундаментальное ограничение: LLM сильны в воспроизведении паттернов, слабы в рассуждениях за пределами тренировочных данных.
Почему это работает (или не работает)
Слабость LLM: Модели обучены на огромных корпусах текста, но это даёт кристаллизованный интеллект — способность вспомнить и воспроизвести. Когда задача выходит за пределы "видел похожее" — начинаются проблемы. В шахматах это проявляется драматически: знакомые дебюты есть в миллионах текстов (книги, разборы, обсуждения), редкие позиции — почти нигде.
Что выявило исследование: Шахматы дали исследователям контролируемый градиент знакомости. Они точно знали, какие позиции часто встречаются (есть в базе >1000 раз), какие похожи (10 случайных ходов от знакомой позиции), какие новые (случайная расстановка фигур по правилам). Это невозможно сделать в обычных бенчмарках — никто не знает точно, что было в тренировочных данных GPT.
Почему не хватает reasoning: Даже с включённым chain-of-thought GPT-5 не может систематически рассуждать в новых ситуациях. Reasoning помогает распаковать знакомые паттерны (разбить задачу на подзадачи, которые модель видела), но не создаёт способность к first-principles thinking. Отсюда эффект убывающей отдачи: в знакомых позициях рассуждение добавляет 20% качества, в новых — едва 5-7%, при этом токенов тратится в 3-5 раз больше.
Практические выводы
1. Стратегия "приближения к знакомому"
Когда даёшь LLM задачу, загружай контекст, который приближает её к тренировочным данным:
Вместо:
Придумай стратегию для нового продукта в нише X
Лучше:
Я запускаю [продукт] в нише [X]. Похожие кейсы:
- [Компания A] делала [что-то похожее] и получила [результат]
- [Компания B] пробовала [другой подход] с [итогом]
Используя эти референсы и общие принципы [домена], предложи стратегию
Ты сокращаешь дистанцию от "новая задача" до "комбинация знакомых паттернов". Модель сильна в рекомбинации — дай ей материал для комбинирования.
2. Few-shot примеры для неизвестного
Если задача совсем новая — покажи паттерн через примеры:
Мне нужно [новая задача]. Вот как это работает на примерах:
ПРИМЕР 1:
Вход: [описание]
Выход: [результат]
ПРИМЕР 2:
Вход: [описание]
Выход: [результат]
Теперь примени тот же подход к моему случаю: [твои данные]
Ты создаёшь локальный training set в рамках диалога. Модель сильна в pattern matching — дай ей паттерн.
3. Декомпозиция через знакомые подзадачи
Новая сложная задача = комбинация знакомых простых:
Мне нужно [сложная новая задача]. Разбей на подзадачи,
где каждая подзадача — это что-то стандартное:
1. [Знакомая подзадача 1]
2. [Знакомая подзадача 2]
3. [Знакомая подзадача 3]
Потом покажи как собрать результаты в финальное решение.
Модель решает каждую подзадачу на высоком уровне (знакомая территория), потом собирает.
4. Используй reasoning modes разумно
GPT-5 с reasoning, o1, deep research — это усиление pattern matching, не magic reasoning. Используй для:
✅ Задач на грани знакомого: Сложная комбинация известных элементов — reasoning поможет распаковать
✅ Многошаговой логики: Если каждый шаг знаком, но цепочка длинная — reasoning удержит контекст
❌ Совсем новых доменов: Если модель никогда не видела похожего — reasoning сожжёт токены без результата
5. Проверяй "незнакомость" задачи
Перед сложным запросом спроси себя: - Есть ли в интернете тексты об этом? (Если да — модель видела) - Похоже ли на стандартные кейсы? (Если да — модель применит паттерн) - Требует ли это рассуждений за пределами известного? (Если да — будь осторожен)
Чем дальше от тренировочных данных — тем больше нужно давать контекста, примеров, референсов.
Ограничения
⚠️ Домен-специфичность: Исследование на шахматах. Точные цифры (4.75× хуже, 16.6% прогресс) могут не переноситься на текстовые задачи. Но принцип (падение качества в OOD) подтверждается в других исследованиях (ARC benchmark, reasoning tasks).
⚠️ Data contamination: Исследователи не могли гарантировать, что OOD позиции ВООБЩЕ не встречались в тренировочных данных. Их оценки — верхняя граница истинных способностей. Реальная fluid intelligence может быть ещё слабее.
⚠️ Reasoning modes: Эксперименты с GPT-5 reasoning (minimal/moderate effort). Более агрессивные режимы (o1, deep research) не тестировались. Но тренд убывающей отдачи намекает, что радикального улучшения ждать не стоит.
⚠️ Только GPT family: Gemini, Claude, другие модели могут показать другие результаты. Но архитектурно все transformer-based LLM работают схожим образом — находка скорее всего универсальна.
Как исследовали
Команда из Technical University Munich взяла шахматы как контролируемую лабораторию интеллекта. Идея проста: шахматные позиции из начала игры встречаются миллионы раз (в книгах, разборах, статьях) — это crystallized knowledge. Позиции из середины/конца игры настолько разнообразны (10^120 возможных партий), что вероятность встретить конкретную в тренировочных данных стремится к нулю — это требует fluid reasoning.
Исследователи создали три набора по 500 позиций каждый: 1. Within-distribution (WD): Взяли из базы Lichess Masters (2.7 млн партий мастеров с 1952 года) позиции, встречавшиеся >1000 раз. Это популярные дебюты — точно были в тренировочных данных. 2. Near-distribution (ND): Сгенерировали, сделав 10 случайных легальных ходов от начальной позиции, убрали те, что нашлись в базе. Структурно похожи на знакомые (материал сбалансирован, фигуры развиты), но отсутствуют в базах. 3. Out-of-distribution (OOD): Случайно расставили по 10 фигур каждой стороны на доску (с соблюдением правил). Типичные позиции середины игры — крайне маловероятно, что модель видела.
Протестировали три поколения GPT (3.5, 4o, 5) и две настройки reasoning для GPT-5 (minimal/moderate effort). Каждой модели дали одинаковый промпт с позицией в FEN-нотации, попросили лучший ход. Оценивали через Stockfish 17.1 (топовый движок) на глубине 30 — он вычислял Centipawn Loss (CPL): сколько "стоимости позиции" потеряно ходом. CPL < 10 = отличный ход, 10-50 = неточность, 50-100 = ошибка, 100+ = грубый просчёт. Нелегальный ход = автоматически CPL 1000 (мгновенное поражение).
Что удивило: Прогресс между поколениями резко замедляется для незнакомых задач. От GPT-3.5 к GPT-4 улучшение на 49.5%, от GPT-4 к GPT-5 — только 16.6%. В OOD позициях кривая прогресса почти плоская. Ещё более показательно: reasoning modes дают убывающую отдачу. В WD позициях moderate effort улучшает CPL на ~20%, в OOD — на ~7%, при этом тратя в 3-5 раз больше токенов. Это говорит о том, что scaling (больше параметров, больше compute) не решает проблему OOD generalization — архитектурный лимит.
Экстраполируя тренды, исследователи показали: если прогресс продолжится линейно, потребуется 8-10 поколений моделей, чтобы достичь производительности специализированного шахматного движка на незнакомых позициях. Но учитывая замедление — реальная цифра может быть выше или потребуется архитектурный прорыв.
Инсайт для практики: LLM = мощные pattern matchers, слабые first-principles reasoners. Твоя стратегия — приближать задачу к знакомым паттернам через контекст, примеры, аналогии. Не жди, что модель "додумает" в совершенно новом домене.
Ресурсы
Trapped in the past? Disentangling fluid and crystallized intelligence of large language models using chess
Lichess Masters Database — база из 2.7 млн партий мастеров, использованная для оценки WD позиций
Stockfish Chess Engine — движок для оценки качества ходов
Leonard S. Pleiss, Maximilian Schiffer, Robert K. von Weizsäcker — Technical University Munich
