TL;DR
Модели автоматически переключаются между стратегиями решения задач — от простого перебора к сложному исключению вариантов — когда растёт количество переменных. Исследователи создали Variable Attribution Task (VAT): модель получает набор переменных и экспериментальных результатов, должна найти какая пара переменных определяет исход через логическую функцию (AND, OR, XOR и т.д.). Это как научный эксперимент: есть куча факторов, нужно понять какие два из них влияют на результат.
Модели выбирают разные стратегии в зависимости от "цены" каждой. При 3-4 переменных модель перебирает все пары подряд (простая стратегия, мало нагрузки на "рабочую память"). При 10+ переменных она переходит к исключению — строит список всех возможных пар, потом вычёркивает те, что не подходят под экспериментальные данные. Это требует удержания большого списка гипотез, но при 120+ возможных парах перебор слишком долгий. Никто модель этому не учил — вознаграждение было только за правильный ответ, не за экономию токенов. Адаптация стратегии возникла сама как побочный эффект оптимизации.
Модели ведут себя по-разному на разных логиках. На AND/OR функциях (где один пример сразу отсекает много вариантов) модели охотно переходят на исключение. На XOR/XNOR (где каждый пример почти не сужает поиск) модели остаются на переборе даже при большом числе переменных. DeepSeek R1 (Large Reasoning Model) справляется со всеми функциями одинаково хорошо. DeepSeek V3 (обычная модель с chain-of-thought) проваливается на XOR/XNOR при росте сложности — точность падает почти до нуля.
Почему это работает
LLM плохи в удержании большого числа гипотез одновременно. Когда у модели 16 переменных → 120 возможных пар, ей нужно либо перебрать все (долго), либо держать в контексте список из 120 пар и постепенно его сокращать (тяжело для "рабочей памяти"). Модели автоматически находят баланс.
Модели хороши в генерации длинных последовательных рассуждений. Reasoning tokens (токены размышления) работают как внешний блокнот — модель может записывать промежуточные шаги, частичные выводы, обновлённые списки гипотез. Чем сложнее задача, тем больше токенов генерирует модель. На XOR/XNOR функциях модели генерируют в 1.5-2 раза больше токенов, чем на AND/OR при той же сложности.
Критический инсайт: стратегия зависит не только от размера задачи, но и от структуры данных. AND-функция: один положительный пример отсекает половину гипотез → исключение выгодно. XOR-функция: каждый пример отсекает минимум гипотез → исключение дорого по затратам на удержание списка, а выигрыш маленький. Модели это чувствуют и остаются на переборе.
Принципы для практики
1. Явное указание сложности задачи
Модель адаптирует стратегию автоматически, но ты можешь ускорить это, явно указав масштаб:
Задача: {описание}
Сложность: высокая ({число} переменных, {число} комбинаций)
Стратегия: выбери оптимальную стратегию (перебор или исключение) исходя из соотношения размера пространства гипотез и количества информации. Объясни выбор.
Эффект: модель не будет тратить токены на перебор, если можно быстро сократить пространство гипотез через исключение.
2. Задачи на атрибуцию и поиск причин
Формат VAT можно использовать для реальных задач: найти что влияет на результат.
Примеры применения: - Анализ бизнес-показателей: "Из 10 факторов (цена, креатив, время запуска, канал, аудитория...) найди какие 2 определяют рост конверсии. Вот данные по 15 запускам рекламы." - Отладка процессов: "В команде 8 переменных (время митингов, формат задач, инструменты, состав...). Какие 2 влияют на срыв дедлайнов? Вот история 20 спринтов." - Личные решения: "5 факторов (сон, спорт, кофеин, экранное время, режим питания). Какие 2 определяют моё состояние? Вот дневник за 30 дней."
Промпт:
Из кандидатов {список переменных} определи пару, которая определяет {результат}.
Данные:
{список экспериментов с значениями переменных и исходом}
Покажи рассуждение: какую стратегию используешь (перебор всех пар / исключение несовместимых гипотез), почему, как сокращаешь пространство поиска.
3. Запрос показа стратегии для прозрачности
Когда задача сложная, попроси модель показать стратегию:
Задача: {сложная задача с множеством вариантов}
Перед решением:
1. Оцени размер пространства поиска
2. Выбери стратегию (перебор / исключение / другое)
3. Объясни почему эта стратегия оптимальна
4. Реши задачу, показывая шаги выбранной стратегии
Когда полезно: - Задачи комбинаторного типа (выбор из множества вариантов) - Поиск оптимального решения в ограниченном времени - Отладка логики модели (почему она пришла к такому ответу)
4. Адаптация под тип логики
Если знаешь, что задача имеет структуру AND/OR (где один факт сильно сужает поиск):
Логика: конъюнктивная (достаточно одного противоречия чтобы отбросить гипотезу)
Стратегия: используй исключение — строй полный список гипотез, отсекай по одному противоречащему факту
Если задача XOR-подобная (баланс, парадоксы, нелинейные зависимости):
Логика: нелинейная (каждый факт даёт мало информации для сокращения списка)
Стратегия: последовательная проверка гипотез. Не трать ресурсы на удержание большого списка.
Пример применения
Задача: Ты запускал 12 email-рассылок. Хочешь понять, какие 2 фактора из 5 (день недели, время отправки, длина темы, наличие эмоджи, персонализация) определяют open rate выше 25%.
Промпт:
Из переменных {день_недели, время_отправки, длина_темы, эмоджи, персонализация} найди пару, которая определяет open_rate > 25%.
Данные по рассылкам:
1. Понедельник, 10:00, короткая тема, без эмоджи, с персонализацией → 18%
2. Среда, 14:00, длинная тема, с эмоджи, без персонализации → 31%
3. Пятница, 9:00, короткая тема, с эмоджи, с персонализацией → 29%
[... ещё 9 записей]
Покажи:
1. Размер пространства поиска (сколько возможных пар)
2. Выбранную стратегию (перебор / исключение)
3. Шаги сокращения списка гипотез
4. Финальный вывод с объяснением
Результат (описание): Модель посчитает 10 возможных пар из 5 переменных. Если увидит, что данные позволяют быстро отсекать варианты (например, во всех высоких open rate присутствует персонализация), выберет стратегию исключения — покажет как каждая рассылка отсекает несовместимые пары. Если данные не дают чётких паттернов для быстрого отсечения, останется на переборе — проверит каждую пару на совместимость со всеми 12 рассылками. В финале даст пару переменных с обоснованием.
Ограничения
⚠️ Размер данных: Модель может ошибаться при большом числе переменных (>15) и малом числе экспериментов — недостаточно информации для уверенного вывода, начинает галлюцинировать.
⚠️ Тип логики: На нелинейных зависимостях (XOR-подобных) обычные instruction-tuned модели сильно деградируют. DeepSeek V3 и Qwen3-Instruct падают почти до 0% точности при 12+ переменных. Large Reasoning Models (R1, Qwen3-Thinking) справляются, но нужен доступ к ним.
⚠️ Формат данных: VAT работает с бинарными переменными (0/1, да/нет). Для непрерывных переменных (цена от 100 до 5000 рублей) нужна адаптация — либо дискретизация (разбивка на диапазоны), либо другая логика исключения.
⚠️ Шум в данных: Исследование использовало чистые данные без ошибок. Реальные эксперименты с противоречиями (одинаковые условия → разные результаты) могут сбить модель с толку.
Как исследовали
Команда из Georgia Tech создала Variable Attribution Task и сгенерировала 3000 примеров с 10 типами логических функций (AND, OR, XOR, XNOR и их комбинации). Варьировали количество переменных (от 3 до 16) и количество экспериментальных примеров. Для каждой комбинации — 5 случайных сэмплов.
Тестировали 4 модели: DeepSeek R1, DeepSeek V3, Qwen3-Thinking, Qwen3-Instruct. Первые две — Large Reasoning Models (обучены через RL максимизировать точность, генерируют длинные цепочки рассуждений). Вторые две — instruction-tuned модели (fine-tuned на примерах chain-of-thought). Все модели получали одинаковый промпт без указания стратегии.
Главный трюк: чтобы модели не могли схитрить через статистику (например, "V1 единственная со всеми значениями 0 и 1"), исследователи выровняли распределения всех переменных. Модели были вынуждены рассуждать логически, а не искать паттерны частот.
Для определения стратегии использовали LLM-as-judge: модель Kimi-K2 классифицировала каждый ответ как "перебор" или "исключение". Валидировали на 100 примерах с человеческой разметкой — точность 86%, Cohen's Kappa 0.76 (высокое согласие).
Главная находка: обе семьи моделей показали плавный переход от перебора к исключению при росте числа переменных. Построили логистическую регрессию: вероятность выбора исключения растёт с логарифмом размера пространства гипотез (коэффициент +1.02, p<0.001) и падает с ростом числа примеров (коэффициент -0.15, p<0.001). Это означает: модель выбирает исключение, когда выигрыш от сокращения пространства перевешивает стоимость удержания большого списка гипотез.
Сюрприз: на XOR/XNOR функциях переход почти исчез. DeepSeek показал умеренный сдвиг к исключению, Qwen полностью остался на переборе даже при 16 переменных. При этом R1 держал почти 100% точность на всех функциях, а V3 и Qwen3-Instruct деградировали до 5-10% точности на XOR при сложности 12+. Это показывает: RL-тренировка на правильность ответа (в LRM) создаёт более устойчивые внутренние представления для нелинейных зависимостей.
Измеряли длину ответов в символах (прокси для вычислительных затрат). Рост линейный с числом переменных и примеров. XOR/XNOR требовали в 1.5-2 раза больше символов, чем AND/OR при той же сложности — модели тратят больше токенов, чтобы стабилизировать сложные зависимости.
Инсайт: ресурсная рациональность — не заложенная функция, а emergent property. Модели оптимизируют только accuracy, но автоматически находят компромиссы между стратегиями в зависимости от структуры задачи и ограничений контекста.
Адаптации и экстраполяции
🔧 Техника: указание стоимости стратегий → приоритет скорости или детальности
Модель выбирает стратегию неявно. Можно явно задать критерий оптимизации:
Задача: {сложная задача}
Критерий выбора стратегии:
- Минимизировать время (предпочитай перебор, если пространство небольшое)
- Минимизировать токены (предпочитай исключение, если данные позволяют быстро сужать)
- Баланс (автоматический выбор)
Покажи обоснование выбора стратегии, затем реши.
Эффект: явный контроль над соотношением скорость/глубина рассуждений.
🔧 Техника: комбинация с Chain-of-Thought → видимость переключения стратегий
Стандартный CoT не показывает почему модель меняет подход. Добавь явный блок мета-рассуждения:
Задача: {задача}
Формат ответа:
**Мета-анализ:**
- Размер пространства поиска: {число}
- Доступная информация: {объём данных}
- Выбранная стратегия: {перебор/исключение/гибрид}
- Обоснование: {почему эта стратегия оптимальна}
**Решение:**
{шаги выбранной стратегии}
**Ответ:**
{финальный результат}
Полезно для: отладки сложных рассуждений, обучения (видишь как модель думает о своём мышлении), аудита (проверка логики выбора).
🔧 Экстраполяция: применение к творческим задачам
Принцип адаптации стратегий работает не только для логики, но и для генерации вариантов:
Задача: придумать название для {продукт/услуга}
Ограничения: {список из 10+ критериев}
Стратегия:
1. Оцени сложность (сколько комбинаций удовлетворяют всем критериям)
2. Если комбинаций мало — генерируй и проверяй каждую (перебор)
3. Если комбинаций много — начни с самых жёстких ограничений, отсеки невозможные (исключение)
Покажи промежуточные шаги, не только финальные варианты.
Применение: нейминг, слоганы, концепции дизайна — везде, где нужно найти решение при множественных ограничениях.
Ресурсы
Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality
Zhimin Hu, Riya Roshan, Sashank Varma
Georgia Institute of Technology
Работа опирается на теорию ограниченной рациональности (Herbert Simon, 1955), ресурсной рациональности (Lieder & Griffiths, 2020), исследования адаптивности стратегий принятия решений (Payne et al., 1988), каузальную атрибуцию в человеческом мышлении (Cheng & Novick, 1990).
