3,583 papers
arXiv:2602.10329 76 10 фев. 2026 г. FREE

Адаптивный выбор стратегий рассуждения: модели меняют подход в зависимости от сложности задачи

КЛЮЧЕВАЯ СУТЬ
Обнаружено: Модели автоматически меняют стратегию решения задач при росте сложности — от простого перебора к исключению вариантов. Никто их этому не учил, вознаграждение было только за правильный ответ. Метод позволяет решать задачи атрибуции — найти какие 2 фактора из 10 определяют результат (конверсия, продуктивность, здоровье). Модель чувствует соотношение размера пространства поиска к информативности данных — на AND-логике (где один факт отсекает половину гипотез) охотно переходит на исключение, на XOR-логике (где каждый факт почти ничего не даёт) остаётся на переборе.
Адаптировать под запрос

TL;DR

Модели автоматически переключаются между стратегиями решения задач — от простого перебора к сложному исключению вариантов — когда растёт количество переменных. Исследователи создали Variable Attribution Task (VAT): модель получает набор переменных и экспериментальных результатов, должна найти какая пара переменных определяет исход через логическую функцию (AND, OR, XOR и т.д.). Это как научный эксперимент: есть куча факторов, нужно понять какие два из них влияют на результат.

Модели выбирают разные стратегии в зависимости от "цены" каждой. При 3-4 переменных модель перебирает все пары подряд (простая стратегия, мало нагрузки на "рабочую память"). При 10+ переменных она переходит к исключению — строит список всех возможных пар, потом вычёркивает те, что не подходят под экспериментальные данные. Это требует удержания большого списка гипотез, но при 120+ возможных парах перебор слишком долгий. Никто модель этому не учил — вознаграждение было только за правильный ответ, не за экономию токенов. Адаптация стратегии возникла сама как побочный эффект оптимизации.

Модели ведут себя по-разному на разных логиках. На AND/OR функциях (где один пример сразу отсекает много вариантов) модели охотно переходят на исключение. На XOR/XNOR (где каждый пример почти не сужает поиск) модели остаются на переборе даже при большом числе переменных. DeepSeek R1 (Large Reasoning Model) справляется со всеми функциями одинаково хорошо. DeepSeek V3 (обычная модель с chain-of-thought) проваливается на XOR/XNOR при росте сложности — точность падает почти до нуля.


🧠

Почему это работает

LLM плохи в удержании большого числа гипотез одновременно. Когда у модели 16 переменных → 120 возможных пар, ей нужно либо перебрать все (долго), либо держать в контексте список из 120 пар и постепенно его сокращать (тяжело для "рабочей памяти"). Модели автоматически находят баланс.

Модели хороши в генерации длинных последовательных рассуждений. Reasoning tokens (токены размышления) работают как внешний блокнот — модель может записывать промежуточные шаги, частичные выводы, обновлённые списки гипотез. Чем сложнее задача, тем больше токенов генерирует модель. На XOR/XNOR функциях модели генерируют в 1.5-2 раза больше токенов, чем на AND/OR при той же сложности.

Критический инсайт: стратегия зависит не только от размера задачи, но и от структуры данных. AND-функция: один положительный пример отсекает половину гипотез → исключение выгодно. XOR-функция: каждый пример отсекает минимум гипотез → исключение дорого по затратам на удержание списка, а выигрыш маленький. Модели это чувствуют и остаются на переборе.


📌

Принципы для практики

📌

1. Явное указание сложности задачи

Модель адаптирует стратегию автоматически, но ты можешь ускорить это, явно указав масштаб:

Задача: {описание}

Сложность: высокая ({число} переменных, {число} комбинаций)

Стратегия: выбери оптимальную стратегию (перебор или исключение) исходя из соотношения размера пространства гипотез и количества информации. Объясни выбор.

Эффект: модель не будет тратить токены на перебор, если можно быстро сократить пространство гипотез через исключение.


📌

2. Задачи на атрибуцию и поиск причин

Формат VAT можно использовать для реальных задач: найти что влияет на результат.

Примеры применения: - Анализ бизнес-показателей: "Из 10 факторов (цена, креатив, время запуска, канал, аудитория...) найди какие 2 определяют рост конверсии. Вот данные по 15 запускам рекламы." - Отладка процессов: "В команде 8 переменных (время митингов, формат задач, инструменты, состав...). Какие 2 влияют на срыв дедлайнов? Вот история 20 спринтов." - Личные решения: "5 факторов (сон, спорт, кофеин, экранное время, режим питания). Какие 2 определяют моё состояние? Вот дневник за 30 дней."

Промпт:

Из кандидатов {список переменных} определи пару, которая определяет {результат}.

Данные:
{список экспериментов с значениями переменных и исходом}

Покажи рассуждение: какую стратегию используешь (перебор всех пар / исключение несовместимых гипотез), почему, как сокращаешь пространство поиска.

📌

3. Запрос показа стратегии для прозрачности

Когда задача сложная, попроси модель показать стратегию:

Задача: {сложная задача с множеством вариантов}

Перед решением:
1. Оцени размер пространства поиска
2. Выбери стратегию (перебор / исключение / другое)
3. Объясни почему эта стратегия оптимальна
4. Реши задачу, показывая шаги выбранной стратегии

Когда полезно: - Задачи комбинаторного типа (выбор из множества вариантов) - Поиск оптимального решения в ограниченном времени - Отладка логики модели (почему она пришла к такому ответу)


📌

4. Адаптация под тип логики

Если знаешь, что задача имеет структуру AND/OR (где один факт сильно сужает поиск):

Логика: конъюнктивная (достаточно одного противоречия чтобы отбросить гипотезу)

Стратегия: используй исключение — строй полный список гипотез, отсекай по одному противоречащему факту

Если задача XOR-подобная (баланс, парадоксы, нелинейные зависимости):

Логика: нелинейная (каждый факт даёт мало информации для сокращения списка)

Стратегия: последовательная проверка гипотез. Не трать ресурсы на удержание большого списка.

🚀

Пример применения

Задача: Ты запускал 12 email-рассылок. Хочешь понять, какие 2 фактора из 5 (день недели, время отправки, длина темы, наличие эмоджи, персонализация) определяют open rate выше 25%.

Промпт:

Из переменных {день_недели, время_отправки, длина_темы, эмоджи, персонализация} найди пару, которая определяет open_rate > 25%.

Данные по рассылкам:
1. Понедельник, 10:00, короткая тема, без эмоджи, с персонализацией → 18%
2. Среда, 14:00, длинная тема, с эмоджи, без персонализации → 31%
3. Пятница, 9:00, короткая тема, с эмоджи, с персонализацией → 29%
[... ещё 9 записей]

Покажи:
1. Размер пространства поиска (сколько возможных пар)
2. Выбранную стратегию (перебор / исключение)
3. Шаги сокращения списка гипотез
4. Финальный вывод с объяснением

Результат (описание): Модель посчитает 10 возможных пар из 5 переменных. Если увидит, что данные позволяют быстро отсекать варианты (например, во всех высоких open rate присутствует персонализация), выберет стратегию исключения — покажет как каждая рассылка отсекает несовместимые пары. Если данные не дают чётких паттернов для быстрого отсечения, останется на переборе — проверит каждую пару на совместимость со всеми 12 рассылками. В финале даст пару переменных с обоснованием.


⚠️

Ограничения

⚠️ Размер данных: Модель может ошибаться при большом числе переменных (>15) и малом числе экспериментов — недостаточно информации для уверенного вывода, начинает галлюцинировать.

⚠️ Тип логики: На нелинейных зависимостях (XOR-подобных) обычные instruction-tuned модели сильно деградируют. DeepSeek V3 и Qwen3-Instruct падают почти до 0% точности при 12+ переменных. Large Reasoning Models (R1, Qwen3-Thinking) справляются, но нужен доступ к ним.

⚠️ Формат данных: VAT работает с бинарными переменными (0/1, да/нет). Для непрерывных переменных (цена от 100 до 5000 рублей) нужна адаптация — либо дискретизация (разбивка на диапазоны), либо другая логика исключения.

⚠️ Шум в данных: Исследование использовало чистые данные без ошибок. Реальные эксперименты с противоречиями (одинаковые условия → разные результаты) могут сбить модель с толку.


🔍

Как исследовали

Команда из Georgia Tech создала Variable Attribution Task и сгенерировала 3000 примеров с 10 типами логических функций (AND, OR, XOR, XNOR и их комбинации). Варьировали количество переменных (от 3 до 16) и количество экспериментальных примеров. Для каждой комбинации — 5 случайных сэмплов.

Тестировали 4 модели: DeepSeek R1, DeepSeek V3, Qwen3-Thinking, Qwen3-Instruct. Первые две — Large Reasoning Models (обучены через RL максимизировать точность, генерируют длинные цепочки рассуждений). Вторые две — instruction-tuned модели (fine-tuned на примерах chain-of-thought). Все модели получали одинаковый промпт без указания стратегии.

Главный трюк: чтобы модели не могли схитрить через статистику (например, "V1 единственная со всеми значениями 0 и 1"), исследователи выровняли распределения всех переменных. Модели были вынуждены рассуждать логически, а не искать паттерны частот.

Для определения стратегии использовали LLM-as-judge: модель Kimi-K2 классифицировала каждый ответ как "перебор" или "исключение". Валидировали на 100 примерах с человеческой разметкой — точность 86%, Cohen's Kappa 0.76 (высокое согласие).

Главная находка: обе семьи моделей показали плавный переход от перебора к исключению при росте числа переменных. Построили логистическую регрессию: вероятность выбора исключения растёт с логарифмом размера пространства гипотез (коэффициент +1.02, p<0.001) и падает с ростом числа примеров (коэффициент -0.15, p<0.001). Это означает: модель выбирает исключение, когда выигрыш от сокращения пространства перевешивает стоимость удержания большого списка гипотез.

Сюрприз: на XOR/XNOR функциях переход почти исчез. DeepSeek показал умеренный сдвиг к исключению, Qwen полностью остался на переборе даже при 16 переменных. При этом R1 держал почти 100% точность на всех функциях, а V3 и Qwen3-Instruct деградировали до 5-10% точности на XOR при сложности 12+. Это показывает: RL-тренировка на правильность ответа (в LRM) создаёт более устойчивые внутренние представления для нелинейных зависимостей.

Измеряли длину ответов в символах (прокси для вычислительных затрат). Рост линейный с числом переменных и примеров. XOR/XNOR требовали в 1.5-2 раза больше символов, чем AND/OR при той же сложности — модели тратят больше токенов, чтобы стабилизировать сложные зависимости.

Инсайт: ресурсная рациональность — не заложенная функция, а emergent property. Модели оптимизируют только accuracy, но автоматически находят компромиссы между стратегиями в зависимости от структуры задачи и ограничений контекста.


💡

Адаптации и экстраполяции

📌

🔧 Техника: указание стоимости стратегий → приоритет скорости или детальности

Модель выбирает стратегию неявно. Можно явно задать критерий оптимизации:

Задача: {сложная задача}

Критерий выбора стратегии:
- Минимизировать время (предпочитай перебор, если пространство небольшое)
- Минимизировать токены (предпочитай исключение, если данные позволяют быстро сужать)
- Баланс (автоматический выбор)

Покажи обоснование выбора стратегии, затем реши.

Эффект: явный контроль над соотношением скорость/глубина рассуждений.


📌

🔧 Техника: комбинация с Chain-of-Thought → видимость переключения стратегий

Стандартный CoT не показывает почему модель меняет подход. Добавь явный блок мета-рассуждения:

Задача: {задача}

Формат ответа:

**Мета-анализ:**
- Размер пространства поиска: {число}
- Доступная информация: {объём данных}
- Выбранная стратегия: {перебор/исключение/гибрид}
- Обоснование: {почему эта стратегия оптимальна}

**Решение:**
{шаги выбранной стратегии}

**Ответ:**
{финальный результат}

Полезно для: отладки сложных рассуждений, обучения (видишь как модель думает о своём мышлении), аудита (проверка логики выбора).


🚀

🔧 Экстраполяция: применение к творческим задачам

Принцип адаптации стратегий работает не только для логики, но и для генерации вариантов:

Задача: придумать название для {продукт/услуга}

Ограничения: {список из 10+ критериев}

Стратегия:
1. Оцени сложность (сколько комбинаций удовлетворяют всем критериям)
2. Если комбинаций мало — генерируй и проверяй каждую (перебор)
3. Если комбинаций много — начни с самых жёстких ограничений, отсеки невозможные (исключение)

Покажи промежуточные шаги, не только финальные варианты.

Применение: нейминг, слоганы, концепции дизайна — везде, где нужно найти решение при множественных ограничениях.


🔗

Ресурсы

Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality

Zhimin Hu, Riya Roshan, Sashank Varma

Georgia Institute of Technology

Работа опирается на теорию ограниченной рациональности (Herbert Simon, 1955), ресурсной рациональности (Lieder & Griffiths, 2020), исследования адаптивности стратегий принятия решений (Payne et al., 1988), каузальную атрибуцию в человеческом мышлении (Cheng & Novick, 1990).


📋 Дайджест исследования

Ключевая суть

Обнаружено: Модели автоматически меняют стратегию решения задач при росте сложности — от простого перебора к исключению вариантов. Никто их этому не учил, вознаграждение было только за правильный ответ. Метод позволяет решать задачи атрибуции — найти какие 2 фактора из 10 определяют результат (конверсия, продуктивность, здоровье). Модель чувствует соотношение размера пространства поиска к информативности данных — на AND-логике (где один факт отсекает половину гипотез) охотно переходит на исключение, на XOR-логике (где каждый факт почти ничего не даёт) остаётся на переборе.

Принцип работы

При 3-4 переменных модель перебирает все пары подряд — просто, мало нагрузки на «рабочую память». При 10+ переменных (120 возможных пар) она переходит к исключению — строит полный список гипотез, потом вычёркивает те, что не подходят под экспериментальные данные. Переключение происходит автоматически как побочный эффект оптимизации. Прикол в том, что стратегия зависит не только от размера, но и от структуры данных — на функциях где один пример сильно сужает поиск (AND/OR), модель рано переходит на исключение. На нелинейных (XOR/XNOR) остаётся на переборе даже при большом числе переменных.

Почему работает

LLM плохи в удержании большого числа гипотез одновременно. При 16 переменных → 120 возможных пар нужно либо перебрать все (долго), либо держать в контексте список из 120 пар и сокращать его (тяжело для «рабочей памяти»). Зато модели хороши в генерации последовательных рассуждений — reasoning tokens работают как внешний блокнот для промежуточных шагов. Критический инсайт: AND-функция отсекает половину гипотез одним примером → исключение выгодно. XOR-функция отсекает минимум → исключение дорого, а выигрыш маленький. На XOR модели генерируют в 1.5-2 раза больше токенов чем на AND при той же сложности. DeepSeek V3 (обычная модель с цепочкой рассуждений) падает почти до 0% точности на XOR при 12+ переменных. DeepSeek R1 (модель с расширенными рассуждениями) справляется со всеми одинаково.

Когда применять

Задачи атрибуции и поиска причин → конкретно для выявления какие 2-3 фактора из многих определяют результат. Особенно когда есть данные по экспериментам (A/B-тесты, спринты, рекламные запуски, дневники наблюдений). Работает для бизнес-анализа (что влияет на конверсию из 10 факторов), отладки процессов (почему срываются дедлайны), личных решений (что определяет моё состояние). НЕ подходит для непрерывных переменных без дискретизации и данных с сильным шумом (противоречивые эксперименты сбивают модель).

Мини-рецепт

1. Сформулируй задачу атрибуции: Из {список переменных} найди пару/тройку, которая определяет {результат}.
2. Подготовь данные: Список экспериментов с бинарными значениями переменных (да/нет, 0/1) и исходом каждого.
3. Укажи сложность явно: Сложность: {число} переменных → {число} возможных пар/троек. Выбери оптимальную стратегию (перебор или исключение) исходя из соотношения размера пространства и информативности данных.
4. Запроси показ стратегии: Покажи: 1) размер пространства поиска 2) выбранную стратегию и почему 3) шаги сокращения гипотез 4) финальный вывод
5. Адаптируй под логику: Если знаешь что данные дают чёткие паттерны для отсечения (конъюнктивная логика) — подскажи модели использовать исключение. Если данные не дают чёткого сигнала — не трать ресурсы на удержание большого списка.

Примеры

[ПЛОХО] : Проанализируй данные по рекламе и найди что влияет на конверсию
[ХОРОШО] : Из переменных {день_недели, время_отправки, длина_темы, эмоджи, персонализация} найди пару, которая определяет открываемость (open rate) > 25%. Данные по 12 рассылкам: 1. Понедельник, 10:00, короткая, без эмоджи, с персонализацией → 18% 2. Среда, 14:00, длинная, с эмоджи, без персонализации → 31% [... остальные записи] Сложность: 5 переменных → 10 возможных пар. Выбери стратегию (перебор/исключение) исходя из того насколько данные позволяют быстро отсекать гипотезы. Покажи: 1. Размер пространства поиска 2. Выбранную стратегию и обоснование 3. Шаги сокращения списка гипотез 4. Финальная пара переменных с объяснением
Источник: Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality
ArXiv ID: 2602.10329 | Сгенерировано: 2026-02-12 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Провал на задачах где факты слабо фильтруют вариантыЕсть два типа логики. AND/OR: один факт сразу отсекает половину вариантов (нашёл противоречие выкинул гипотезу). XOR/XNOR: каждый факт отсекает минимум вариантов, нужно держать в голове десятки гипотез одновременно и постепенно сокращать список. Модели проваливаются на втором типе — точность падает почти до нуля при росте числа переменных. Причина: модель не может удерживать большой список гипотез и медленно его фильтровать. Ей нужны быстрые отсеченияЕсли задача XOR-подобная (поиск баланса, парадоксы, нелинейные зависимости), не требуй от модели держать все варианты сразу. Дели на подзадачи: "проверь эти 3 гипотезы", потом "теперь эти 3", потом объедини. Или используй Large Reasoning Models (DeepSeek R1, Qwen3-Thinking) — они справляются
📖 Простыми словами

Are More Tokens Rational? Inference-Time Scaling inLanguageModelsas Adaptive Resource Rationality

arXiv: 2602.10329

Суть в том, что нейросети не просто «думают дольше», когда им дают больше токенов на размышление, а радикально меняют саму стратегию мышления. Исследователи прогнали модели через Variable Attribution Task (VAT) — это когда тебе дают кучу переменных и результатов, а ты должен вычислить, какая именно пара факторов рулит процессом. Выяснилось, что у LLM есть встроенный переключатель: если задача простая, она прет напролом, но как только сложность зашкаливает, модель переходит в режим адаптивной рациональности. Она начинает экономить ресурсы «рабочей памяти», разменивая их на длину рассуждений.

Это похоже на попытку починить барахлящий мотор. Если у тебя две детали, ты просто проверяешь их по очереди — это грубый перебор. Но если под капотом сотня узлов, ты не можешь держать в голове все возможные поломки сразу. Ты начинаешь строить дерево исключений: «так, искра есть, значит, зажигание отпадает». Модель делает то же самое: когда переменных становится слишком много, она перестает пытаться угадать ответ и начинает методично отсекать лишнее, превращаясь из интуитивного гадателя в дотошного следователя.

В цифрах это выглядит так: когда у тебя 16 переменных, количество их сочетаний взлетает до 120 пар. Для нейросети это информационный передоз. Вместо того чтобы захлебнуться в попытках удержать все 120 гипотез в контексте, она использует Inference-Time Scaling — буквально покупает себе время на раздумья. Она начинает проговаривать логические шаги, используя токены как внешнюю память, чтобы не забыть, что она уже проверила, а что нет. Это не просто «болтовня», а способ выгрузить тяжелые вычисления из перегруженного «процессора» на бумагу.

Принцип универсален и выходит далеко за рамки сухих тестов. Представь, что ты анализируешь 12 рекламных рассылок, чтобы понять, почему одна выстрелила, а другая — нет. Если факторов всего два (время и тема), модель ответит мгновенно. Но если добавляются сегментация, погода, скидки и цвет кнопки, обычный промпт выдаст чушь. Здесь и вступает в дело масштабирование вычислений: давая модели возможность «рассуждать вслух», ты заставляешь её переключиться с режима гадания на режим научного эксперимента.

Главный вывод: не жди от нейросети адекватности в сложных задачах, если требуешь быстрый ответ. Больше токенов — больше логики. Если задача многофакторная, короткий ответ почти гарантированно будет галлюцинацией или тычком пальцем в небо. Нужно либо заставлять модель расписывать каждый шаг, либо смириться с тем, что она попытается сэкономить на мозгах и выдаст полную фигню. В мире LLM время — это не просто деньги, это единственный способ заставить систему быть рациональной.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с