3,583 papers
arXiv:2602.14903 73 16 фев. 2026 г. FREE

Potential of CoT: карта успеха рассуждений LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: Reasoning-модели (o1, R1, Qwen3) уходят в тупики в 2 раза чаще обычных моделей. Они находят правильный ответ, потом начинают сомневаться, проверяют альтернативы и скатываются в reasoning tangent - ложный след. В 18% случаев Qwen3-32B роняет вероятность правильного ответа ниже начального уровня (vs 9.5% у обычной Qwen2.5-7B). Overthinking дороже и ненадёжнее. Исследователи создали метод измерения потенциала каждой точки в рассуждении модели. Взяли частичное рассуждение (первые 100 токенов из 500), дали модели дописать 128 раз с вариациями, посчитали процент правильных ответов - получили число от 0 до 100%. Построили кривую потенциала от начала до конца - карту успеха рассуждения. Рассуждения LLM не плавные - они скачут, проваливаются, топчутся на месте. Обнаружили три паттерна: (1) Инсайты - резкий скачок потенциала с 20% до 80% на одном шаге (модель поняла ключевую идею). (2) Тупики - потенциал падает с 60% до 10% (модель пошла по ложному следу). (3) Угадывания - потенциал 300 токенов держится у 5%, потом в последних 10 токенах скачок до 100% (модель не решала, а угадала). Половина рассуждений содержат откаты назад.
Адаптировать под запрос

TL;DR

Потенциал CoT — метод оценки насколько каждая часть рассуждения приближает модель к правильному ответу. Исследователи взяли частичное рассуждение модели (например, первые 100 токенов из 500), дали ей дописать 128 раз с разными вариациями и посчитали: в скольких случаях она дошла до верного ответа. Получили число от 0 до 100% — потенциал этой точки. Проследили как потенциал меняется от начала до конца рассуждения — получили карту успеха.

Главная находка: рассуждения модели не улучшаются плавно — они скачут, проваливаются, топчутся на месте. Исследователи обнаружили три паттерна: (1) Инсайты — резкие скачки потенциала с 20% до 80% на одном шаге (модель поняла ключевую идею). (2) Тупики — потенциал падает с 60% до 10% (модель пошла по ложному следу). (3) Угадывания — потенциал 300 токенов держится около 5%, потом в последних 10 токенах скачок до 100% (модель не решала, а угадала ответ). В половине случаев рассуждения содержат откаты назад, а reasoning-модели (o1, R1) уходят в тупики чаще обычных — они overthink, отбрасывают правильный ответ и ищут альтернативы.

Метод показал что рассуждения переносятся между моделями: если дать слабой модели первые 20% рассуждения от сильной, её точность вырастает так, будто она сама додумалась до инсайта. Работает даже между разными семействами (GPT-OSS → Qwen). Значит инсайты в CoT работают модельно-агностично, как подсказки человеку.

🔬

Схема метода

Это исследовательский метод, не техника промптинга. Схема расчёта потенциала:

ШАГ 1: Возьми частичное рассуждение (первые t токенов из полного CoT)
ШАГ 2: Дай модели дописать 128 раз с разными вариациями
ШАГ 3: Посчитай % правильных ответов = потенциал точки t
ШАГ 4: Повтори для всех точек → получи кривую потенциала

Требует API и код для автоматизации. НО выводы применимы вручную.

📌

Ключевые инсайты для работы в чате

📌

1. Не всё рассуждение одинаково полезно

Что происходит: Модель может 200 токенов идти правильным путём (потенциал растёт с 10% до 70%), потом в 50 токенах свалиться в reasoning tangent — уйти в сторону, попробовать подход который не работает, и потенциал падает до 15%.

Пример из исследования: Qwen2.5-7B решала задачу оптимизации, правильно выразила радиус через стороны коробки, но потом попробовала применить неравенство AM-GM (которое дало нестрогую оценку и не сработало). Потенциал упал с 55% до 12%. В этой конкретной попытке модель проигнорировала тупик и нашла правильный путь, но в среднем этот шаг вредит.

Что делать: - Если видишь что модель долго рассуждает и приходит к неправильному ответу — перезапусти с другой формулировкой или попроси "попробуй другой подход" - Не думай что "чем длиннее CoT, тем лучше" — модель может закапываться

📌

2. Модели угадывают чаще чем кажется

Что происходит: Модель выдаёт длинное рассуждение, которое выглядит релевантным, но финальный ответ не следует из логики. Потенциал всё рассуждение держится у 0-5%, потом резкий скачок до 100% на последних токенах — это угадывание.

Пример из исследования: Qwen3-0.6B на задаче про геометрию произвела рассуждение на 400 токенов про построения и углы, потом выдала ответ "80", сама признавшись в CoT: "guess is not backed by the reasoning prior but seems likely". Потенциал не рос до самого конца.

Что делать: - Если ответ появляется резко, без явной связи с предыдущими шагами — попроси объяснить связь: "Как именно из предыдущих выкладок следует число 80?" - Используй verification промпт: "Проверь своё решение: каждый шаг должен логически вытекать из предыдущего"

📌

3. Сложность для модели ≠ сложность для человека

Что происходит: Модель легко делает концептуально сложный шаг (вывод системы уравнений) — потенциал подрос на 10%. Потом застревает на простой арифметике (подставить число в формулу) — потенциал скачет на 60%. Для людей всё наоборот.

Пример из исследования: Qwen2.5-7B вывела систему уравнений в двух переменных, упростила, нашла _s_ (сложная алгебра) — потенциал +15%. Потом надо было подставить _s_ в уравнение и найти _t_ (подстановка и решение линейного) — потенциал +65%. Модель спотыкается на "лёгком" шаге.

Что делать: - Разбивай арифметику явно: "Сначала вычисли A, затем B, потом сложи" - Не предполагай что "очевидные" шаги модель пропустит без ошибок - Проси промежуточные значения с проверкой: "После каждого вычисления покажи результат и проверь его"

📌

4. Reasoning-модели overthink

Находка: Модели с длинным CoT (o1, R1, Qwen3) чаще уходят в reasoning tangents чем обычные модели. Qwen3-32B в 18% случаев роняет потенциал ниже начального уровня (vs 9.5% у Qwen2.5-7B). Они находят правильный ответ, потом начинают сомневаться, проверяют альтернативы, и уходят в тупик.

Что делать: - Если reasoning-модель выдаёт очень длинный CoT и меняет ответ несколько раз — первые ответы могут быть правильнее последних - Попробуй ограничить длину: "Реши задачу в 3-5 ключевых шагов, без альтернативных проверок"

📌

Техника: CoT Transfer между моделями

Идея: Дай слабой модели начало рассуждения от сильной — слабая решит задачи, которые раньше не могла.

Как работает: Сильная модель проходит концептуально сложные шаги (инсайты), слабая модель застревает именно на них. Если дать слабой готовый инсайт — она справится с остальным.

Результаты исследования: Qwen3-0.6B на AIME-2025 решала 8% задач. Когда ей дали первые 20% CoT от Qwen3-32B — точность выросла до 22%. При 40% CoT — до 35%. Работает даже между разными семействами: Qwen3-0.6B + CoT от GPT-OSS-20B тоже улучшается.

🚀

Пример применения

Задача: Разбор сложной бизнес-ситуации — оценить стоит ли запускать новое направление в проекте. Много факторов: финансы, команда, рынок, риски.

Шаг 1 — Сильная модель (GPT-4 / Claude Opus):

Проанализируй запуск нового направления [описание]. 
Начни анализ: определи ключевые факторы и построй framework 
для оценки. Остановись после framework, не делай выводов.

Шаг 2 — Скопируй первые 30-40% ответа (framework, структуру факторов)

Шаг 3 — Слабая модель (GPT-4o-mini / Claude Haiku):

Вот начало анализа от эксперта:

[вставить framework от сильной модели]

Продолжи анализ: заполни framework данными из моей ситуации 
и сделай вывод. Вот детали: [твои данные]

Результат: Слабая модель получает структуру мышления от сильной (это и есть инсайт) и применяет к твоим данным. Ты экономишь деньги — большую часть работы делает дешёвая модель, дорогая только задаёт направление.

Где ещё работает: - Код: GPT-4 проектирует архитектуру → GPT-4o-mini пишет реализацию - Тексты: Claude Opus создаёт структуру статьи с тезисами → Claude Haiku раскрывает каждый пункт - Исследования: o1 ставит исследовательские вопросы и методологию → обычная модель собирает данные и анализирует

🧠

Почему это работает

Слабость LLM: Модели застревают не на исполнении рутинных операций, а на концептуальных инсайтах — моментах когда нужно увидеть неочевидную связь, сменить подход, заметить паттерн. Для задачи из AIME-1989 (рис. 1 в статье) ключевой инсайт: _n(n+1)(n+2)(n+3) + 1 = (n² + 3n + 1)²_. Увидел это — решил задачу за минуту. Не увидел — застрял.

Сильная сторона LLM: Модели отлично продолжают рассуждение когда направление задано. Если дать им правильный подход — они надёжно выполнят алгебру, подстановки, проверки. Слабая модель на исполнении рутины почти не уступает сильной.

Механика метода: Transfer CoT даёт слабой модели стартовую точку с высоким потенциалом. Вместо pot=10% (начало с нуля), она стартует с pot=60-70% (после инсайта от сильной модели). Дальше слабая модель справляется сама — концептуальная работа уже сделана.

Важно: Это работает потому что инсайты модельно-агностичны. Правильная структура мышления (распознанная сильной моделью) переносится на слабую — как подсказка в правильном направлении для человека.

⚠️

Ограничения

⚠️ Не для простых задач: Если слабая модель и так решает задачу в 80%+ случаев, transfer не даст прироста. Метод работает когда задача на границе возможностей слабой модели.

⚠️ Ручная работа: Нужно запускать две модели, копировать между ними, определять где остановить сильную. Автоматизация требует API.

⚠️ Зависимость от качества: Если сильная модель сама ушла в tangent (тупик), слабая продолжит по ложному пути. Transfer работает только если сильная дала правильный инсайт.

⚠️ Overthinking риск: Reasoning-модели чаще уходят в тупики (в 18-40% попыток vs 5-9.5% у обычных). Если используешь o1/R1 как "сильную" — проверяй что начало CoT действительно продуктивное.

🔍

Как исследовали

Команда взяла сложные математические задачи AIME-2024/2025 (олимпиадный уровень, модели решают 10-40%) и запустила эксперимент: для каждой задачи модель генерировала полное решение, потом исследователи обрезали его в разных точках (10%, 20%, 30%... 90% длины) и просили модель дописать по 128 раз с разными seed. Считали процент правильных ответов на каждой точке — получили кривую потенциала.

Протестировали 6 моделей: Qwen2.5 (1.5B, 7B), Llama-3.1 (8B, 70B), Qwen3 reasoning (0.6B, 32B). Всего 30 задач × 128 попыток = 3,840 рассуждений на модель.

Что измеряли: - Монотонность: растёт ли потенциал от начала к концу (оказалось только в 15-45% случаев) - Reasoning insights: резкие скачки +40%+ за короткий участок (нашли в 36-62% успешных CoT) - Reasoning tangents: падения потенциала на 20%+ (в 5-41% случаев) - Late spikes: потенциал ≈0 до 80%+ длины, потом скачок (признак угадывания, в 0-20% у разных моделей)

Удивительное: Reasoning-модели (Qwen3) показали меньше монотонности (15-36%) чем обычные (42-45% для малых Qwen2.5). Длинные CoT не значит линейный прогресс — модели блуждают, проверяют тупики, overthink. Llama-3.1-70B в 40% случаев уходила в tangents — хуже чем маленькая Llama-3.1-8B (33%).

Transferability тест: Взяли Qwen3-0.6B (слабая) и давали ей частичные CoT от Qwen3-32B и GPT-OSS-20B. Результат: уже при 20% CoT точность удвоилась, при 40% — утроилась. Работает даже cross-family (GPT→Qwen), значит инсайты универсальны.

Инсайт для практики: Если модель даёт разные ответы на один вопрос — это не баг, это нормальная вариативность CoT. Потенциал показывает что одни пути ведут к успеху, другие в тупик. Отсюда практика: sample несколько раз, выбирай лучшее (pass@k) или restart при tangent.

💡

Адаптации и экстраполяции

📌

Техника: Restart on Divergence

Если модель генерирует несколько попыток и они сильно различаются — вероятно одна из них в tangent.

Реши задачу тремя разными способами. После каждого способа 
укажи уверенность 0-100%.

Задача: {твоя задача}

Формат:
СПОСОБ 1: [решение]
Уверенность: [число]

СПОСОБ 2: [решение]
Уверенность: [число]

СПОСОБ 3: [решение]
Уверенность: [число]

Если способы дают разные ответы — объясни почему и укажи 
какой правильный.

Модель сама пометит где сомневается (низкая уверенность = низкий потенциал).

📌

Техника: Explicit Verification Flow

Против угадывания — требуй явной связи каждого шага:

Реши задачу пошагово. После КАЖДОГО шага явно укажи:
1. Что получили
2. Откуда это следует (какой предыдущий шаг)
3. Зачем это нужно (какой следующий шаг)

Финальный ответ дай ТОЛЬКО если он напрямую вытекает 
из последнего шага. Если не вытекает — признай это.

Задача: {задача}

Если модель не может объяснить связь — она ловит сама себя на угадывании.

📌

Техника: Staged Problem Solving (CoT Transfer вручную)

Используй ChatGPT (GPT-4) для концептуальной работы, потом переключись на Claude (дешёвый вариант) или наоборот:

Чат 1 (сильная модель):

Разбери структуру задачи: определи ключевые компоненты, 
построй framework подхода, НО не решай до конца.

Задача: {сложная задача}

Чат 2 (слабая модель или та же, но свежий контекст):

Вот framework от эксперта:
[копируешь 30-40% из предыдущего чата]

Теперь заполни детали и доведи до решения.

Экономия токенов + слабая модель получает boost от инсайтов.

🔗

Ресурсы

The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics Авторы из исследовательских групп (университеты не указаны в отрывке) Математические олимпиады AIME-2024/2025 — Mathematical Association of America (MAA) Бенчмарки: MATH-500 (Hendrycks et al., 2021), GPQA-Diamond (Rein et al., 2023), HumanEval (Chen et al., 2021)


📋 Дайджест исследования

Ключевая суть

Парадокс: Reasoning-модели (o1, R1, Qwen3) уходят в тупики в 2 раза чаще обычных моделей. Они находят правильный ответ, потом начинают сомневаться, проверяют альтернативы и скатываются в reasoning tangent - ложный след. В 18% случаев Qwen3-32B роняет вероятность правильного ответа ниже начального уровня (vs 9.5% у обычной Qwen2.5-7B). Overthinking дороже и ненадёжнее. Исследователи создали метод измерения потенциала каждой точки в рассуждении модели. Взяли частичное рассуждение (первые 100 токенов из 500), дали модели дописать 128 раз с вариациями, посчитали процент правильных ответов - получили число от 0 до 100%. Построили кривую потенциала от начала до конца - карту успеха рассуждения. Рассуждения LLM не плавные - они скачут, проваливаются, топчутся на месте. Обнаружили три паттерна: (1) Инсайты - резкий скачок потенциала с 20% до 80% на одном шаге (модель поняла ключевую идею). (2) Тупики - потенциал падает с 60% до 10% (модель пошла по ложному следу). (3) Угадывания - потенциал 300 токенов держится у 5%, потом в последних 10 токенах скачок до 100% (модель не решала, а угадала). Половина рассуждений содержат откаты назад.

Принцип работы

Не всё рассуждение одинаково ценно. Модель может 200 токенов идти правильным путём (потенциал растёт с 10% до 70%), потом в 50 токенах свалиться в тупик - попробовать подход который не работает. Потенциал падает до 15%. Чем длиннее CoT ≠ тем лучше решение. Модель может закапываться. Пример из исследования: Qwen2.5-7B решала задачу оптимизации, правильно выразила радиус через стороны коробки (потенциал 55%), потом попробовала применить неравенство AM-GM - не сработало. Потенциал упал до 12%. В этой попытке модель нашла выход, но в среднем этот шаг вредит. Вторая находка: модели угадывают чаще чем кажется. Qwen3-0.6B на задаче про геометрию выдала рассуждение на 400 токенов про построения и углы, потом ответ "80", сама признавшись в CoT: "guess is not backed by the reasoning prior but seems likely". Потенциал не рос до самого конца - весь путь 0-5%, скачок в финале до 100%. Длинное рассуждение выглядит релевантным, но финальный ответ не следует из логики.

Почему работает

Почему reasoning-модели overthink? Они находят правильный ответ, потом начинают проверять альтернативы, отбрасывают первое решение, уходят в сторону. Qwen3-32B в 18% случаев роняет потенциал ниже начального уровня (vs 9.5% у Qwen2.5-7B). Более длинное рассуждение ≠ более надёжное. Почему модели застревают на "простых" шагах? Сложность для модели ≠ сложность для человека. Qwen2.5-7B вывела систему уравнений в двух переменных, упростила, нашла переменную _s_ (сложная алгебра) - потенциал +15%. Потом надо было подставить _s_ в уравнение и найти _t_ (подстановка и решение линейного) - потенциал +65%. Модель споткнулась на "лёгком" шаге. Для людей всё наоборот - концептуально сложный шаг даётся модели легче, чем арифметическая рутина. Главная практическая находка: Рассуждения переносятся между моделями. Qwen3-0.6B на AIME-2025 решала 8% задач. Когда ей дали первые 20% рассуждения от Qwen3-32B - точность выросла до 22%. При 40% CoT - до 35%. Работает даже между разными семействами: Qwen3-0.6B + CoT от GPT-OSS-20B тоже улучшается. Инсайты в CoT работают модельно-агностично - как подсказки человеку.

Когда применять

CoT Transfer (перенос рассуждений): Для сложных многофакторных задач - бизнес-анализ, архитектура кода, структура исследования, разбор кейса. Особенно когда хочешь экономить - дорогая модель (GPT-4, Claude Opus) создаёт framework и ключевые инсайты, дешёвая (GPT-4o-mini, Claude Haiku) заполняет детали. В 3-4 раза дешевле чем прогонять всё через дорогую. Диагностика overthinking: Если reasoning-модель выдаёт очень длинный CoT и меняет ответ несколько раз - первые ответы могут быть правильнее последних. Попробуй ограничить длину: "Реши в 3-5 ключевых шагов, без альтернативных проверок". НЕ подходит: Для простых задач где слабая модель и так справляется в 80%+ случаев. Transfer не даст прироста - модель уже на потолке возможностей для этой задачи.

Мини-рецепт

CoT Transfer (экономия через перенос инсайтов):

1. Сильная модель создаёт структуру: Попроси GPT-4 или Claude Opus начать анализ и остановиться после framework. Промпт: Проанализируй [задача]. Построй framework для оценки: ключевые факторы, критерии, структуру. Остановись после framework, не делай выводов.

2. Скопируй инсайт: Возьми первые 30-40% ответа - ключевую структуру мышления. Это концептуальная работа, которую слабая модель сама не сделает.

3. Слабая модель заполняет детали: Дай framework от сильной модели в промпт к GPT-4o-mini или Claude Haiku: Вот framework от эксперта: [вставить структуру]. Примени его к моей ситуации: [твои данные]. Заполни каждый пункт и сделай вывод.

Диагностика угадывания:

1. Проверь связь: Если ответ появляется резко, без явной связи с предыдущими шагами - попроси: Объясни как именно из предыдущих шагов следует этот ответ.

2. Verification промпт: Проверь своё решение: каждый шаг должен логически вытекать из предыдущего. Если есть скачки - покажи их.

Примеры

[ПЛОХО]: `Проанализируй запуск нового направления: финансы, команда, рынок, риски. Нужен вывод.` (Слабая модель застрянет на построении framework - это концептуальный шаг, требует инсайта) [ХОРОШО - CoT Transfer]: Шаг 1 (GPT-4): `Проанализируй запуск edtech-направления для корпоративных клиентов. Построй framework для оценки: финансовая модель, команда, конкуренты, риски. Остановись после framework - не заполняй данными.` Шаг 2: Копируешь framework (первые 150-200 токенов) - структуру факторов, критерии оценки, связи между ними. Шаг 3 (GPT-4o-mini): `Вот framework от эксперта: [вставить]. Примени к моей ситуации: бюджет 5М, команда 3 человека, рынок корп обучения 50 млрд, 15 конкурентов. Заполни каждый пункт framework и дай вывод - запускать или нет.` Результат: GPT-4 сделал концептуальную работу за 200 токенов (~$0.002), GPT-4o-mini заполнил детали за 800 токенов (~$0.0008). Общая стоимость в 3-4 раза ниже чем весь анализ через GPT-4.
Источник: The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
ArXiv ID: 2602.14903 | Сгенерировано: 2026-02-17 06:30

Методы

МетодСуть
Передача начала рассуждения от сильной модели к слабойШаг 1: Дай сложную задачу сильной модели (GPT-4, Claude Opus). Попроси начать решение и остановиться после ключевой идеи — примерно 20-40% от полного ответа. Напр.: "Начни анализ, построй структуру подхода, но не делай выводов". Шаг 2: Скопируй это начало. Шаг 3: Дай слабой модели (GPT-4o-mini, Haiku) с инструкцией: "Вот начало от эксперта: [вставить]. Продолжи и доведи до ответа". Почему работает: Модели застревают на концептуальных инсайтах (увидеть связь, выбрать подход), но хорошо исполняют рутину (вычисления, подстановки). Сильная даёт направление, слабая исполняет — экономия в 5-10 раз на стоимости. Когда применять: задача на границе возможностей слабой модели, есть разделение "инсайт + исполнение" (код, анализ, исследования). Когда нет: слабая модель и так решает 80%+, творческая задача без чёткой структуры
📖 Простыми словами

The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics

arXiv: 2602.14903

Суть в том, что нейронки тупят не потому, что не умеют считать, а потому, что загоняют себя в логический тупик. Метод Trace Dynamics — это своего рода МРТ для мыслей модели. Исследователи придумали измерять потенциал CoT: они берут цепочку рассуждений в любой точке, обрывают её и заставляют модель додумать ответ еще 128 раз. Если в 90 случаях из 100 она приходит к правильному финалу, значит, точка живая. Если в 5 — модель уже свернула не туда, и дальше она будет просто уверенно нести чушь.

Это похоже на прохождение сложного лабиринта. Представь, что ты замер на повороте, и мы создаем 128 твоих клонов, которые бегут вперед. Если почти все нашли выход — ты на верном пути. Но если большинство уперлось в стену, значит, ты сделал фатальную ошибку еще три поворота назад, просто сам этого еще не понял. Метод позволяет четко увидеть тот самый момент, когда «интеллект» превращается в бесполезную галлюцинацию.

Главный инсайт исследования в том, что успех решения зависит от концептуальных скачков, а не от монотонной работы. В сложных задачах, вроде олимпиадной математики или запутанного бизнес-кейса, есть критические точки — «эврика-моменты». Например, пока модель не догадается свернуть сложное уравнение в квадрат суммы, её потенциал будет болтаться около нуля. Как только инсайт случился — потенциал взлетает до 100%. Все, что происходит между этими вспышками, — это просто декоративная рутина, которая почти не влияет на результат.

Хотя ученые мучили модели на математике, принцип универсален для любого сложного контента. Будь то стратегия запуска продукта или юридический аудит, модель лажает там, где нужно сменить парадигму или заметить неочевидную связь. Теперь мы точно знаем: если LLM выдала простыню текста и ошиблась в конце, проблема не в последнем предложении. Она сломалась гораздо раньше, на этапе, где нужно было проявить гибкость, а она выбрала шаблонный путь.

Короче, CoT — это не гарантия качества, а просто способ дать модели больше шансов «напороться» на правильную мысль. Исследование доказывает: если у модели нет нужного инсайта, она может рассуждать хоть до бесконечности — толку будет ноль. Вместо того чтобы просить AI «думать дольше», нужно заставлять её проверять разные пути в критических точках. Кто научится ловить эти моменты падения потенциала и вовремя корректировать курс, тот и выжмет из нейронок реальный интеллект.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с