TL;DR
Потенциал CoT — метод оценки насколько каждая часть рассуждения приближает модель к правильному ответу. Исследователи взяли частичное рассуждение модели (например, первые 100 токенов из 500), дали ей дописать 128 раз с разными вариациями и посчитали: в скольких случаях она дошла до верного ответа. Получили число от 0 до 100% — потенциал этой точки. Проследили как потенциал меняется от начала до конца рассуждения — получили карту успеха.
Главная находка: рассуждения модели не улучшаются плавно — они скачут, проваливаются, топчутся на месте. Исследователи обнаружили три паттерна: (1) Инсайты — резкие скачки потенциала с 20% до 80% на одном шаге (модель поняла ключевую идею). (2) Тупики — потенциал падает с 60% до 10% (модель пошла по ложному следу). (3) Угадывания — потенциал 300 токенов держится около 5%, потом в последних 10 токенах скачок до 100% (модель не решала, а угадала ответ). В половине случаев рассуждения содержат откаты назад, а reasoning-модели (o1, R1) уходят в тупики чаще обычных — они overthink, отбрасывают правильный ответ и ищут альтернативы.
Метод показал что рассуждения переносятся между моделями: если дать слабой модели первые 20% рассуждения от сильной, её точность вырастает так, будто она сама додумалась до инсайта. Работает даже между разными семействами (GPT-OSS → Qwen). Значит инсайты в CoT работают модельно-агностично, как подсказки человеку.
Схема метода
Это исследовательский метод, не техника промптинга. Схема расчёта потенциала:
ШАГ 1: Возьми частичное рассуждение (первые t токенов из полного CoT)
ШАГ 2: Дай модели дописать 128 раз с разными вариациями
ШАГ 3: Посчитай % правильных ответов = потенциал точки t
ШАГ 4: Повтори для всех точек → получи кривую потенциала
Требует API и код для автоматизации. НО выводы применимы вручную.
Ключевые инсайты для работы в чате
1. Не всё рассуждение одинаково полезно
Что происходит: Модель может 200 токенов идти правильным путём (потенциал растёт с 10% до 70%), потом в 50 токенах свалиться в reasoning tangent — уйти в сторону, попробовать подход который не работает, и потенциал падает до 15%.
Пример из исследования: Qwen2.5-7B решала задачу оптимизации, правильно выразила радиус через стороны коробки, но потом попробовала применить неравенство AM-GM (которое дало нестрогую оценку и не сработало). Потенциал упал с 55% до 12%. В этой конкретной попытке модель проигнорировала тупик и нашла правильный путь, но в среднем этот шаг вредит.
Что делать: - Если видишь что модель долго рассуждает и приходит к неправильному ответу — перезапусти с другой формулировкой или попроси "попробуй другой подход" - Не думай что "чем длиннее CoT, тем лучше" — модель может закапываться
2. Модели угадывают чаще чем кажется
Что происходит: Модель выдаёт длинное рассуждение, которое выглядит релевантным, но финальный ответ не следует из логики. Потенциал всё рассуждение держится у 0-5%, потом резкий скачок до 100% на последних токенах — это угадывание.
Пример из исследования: Qwen3-0.6B на задаче про геометрию произвела рассуждение на 400 токенов про построения и углы, потом выдала ответ "80", сама признавшись в CoT: "guess is not backed by the reasoning prior but seems likely". Потенциал не рос до самого конца.
Что делать: - Если ответ появляется резко, без явной связи с предыдущими шагами — попроси объяснить связь: "Как именно из предыдущих выкладок следует число 80?" - Используй verification промпт: "Проверь своё решение: каждый шаг должен логически вытекать из предыдущего"
3. Сложность для модели ≠ сложность для человека
Что происходит: Модель легко делает концептуально сложный шаг (вывод системы уравнений) — потенциал подрос на 10%. Потом застревает на простой арифметике (подставить число в формулу) — потенциал скачет на 60%. Для людей всё наоборот.
Пример из исследования: Qwen2.5-7B вывела систему уравнений в двух переменных, упростила, нашла _s_ (сложная алгебра) — потенциал +15%. Потом надо было подставить _s_ в уравнение и найти _t_ (подстановка и решение линейного) — потенциал +65%. Модель спотыкается на "лёгком" шаге.
Что делать: - Разбивай арифметику явно: "Сначала вычисли A, затем B, потом сложи" - Не предполагай что "очевидные" шаги модель пропустит без ошибок - Проси промежуточные значения с проверкой: "После каждого вычисления покажи результат и проверь его"
4. Reasoning-модели overthink
Находка: Модели с длинным CoT (o1, R1, Qwen3) чаще уходят в reasoning tangents чем обычные модели. Qwen3-32B в 18% случаев роняет потенциал ниже начального уровня (vs 9.5% у Qwen2.5-7B). Они находят правильный ответ, потом начинают сомневаться, проверяют альтернативы, и уходят в тупик.
Что делать: - Если reasoning-модель выдаёт очень длинный CoT и меняет ответ несколько раз — первые ответы могут быть правильнее последних - Попробуй ограничить длину: "Реши задачу в 3-5 ключевых шагов, без альтернативных проверок"
Техника: CoT Transfer между моделями
Идея: Дай слабой модели начало рассуждения от сильной — слабая решит задачи, которые раньше не могла.
Как работает: Сильная модель проходит концептуально сложные шаги (инсайты), слабая модель застревает именно на них. Если дать слабой готовый инсайт — она справится с остальным.
Результаты исследования: Qwen3-0.6B на AIME-2025 решала 8% задач. Когда ей дали первые 20% CoT от Qwen3-32B — точность выросла до 22%. При 40% CoT — до 35%. Работает даже между разными семействами: Qwen3-0.6B + CoT от GPT-OSS-20B тоже улучшается.
Пример применения
Задача: Разбор сложной бизнес-ситуации — оценить стоит ли запускать новое направление в проекте. Много факторов: финансы, команда, рынок, риски.
Шаг 1 — Сильная модель (GPT-4 / Claude Opus):
Проанализируй запуск нового направления [описание].
Начни анализ: определи ключевые факторы и построй framework
для оценки. Остановись после framework, не делай выводов.
Шаг 2 — Скопируй первые 30-40% ответа (framework, структуру факторов)
Шаг 3 — Слабая модель (GPT-4o-mini / Claude Haiku):
Вот начало анализа от эксперта:
[вставить framework от сильной модели]
Продолжи анализ: заполни framework данными из моей ситуации
и сделай вывод. Вот детали: [твои данные]
Результат: Слабая модель получает структуру мышления от сильной (это и есть инсайт) и применяет к твоим данным. Ты экономишь деньги — большую часть работы делает дешёвая модель, дорогая только задаёт направление.
Где ещё работает: - Код: GPT-4 проектирует архитектуру → GPT-4o-mini пишет реализацию - Тексты: Claude Opus создаёт структуру статьи с тезисами → Claude Haiku раскрывает каждый пункт - Исследования: o1 ставит исследовательские вопросы и методологию → обычная модель собирает данные и анализирует
Почему это работает
Слабость LLM: Модели застревают не на исполнении рутинных операций, а на концептуальных инсайтах — моментах когда нужно увидеть неочевидную связь, сменить подход, заметить паттерн. Для задачи из AIME-1989 (рис. 1 в статье) ключевой инсайт: _n(n+1)(n+2)(n+3) + 1 = (n² + 3n + 1)²_. Увидел это — решил задачу за минуту. Не увидел — застрял.
Сильная сторона LLM: Модели отлично продолжают рассуждение когда направление задано. Если дать им правильный подход — они надёжно выполнят алгебру, подстановки, проверки. Слабая модель на исполнении рутины почти не уступает сильной.
Механика метода: Transfer CoT даёт слабой модели стартовую точку с высоким потенциалом. Вместо pot=10% (начало с нуля), она стартует с pot=60-70% (после инсайта от сильной модели). Дальше слабая модель справляется сама — концептуальная работа уже сделана.
Важно: Это работает потому что инсайты модельно-агностичны. Правильная структура мышления (распознанная сильной моделью) переносится на слабую — как подсказка в правильном направлении для человека.
Ограничения
⚠️ Не для простых задач: Если слабая модель и так решает задачу в 80%+ случаев, transfer не даст прироста. Метод работает когда задача на границе возможностей слабой модели.
⚠️ Ручная работа: Нужно запускать две модели, копировать между ними, определять где остановить сильную. Автоматизация требует API.
⚠️ Зависимость от качества: Если сильная модель сама ушла в tangent (тупик), слабая продолжит по ложному пути. Transfer работает только если сильная дала правильный инсайт.
⚠️ Overthinking риск: Reasoning-модели чаще уходят в тупики (в 18-40% попыток vs 5-9.5% у обычных). Если используешь o1/R1 как "сильную" — проверяй что начало CoT действительно продуктивное.
Как исследовали
Команда взяла сложные математические задачи AIME-2024/2025 (олимпиадный уровень, модели решают 10-40%) и запустила эксперимент: для каждой задачи модель генерировала полное решение, потом исследователи обрезали его в разных точках (10%, 20%, 30%... 90% длины) и просили модель дописать по 128 раз с разными seed. Считали процент правильных ответов на каждой точке — получили кривую потенциала.
Протестировали 6 моделей: Qwen2.5 (1.5B, 7B), Llama-3.1 (8B, 70B), Qwen3 reasoning (0.6B, 32B). Всего 30 задач × 128 попыток = 3,840 рассуждений на модель.
Что измеряли: - Монотонность: растёт ли потенциал от начала к концу (оказалось только в 15-45% случаев) - Reasoning insights: резкие скачки +40%+ за короткий участок (нашли в 36-62% успешных CoT) - Reasoning tangents: падения потенциала на 20%+ (в 5-41% случаев) - Late spikes: потенциал ≈0 до 80%+ длины, потом скачок (признак угадывания, в 0-20% у разных моделей)
Удивительное: Reasoning-модели (Qwen3) показали меньше монотонности (15-36%) чем обычные (42-45% для малых Qwen2.5). Длинные CoT не значит линейный прогресс — модели блуждают, проверяют тупики, overthink. Llama-3.1-70B в 40% случаев уходила в tangents — хуже чем маленькая Llama-3.1-8B (33%).
Transferability тест: Взяли Qwen3-0.6B (слабая) и давали ей частичные CoT от Qwen3-32B и GPT-OSS-20B. Результат: уже при 20% CoT точность удвоилась, при 40% — утроилась. Работает даже cross-family (GPT→Qwen), значит инсайты универсальны.
Инсайт для практики: Если модель даёт разные ответы на один вопрос — это не баг, это нормальная вариативность CoT. Потенциал показывает что одни пути ведут к успеху, другие в тупик. Отсюда практика: sample несколько раз, выбирай лучшее (pass@k) или restart при tangent.
Адаптации и экстраполяции
Техника: Restart on Divergence
Если модель генерирует несколько попыток и они сильно различаются — вероятно одна из них в tangent.
Реши задачу тремя разными способами. После каждого способа
укажи уверенность 0-100%.
Задача: {твоя задача}
Формат:
СПОСОБ 1: [решение]
Уверенность: [число]
СПОСОБ 2: [решение]
Уверенность: [число]
СПОСОБ 3: [решение]
Уверенность: [число]
Если способы дают разные ответы — объясни почему и укажи
какой правильный.
Модель сама пометит где сомневается (низкая уверенность = низкий потенциал).
Техника: Explicit Verification Flow
Против угадывания — требуй явной связи каждого шага:
Реши задачу пошагово. После КАЖДОГО шага явно укажи:
1. Что получили
2. Откуда это следует (какой предыдущий шаг)
3. Зачем это нужно (какой следующий шаг)
Финальный ответ дай ТОЛЬКО если он напрямую вытекает
из последнего шага. Если не вытекает — признай это.
Задача: {задача}
Если модель не может объяснить связь — она ловит сама себя на угадывании.
Техника: Staged Problem Solving (CoT Transfer вручную)
Используй ChatGPT (GPT-4) для концептуальной работы, потом переключись на Claude (дешёвый вариант) или наоборот:
Чат 1 (сильная модель):
Разбери структуру задачи: определи ключевые компоненты,
построй framework подхода, НО не решай до конца.
Задача: {сложная задача}
Чат 2 (слабая модель или та же, но свежий контекст):
Вот framework от эксперта:
[копируешь 30-40% из предыдущего чата]
Теперь заполни детали и доведи до решения.
Экономия токенов + слабая модель получает boost от инсайтов.
Ресурсы
The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics Авторы из исследовательских групп (университеты не указаны в отрывке) Математические олимпиады AIME-2024/2025 — Mathematical Association of America (MAA) Бенчмарки: MATH-500 (Hendrycks et al., 2021), GPQA-Diamond (Rein et al., 2023), HumanEval (Chen et al., 2021)
