3,583 papers

Меню

arXiv:2602.02416 83 2 фев. 2026 г. FREE

Thought-ICS: структурированная самокоррекция через дискретные шаги мышления

КЛЮЧЕВАЯ СУТЬ
LLM плохо находит ошибки в сплошном тексте своих рассуждений. Попытка указать где именно начался сбой в трёх абзацах Chain-of-Thought — модель промахивается мимо реальной первой ошибки в 40-50% случаев. Thought-ICS решает проблему через дискретную структуру: модель рассуждает мысль-за-мыслью с явными границами между шагами, что позволяет точно находить первую ошибку и откатываться к чистому префиксу для пересэмплирования. Фишка: каждый шаг — осознанное решение о следующей законченной мысли. Это создаёт естественные точки для анализа. Большие модели получают чистый откат (без унаследованных ошибок) в 97% случаев — против значительно меньшего на сплошном CoT. Результат: 20-40% рост точности над обычным Chain-of-Thought.
Адаптировать под запрос

TL;DR

Thought-ICS — метод самокоррекции LLM через пошаговую генерацию рассуждений. Вместо того чтобы генерировать текст сплошным потоком (как обычный Chain-of-Thought), модель выдаёт рассуждение мысль-за-мыслью: на каждом шаге осознанно формулирует следующую законченную мысль, делает паузу, затем следующую. Это создаёт дискретную цепочку рассуждений с чёткими границами между шагами. После генерации система проверяет ответ, и если он неверен — запускает цикл коррекции: модель анализирует свои шаги, находит первую ошибочную мысль, откатывается к последнему правильному шагу и генерирует альтернативное продолжение.

LLM плохо находят ошибки в сплошном тексте своих рассуждений. Когда модель генерирует CoT обычным способом (токен за токеном), получается непрерывный поток текста без явных границ между логическими шагами. Попытка найти ошибку превращается в задачу "укажи где именно в этих трёх абзацах ты ошибся" — модель не может точно локализовать проблему, часто указывает не на первую ошибку или вообще мимо. Исследователи показали: на неструктурированном CoT модели получают erroneous prefix (префикс который всё ещё содержит ошибку) в значительной части случаев, что ломает всю идею отката и пересэмплирования.

Дискретная структура решает проблему. Когда модель генерирует мысль-за-мыслью, каждый шаг — это осознанное решение "какая следующая законченная мысль должна быть". Это создаёт естественные границы принятия решений в рассуждении. При анализе модель может пройтись по пронумерованным шагам и точно сказать "шаг 6 — вот здесь ошибка". Откат к шагу 5 даёт clean prefix (чистый префикс без ошибок). Большие модели получают clean prefix в 97% случаев. От чистого префикса пересэмплирование работает в разы эффективнее — модель строит альтернативное рассуждение с правильной основой. Thought-ICS показывает 20-40% lift над базовым Chain-of-Thought при наличии верификатора.


🔬

Схема метода

ГЕНЕРАЦИЯ (Thought MDP): Мысль-за-мыслью до финального ответа

Промпт: "Сформулируй следующий шаг рассуждения (одно наблюдение, вычисление или вывод)"
→ Мысль 1 [стоп]
→ Мысль 2 [стоп]
→ ...
→ Мысль N [финальный ответ]

ВЕРИФИКАЦИЯ: Ответ правильный?

НЕТ → продолжить цикл коррекции
ДА → выход

ЛОКАЛИЗАЦИЯ: Найти первую ошибочную мысль

Промпт: "Проанализируй каждый шаг. Найди логические ошибки, неправильные вычисления, 
         ложные предположения. Верни номер первого ошибочного шага"
→ "Ошибка в шаге 6: [объяснение]"

ПЕРЕСЭМПЛИРОВАНИЕ: Откат и новая ветка

Откат к шагу 5 (последний правильный)
Генерация новой последовательности мыслей от шага 6
→ альтернативное рассуждение

Цикл повторяется до корректного ответа или максимума итераций.


🚀

Пример применения

Задача: Ты консультируешь стартап по подписке на здоровое питание. Надо посчитать unit-экономику: сколько стоит привлечь клиента, сколько он принесёт, когда окупится. Цифры: CAC 3000₽, средний чек 4500₽/мес, маржа 40%, средний LT 8 месяцев, churn 15%/мес. Нужна точность — инвестор спрашивает ROI.

Промпт:

Задача: Рассчитай unit-экономику для бизнеса с подпиской.

Данные:
- CAC (стоимость привлечения клиента): 3000₽
- Средний чек: 4500₽/месяц
- Маржинальность: 40%
- Средний LT (lifetime): 8 месяцев
- Churn rate: 15%/месяц

Рассуждай пошагово. После каждого шага делай паузу.

Структура вывода:
ШАГ 1: [первая мысль/вычисление]
---
ШАГ 2: [следующая мысль/вычисление]
---
...

После финального ответа остановись.

Если получишь ответ — я проверю правильность. Если неверно — ты проанализируешь 
свои шаги, найдёшь первую ошибку, вернёшься к последнему правильному шагу 
и продолжишь рассуждение по-другому.

Результат:

Модель выдаст последовательность пронумерованных шагов: расчёт маржинального дохода с клиента, умножение на LT, вычет CAC, расчёт payback period. Каждый шаг — отдельный блок с явной границей.

Если в решении ошибка (например, забыла учесть churn при расчёте retention) — ты говоришь "неверно". Модель анализирует шаги, находит "ШАГ 3: ошибка — не учёл влияние churn на средний LT", откатывается к ШАГу 2 и строит альтернативное продолжение: пересчитывает retention с учётом churn, корректирует LT, выдаёт правильный итоговый расчёт.

Вместо полного пересчёта с нуля — точечная коррекция конкретного шага.


🧠

Почему это работает

LLM не может надёжно локализовать ошибки в сплошном потоке текста. Когда модель генерирует Chain-of-Thought обычным способом, получается непрерывная последовательность токенов без чётких границ между логическими шагами. Попытка найти "где именно ошибка" требует парсинга смысла из абзацев текста. Модель часто промахивается: указывает на шаг который уже содержит последствия ранней ошибки, или вообще не может найти.

LLM хорошо умеет генерировать последовательности и следовать структурированным инструкциям. Когда на каждом шаге модель получает промпт "сформулируй следующую законченную мысль", она делает осознанное решение о содержании этого шага. Это создаёт естественные границы принятия решений — точки где одна мысль закончилась, следующая началась. Структура явная: мысль 1, мысль 2, мысль 3...

Метод использует эти границы как якоря для локализации. Модель проходит по пронумерованным шагам и анализирует каждый отдельно. "Шаг 1 — корректен. Шаг 2 — корректен. Шаг 3 — здесь ошибка в вычислении." Исследование показало: большие модели получают clean prefix (префикс до первой ошибки) в 97% случаев при структурированных рассуждениях — против значительно меньшего процента на сплошном CoT. От чистого префикса пересэмплирование работает эффективно: модель строит альтернативное рассуждение с правильной основой.

Рычаги управления:

  • Stopping marker между мыслями (---, [NEXT], ) — выбираешь что удобнее парсится
  • Глубина детализации шагов ("одно вычисление" vs "один логический блок") — влияет на точность локализации
  • Максимум итераций цикла коррекции — баланс между качеством и токенами
  • Источник верификации (oracle = ты сам проверяешь / self = модель сама) — oracle точнее, self автономнее

📋

Шаблон промпта

📌

Вариант 1: Структурированная генерация с ручной коррекцией

Задача: {описание_задачи}

Рассуждай пошагово. Каждый шаг — одна законченная мысль (наблюдение, вычисление, вывод).

Формат вывода:
ШАГ 1: [текст мысли]
---
ШАГ 2: [текст мысли]
---
...
ШАГ N: [финальный ответ]

Делай паузу после каждого шага. Переходи к следующему только когда текущий 
сформулирован полностью.

Применение: После генерации ты проверяешь ответ. Если неверно → просишь модель проанализировать шаги и найти ошибку → она возвращает номер шага → ты пишешь "вернись к шагу N-1 и продолжи по-другому".


📌

Вариант 2: Автономный цикл самокоррекции

Задача: {описание_задачи}

ИНСТРУКЦИЯ:
1. Сгенерируй решение пошагово. Каждый шаг нумеруй.
   Формат: "ШАГ X: [мысль]"

2. После завершения — проверь ответ самостоятельно.

3. Если ответ неверен:
   - Проанализируй каждый шаг
   - Найди первую ошибку (логическую, вычислительную, концептуальную)
   - Верни: "Ошибка в ШАГе X: [объяснение]"
   - Откатись к ШАГу X-1
   - Сгенерируй альтернативное продолжение

4. Повтори проверку. Если снова неверно — повтори анализ и коррекцию.

Максимум {N} итераций коррекции.

Начни с генерации первого варианта решения:

Заполни: {описание_задачи} — твоя задача, {N} — количество попыток коррекции (2-3 достаточно).


🚀 Быстрый старт — вставь в чат:

Вот метод Thought-ICS для точной самокоррекции. Адаптируй под мою задачу: [твоя задача]. 
Задай вопросы чтобы правильно структурировать.

[вставить Вариант 2 выше]

Модель спросит детали задачи, сколько итераций, нужна ли ей автономная проверка или ты будешь верифицировать вручную. Она возьмёт паттерн пошаговой генерации → локализации → отката и адаптирует под твой кейс.


⚠️

Ограничения

⚠️ Простые задачи: Для вопросов типа "столица Франции" структура избыточна — обычный CoT достаточен. Метод эффективен когда рассуждение сложное и вероятность ошибки высока (математика, многошаговый анализ, расчёты).

⚠️ Токены: Цикл коррекции требует больше токенов чем однократная генерация: несколько веток рассуждений + анализ + локализация. На сложных задачах это оправдано ростом точности, на простых — расточительно.

⚠️ Self-verification неидеальна: Когда модель сама проверяет правильность (без внешнего верификатора), она может пропустить ошибку или наоборот ложно забраковать правильный ответ. Исследование показало что V/L disagreement (верификация говорит "неверно", локализация не находит ошибку) — частый случай выхода при self-verification. Oracle verification (ты сам проверяешь или есть ground truth) надёжнее.

⚠️ Маленькие модели: Локализация работает тем лучше, чем больше модель. Модели 3B-8B дают clean prefix (чистый откат до первой ошибки) реже — часто промахиваются мимо реальной первой ошибки и откатываются к префиксу который всё ещё содержит баг. Модели 70B+ показывают 97% clean prefix.


🏗️

Почему структура эффективнее сплошного CoT

Исследователи сравнивали Thought-ICS (структурированная генерация) с Token-ICS (обычный CoT + попытка локализовать ошибку в тексте). Обе версии использовали одинаковый фреймворк: верификация → локализация → откат → пересэмплирование. Разница только в генерации: мысль-за-мыслью vs токен-за-токеном.

Тестировали на восьми моделях (от 3B до 120B параметров) и шести бенчмарках: математические соревнования (AMC, AIME), сложные задачи уровня MATH-L5, арифметические задачи (MathQA), здравый смысл (CSQA), наука уровня PhD (GPQA). По 100 задач на датасет.

Ключ к честному эксперименту: использовали oracle verification — внешний верификатор (ground truth) говорил "ответ неверен", чтобы изолировать способность к локализации и коррекции от проблем с верификацией. Если модель не может определить что ошибка есть — коррекция не запустится вообще. Oracle убрал этот барьер.

Находка: Thought-ICS показал 20-40% lift (рост точности относительно baseline CoT) почти на всех моделях и датасетах. Token-ICS в лучшем случае давал 5-10% lift, часто вообще не давал улучшения или даже вредил.

Почему такая разница? Провели детальный анализ локализации. Взяли три frontier модели (Sonnet-3.7, GPT-4.1, GPT-o1-mini) как oracle localizer — они независимо анализировали ошибочные решения и указывали первую ошибку. Если все три согласились — это "ground truth" локализация. Согласие на структурированных рассуждениях: 51% полное совпадение, 74% в пределах ±1 шаг, 85% в пределах ±2 шагов. На сплошном CoT согласие было значительно ниже — модели цитировали разные фрагменты текста, даже с tolerance 10% длины решения согласие всего 58%.

Затем сравнили self-localization (модель сама ищет ошибку) с oracle. На структурированных рассуждениях большие модели (70B+) получали clean prefix в 97% случаев — откатывались к точке до первой ошибки или раньше. Средние модели (7-32B) — 53-71% clean prefix. На сплошном CoT даже большие модели часто промахивались.

Критический инсайт: когда модель откатывается к clean prefix (без ошибок), пересэмплирование работает в разы эффективнее. От чистой основы модель строит альтернативное рассуждение с вероятностью успеха ~60-80%. Когда префикс erroneous (содержит ошибку которую пропустили) — вероятность коррекции падает до ~20-30%, потому что модель снова приходит к неверному выводу, наследуя раннюю ошибку.

Бонус: сама структурированная генерация (даже без коррекции) давала небольшой initial lift — модель сразу чаще решала правильно. Авторы предполагают: явная пауза между мыслями заставляет модель более обдуманно формулировать следующий шаг, снижая импульсивные ошибки.

Также тестировали self-verification режим (никакого oracle) — модель сама решает, проверяет, находит ошибку, корректирует. Результат: всё равно net positive lift, хотя и меньше чем с oracle, потому что self-verification иногда пропускает ошибки или ложно бракует правильное. Но Thought-ICS всё равно обогнал существующие методы самокоррекции (Self-Refine, CoVe) которые работают на сплошном CoT.


📄

Оригинал из исследования

Промпт для пошаговой генерации (Thought MDP):

State your next reasoning step (one observation, calculation, or deduction).

Модель выдаёт одну мысль, затем специальный closing marker (например --- или ). Система добавляет эту мысль к префиксу и снова даёт тот же промпт. Цикл до финального ответа (например \boxed{...}).


Промпт для локализации ошибки:

You generated the following reasoning trace:

[STEP 1] {thought 1}
[STEP 2] {thought 2}
...
[STEP N] {thought N}

Analyze each step carefully. Identify any logical flaws, arithmetic mistakes, 
or incorrect assumptions.

If you find an erroneous step, return:
- The step number of the FIRST error
- Brief explanation of what went wrong

If no error is found, state "No error identified."

Контекст: Исследователи использовали эти промпты для тестирования на моделях через API. Пошаговая генерация создавала дерево рассуждений: каждая мысль — узел, откат — переход к родительскому узлу, пересэмплирование — новая ветка. В inference time фреймворк управлял циклом: генерация → верификация → локализация → откат → новая генерация.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: упрощённый мануальный режим

Если не хочешь автоматизировать цикл — используй структуру вручную:

Шаг 1: Попроси модель решить задачу пошагово с явной нумерацией.

Реши задачу шаг за шагом. Нумеруй каждый шаг: "ШАГ 1:", "ШАГ 2:", и т.д.
Задача: {твоя_задача}

Шаг 2: Проверь финальный ответ. Если неверен → запроси анализ:

Ответ неверен. Проанализируй свои шаги. Найди первую ошибку. 
Верни номер шага и объяснение.

Шаг 3: Получив номер (например, "ошибка в ШАГе 5") → откат:

Вернись к ШАГу 4. Продолжи решение с этого момента, 
но рассуждай по-другому на ШАГе 5.

Ценность: контроль на каждом этапе. Ты видишь что модель локализовала, можешь согласиться или оспорить, можешь сам указать шаг для отката.


📌

🔧 Техника: добавь явный финальный чек-лист

После финального ответа попроси модель проверить себя по критериям:

ШАГ N: [финальный ответ]

ФИНАЛЬНАЯ ПРОВЕРКА:
□ Все вычисления корректны?
□ Логика не содержит противоречий?
□ Ответ соответствует исходному вопросу?
□ Единицы измерения правильные?

Если хоть один пункт НЕТ — верни номер шага с ошибкой.

Эффект: снижает ложные срабатывания локализации (когда модель не видит ошибку) и добавляет структурированную самопроверку.


📌

🔧 Техника: мета-рефлексия после коррекции

После пересэмплирования попроси модель объяснить что изменилось:

Ты откатился к ШАГу X и сгенерировал новое продолжение.

Объясни:
1. Что было неправильно в первой версии?
2. Что изменилось во второй версии?
3. Почему новое рассуждение корректнее?

Эффект: прозрачность коррекции. Видишь не только итоговый ответ, но и понимание модели что именно она исправила. Полезно для обучения и для сложных кейсов где нужна уверенность в выводах.


🔗

Ресурсы

"Structure Enables Effective Self-Localization of Errors in LLMs" — оригинальное исследование, тестировавшее Thought-ICS на восьми моделях (LLaMA 3, Qwen 2.5, GPT-OSS) и шести reasoning бенчмарках.

Авторы упоминают связь с работами по anterior cingulate cortex (нейробиология мониторинга ошибок на уровне discrete decision points): Botvinick et al. 2004, Carter et al. 1998, MacDonald et al. 2000 — как вдохновение для архитектуры метода.

Связанные методы самокоррекции: Self-Refine (Madaan et al., 2023), CoVe (Dhuliawala et al., 2023), Reflexion (Shinn et al., 2023), RCI (Kim et al., 2023). Thought-ICS отличается от них наличием явной структуры и точечной локализации, вместо холистической регенерации всего решения.

Thought-level generation использовалась в Tree-of-Thoughts (Yao et al., 2023), но там сегментация rule-based и требуется external scoring. Thought-ICS даёт модели самой определять boundaries мыслей.


📋 Дайджест исследования

Ключевая суть

LLM плохо находит ошибки в сплошном тексте своих рассуждений. Попытка указать где именно начался сбой в трёх абзацах Chain-of-Thought — модель промахивается мимо реальной первой ошибки в 40-50% случаев. Thought-ICS решает проблему через дискретную структуру: модель рассуждает мысль-за-мыслью с явными границами между шагами, что позволяет точно находить первую ошибку и откатываться к чистому префиксу для пересэмплирования. Фишка: каждый шаг — осознанное решение о следующей законченной мысли. Это создаёт естественные точки для анализа. Большие модели получают чистый откат (без унаследованных ошибок) в 97% случаев — против значительно меньшего на сплошном CoT. Результат: 20-40% рост точности над обычным Chain-of-Thought.

Принцип работы

Не пытайся исправлять ошибки в сплошном потоке рассуждений — структурируй генерацию как последовательность дискретных мыслей. Каждый шаг — одно законченное наблюдение, вычисление или вывод с явной границей (ШАГ 1: [мысль] --- ШАГ 2: [мысль]). Дискретные границы между мыслями = точки откуда можно откатиться. При ошибке модель анализирует пронумерованные шаги, находит первую проблемную мысль, откатывается к последнему правильному шагу и строит альтернативное продолжение. Цикл: генерация мысль-за-мыслью → верификация → локализация → откат → пересэмплирование от чистой основы.

Почему работает

Сплошной Chain-of-Thought — непрерывный поток токенов без чётких границ между логическими шагами. Попытка найти ошибку превращается в задачу парсинга смысла из абзацев. Модель часто указывает на шаг который уже содержит последствия ранней ошибки, или вообще промахивается. Дискретная структура создаёт естественные границы принятия решений. Модель проходит по пронумерованным шагам и анализирует каждый отдельно: "Шаг 1 — корректен. Шаг 2 — корректен. Шаг 3 — здесь ошибка в вычислении." От чистого префикса пересэмплирование работает в разы эффективнее — модель строит альтернативное рассуждение с правильной основой. Вероятность успеха ~60-80% от чистого префикса против ~20-30% когда префикс содержит унаследованную ошибку. Исследование на восьми моделях (3B-120B) показало: большие модели получают чистый откат в 97% случаев на структурированных рассуждениях — три frontier-модели (Sonnet, GPT-4, o1-mini) согласились в локализации в 51% полностью, 74% в пределах ±1 шаг.

Когда применять

Сложные многошаговые задачи где высока вероятность ошибки → математика, расчёты unit-экономики, многоэтапный анализ данных, цепочки логических выводов, особенно когда нужна точность в финальном ответе и есть возможность верификации (ground truth или ручная проверка). НЕ подходит для простых вопросов типа "столица Франции" — структура избыточна, обычный CoT достаточен. Расход токенов выше из-за цикла коррекции — оправдано на задачах где ошибка дорого обходится.

Мини-рецепт

1. Структурируй генерацию: Промпт Рассуждай пошагово. Каждый шаг - одна законченная мысль (наблюдение, вычисление, вывод). Формат: ШАГ 1: [мысль] --- ШАГ 2: [мысль] --- ... Модель делает паузу после каждого шага.

2. Проверь ответ: Вручную (если знаешь правильный) или через модель (Проверь правильность финального ответа). Если верно — готово. Неверно — продолжай.

3. Локализуй ошибку: Проанализируй каждый шаг. Найди логические ошибки, неправильные вычисления, ложные предположения. Верни номер первого ошибочного шага и объясни. Модель возвращает Ошибка в ШАГе 6: [объяснение].

4. Откатись и пересэмпли: Вернись к последнему правильному шагу (N-1 если ошибка в шаге N). Вернись к ШАГу 5. Продолжи рассуждение по-другому. Модель генерирует альтернативное продолжение от этой точки. Повтори проверку. Максимум 2-3 итерации.

Примеры

[ПЛОХО] : Посчитай unit-экономику для подписки: CAC 3000₽, средний чек 4500₽/мес, маржа 40%, средний lifetime 8 месяцев, churn 15%/месяц. Рассуждай пошагово. (Модель выдаст сплошной текст рассуждений. При ошибке в расчёте retention ты не сможешь точно указать откуда пересчитать — придётся начинать с нуля)
[ХОРОШО] : Рассуждай пошагово. Формат: ШАГ 1: [мысль] --- ШАГ 2: [мысль] --- ... Данные: CAC 3000₽, чек 4500₽/мес, маржа 40%, LT 8мес, churn 15%/мес. Посчитай: 1) маржинальный доход с клиента, 2) lifetime value с учётом churn, 3) payback period. После решения я проверю. Если неверно — проанализируй свои шаги, найди первую ошибку, вернись к последнему правильному шагу и продолжи по-другому. (Модель выдаст пронумерованные шаги. Если в ШАГе 3 забыла учесть влияние churn на retention — ты говоришь "неверно", она анализирует, находит "ШАГ 3: ошибка — не учёл churn при расчёте среднего LT", откатывается к ШАГу 2 и строит новое продолжение с корректным расчётом retention. Точечная коррекция конкретного шага вместо полного пересчёта)
Источник: Structure Enables Effective Self-Localization of Errors in LLMs
ArXiv ID: 2602.02416 | Сгенерировано: 2026-02-03 07:25

Проблемы LLM

ПроблемаСутьКак обойти
Модель не может найти ошибку в сплошном тексте рассужденийГенерируешь обычный Chain-of-Thought — получаешь абзацы текста без явных границ между логическими шагами. Просишь "найди где ошибся" — модель теряется. Указывает не на первую ошибку или вообще мимо. Причина: нет чётких точек принятия решений. Всё слилось в непрерывный поток. Модель не может точно сказать "вот здесь, между этими двумя предложениями, я сделал неверный вывод". Это ломает любую попытку отката и пересчётаГенерируй рассуждения мысль-за-мыслью. На каждом шаге модель формулирует одну законченную мысль, делает паузу, потом следующую. Нумеруй шаги: "ШАГ 1: ...", "ШАГ 2: ...". Разделяй маркером (--- или [NEXT]). Это создаёт дискретную структуру с явными границами. Теперь модель анализирует каждый шаг отдельно и точно указывает номер ошибочного

Методы

МетодСуть
Генерация мысль-за-мыслью — создание якорей для коррекцииВместо сплошного потока токенов модель генерирует рассуждение дискретными шагами. Промпт: "Сформулируй следующую законченную мысль (одно наблюдение, вычисление или вывод)". Модель выдаёт ШАГ 1 стоп ШАГ 2 стоп ... финальный ответ. Каждый шаг — это осознанное решение о содержании следующей мысли. Создаются естественные границы между логическими элементами. Почему работает: Границы шагов = точки принятия решений. Модель может вернуться к каждой точке и проанализировать "здесь решение было правильным?" Без структуры всё смешано — нельзя точно указать где именно сбой. Применяй: Сложные рассуждения (расчёты, многошаговый анализ, доказательства). Для простых вопросов избыточно. Синтаксис в промпте: "Формат вывода: ШАГ 1: [текст]
---
ШАГ 2: [текст]
---"
Thought-ICS — структурированная самокоррекция через локализацию и откатПолный цикл: генерация мысль-за-мыслью проверка ответа если неверно: анализ шагов поиск первой ошибки откат к последнему правильному шагу новое рассуждение от этой точки. Шаги: 1) Модель генерирует решение как пронумерованные мысли. 2) Ты или модель проверяет ответ. 3) Если неверно: модель анализирует каждый шаг и находит номер первой ошибки ("Ошибка в ШАГе 6: забыл учесть X"). 4) Откат к ШАГу 5 (последний правильный). 5) Генерация альтернативного продолжения от шага 6. 6) Повторная проверка. Максимум 2-3 итерации. Почему работает: Откат к чистой точке (без ошибок) даёт вероятность успеха ~60-80%. Если откатиться к месту которое уже содержит раннюю ошибку — коррекция почти не работает (~20-30% успеха). Структура даёт точный откат. Когда применять: Задачи где высока цена ошибки и возможна проверка (математика, расчёты, формальная логика). Когда нет: Простые вопросы, субъективные оценки без критерия правильности

Тезисы

ТезисКомментарий
Дискретные границы в рассуждении создают якоря для локализации ошибокМодель лучше анализирует пронумерованные шаги чем сплошной текст. Когда рассуждение разбито на "ШАГ 1", "ШАГ 2", "ШАГ 3" — каждый шаг это отдельная единица анализа. Модель проходит по списку и точно говорит "шаг 6 ошибочен". В сплошном тексте границы размыты — модель не может точно указать где именно случился сбой. Механика: Дискретная структура = явные точки принятия решений. Модель "помнит" что на каждом шаге делала выбор. Это помогает вернуться и пересмотреть конкретный выбор. Применяй: Любая задача где нужна самокоррекция — структурируй вывод на явные шаги перед анализом
Откат к моменту до первой ошибки критичен для успешной коррекцииЕсли модель откатывается к чистому префиксу (все предыдущие шаги правильные) — пересэмплирование работает эффективно. Если префикс содержит раннюю ошибку которую пропустили — модель снова придёт к неверному выводу, наследуя баг. Разница в успехе в 2-3 раза. Почему: Рассуждение — это цепочка зависимостей. Ошибка на шаге 3 портит шаги 4, 5, 6. Откат к шагу 5 бесполезен — шаг 3 всё ещё сломан. Откат к шагу 2 (до ошибки) даёт чистую основу. Применяй: При любой коррекции не бери первую найденную ошибку — ищи ПЕРВУЮ (самую раннюю). Откатывайся к шагу перед ней
📖 Простыми словами

Structure Enables Effective Self-Localization of Errors inLLMs

arXiv: 2602.02416

Нейросети тупят не потому, что они глупые, а потому, что они не умеют вовремя заткнуться и подумать. Когда обычная модель выдает цепочку рассуждений, она гонит сплошной поток сознания, где одна мысль плавно перетекает в другую. В этом непрерывном киселе невозможно найти точку, где всё пошло не так. Если модель ошиблась в самом начале, она просто нанизывает новые косяки на старые, пока не выдаст уверенный, но абсолютно бредовый финал.

Это как если бы ты собирал шкаф из Икеи по инструкции, где все шаги слиты в один огромный абзац без знаков препинания. Стоит один раз вкрутить не тот болт — и всё, к середине сборки у тебя получается не шкаф, а абстрактная скульптура, и ты понятия не имеешь, на какой странице случился критический сбой. Ты смотришь на результат, понимаешь, что это херня, но разобрать конструкцию до нужного места не можешь, потому что границ между этапами просто нет.

Метод Thought-ICS решает это через принудительную структуру: модель заставляют выдавать мысли порциями, делая паузы после каждого логического шага. Это создает дискретную цепочку, где каждая мысль — это отдельный кирпичик с четкими границами. Если итоговый ответ не сошелся, система не переписывает всё с нуля, а включает режим ревизора. Она идет по этим кирпичикам, находит первую ошибочную мысль, выкидывает её вместе со всем последующим мусором и пробует построить альтернативный путь от последнего нормального шага.

Этот принцип универсален и применим везде, где нужна точность выше среднего: от расчета unit-экономики стартапа до написания сложного кода. Тестировали метод на математике и логике, но логика везде одинаковая. Вместо того чтобы просить AI «просто решить задачу», его заставляют работать пошагово, фиксируя промежуточные результаты. Это превращает процесс из «угадайки» в контролируемую сборку, где каждый этап можно проверить и откатить без потери всей проделанной работы.

Короче, секрет адекватности AI не в объеме знаний, а в умении вовремя нажать на тормоз. Локализация ошибок через структуру — это единственный способ заставить LLM признавать свои косяки и исправлять их, а не галлюцинировать до победного конца. Если хочешь получить от модели результат, который не стыдно показать инвестору, забудь про простыни текста и требуй пошаговую структуру. Кто не умеет дробить задачу на части, тот обречен бесконечно переделывать одну и ту же фигню.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с