3,583 papers
arXiv:2606.07410 74 5 июня 2026 г. FREE

Топологическая мимикрия: почему модели выглядят думающими, но не думают

КЛЮЧЕВАЯ СУТЬ
«Подождите, давайте проверим» — исследователи UCL разобрали 10 247 шагов рассуждений DeepSeek-R1 на олимпиадных задачах и выяснили: почти ни разу это не была настоящая логическая коррекция. Этот фреймворк позволяет явно задавать тип каждого шага — и тогда модель перестаёт имитировать мышление и начинает реально продвигаться вперёд. Фишка: не «думай шаг за шагом», а «каждый шаг — новый вывод; если меняешь стратегию — объясни логически почему» — это различие переключает модель с красивой декорации на работающую механику. Человек решает ту же олимпиадную задачу за ~10 содержательных шагов — модель пишет 132 и приходит к тому же неверному ответу.
Адаптировать под запрос

TL;DR

Когда LLM пишет «подождите, давайте проверим...» — это почти никогда не настоящая логическая коррекция. Исследователи из UCL разобрали 10 247 шагов рассуждений DeepSeek-R1 на олимпиадных задачах и выяснили: модель воспроизводит форму мышления, но не его функцию. Они назвали это топологической мимикрией — рассуждение выглядит правильно структурированным, но не продвигается к ответу.

Главная боль: длинная цепочка «размышлений» не гарантирует качества ответа. Модель может написать 132 шага, сделать вид что проверяет себя, и всё равно дать неверный ответ — потому что все «проверки» были арифметическими (перепроверить умножение), а не логическими (правильно ли вообще выбрана стратегия). Человек решает ту же задачу за ~10 содержательных шагов. Внешне похоже, внутри — совсем другое.

Суть находки: важно не сколько рефлексии, а где она происходит. Рефлексия внутри вывода («Inf_Ref_L» — логическая проверка в момент дедукции) помогает. Рефлексия внутри анализа («Ana_Ref_N» — арифметическая проверка в момент планирования) — это «крутящееся колесо» без реального прогресса.


🔬

Схема метода

Это исследование-находка, а не техника. Исследователи разложили каждый шаг рассуждений на 5 типов:

АНАЛИЗ (Analysis)      → планирование, постановка задачи, НЕ даёт новых выводов
ВЫВОД (Inference)      → новый факт, уравнение, результат — шаг вперёд
ВЕТВЛЕНИЕ (Branch)     → параллельный путь решения, текущий не брошен
ОТКАТ (Backtrace)      → отказ от пути, возврат к ранней точке
РЕФЛЕКСИЯ (Reflection) → мета-слой, накладывается на любой из 4 типов выше

Рефлексия бывает 4 видов — по возрастанию глубины:

Числовая (Numerical)       → перепроверить одно число
Формальная (Formal)        → проверить, соответствует ли ответ условию задачи
Обзорная (Supplementary)   → взять инвентарь: что знаем, что осталось
Логическая (Logical)       → поставить под сомнение саму стратегию

Ключевое открытие:

Рефлексия внутри ВЫВОДА (Inference + Logical) → реальная коррекция, помогает
Рефлексия внутри АНАЛИЗА (Analysis + Numerical) → имитация работы, не помогает

Всё это — аналитический фреймворк. Применяется как линза для оценки ответов LLM и как основа для более точных промптов.


🚀

Пример применения

Задача: Ты просишь Claude помочь составить план запуска телеграм-канала и видишь длинный ответ с фразами «подождите, давайте пересмотрим...», «с другой стороны...», «нужно учесть что...» — и в итоге получаешь 20 пунктов ни о чём.

Промпт:

Помоги составить план запуска телеграм-канала о личных финансах.

Работай так:
1. Сначала сделай один конкретный вывод — не планируй, сразу выводи.
2. Каждый шаг должен добавлять новый факт, решение или действие.
3. Если текущий подход не работает — явно напиши «Возвращаюсь к шагу X» и объясни почему.
4. Если хочешь поставить под сомнение стратегию — сначала покажи, что конкретно не так логически, потом предлагай замену.
5. Не проверяй детали, которые уже решены. Двигайся вперёд.

Не пиши «подождите», «с другой стороны», «нужно учесть» без того, чтобы это меняло направление решения.

Результат: Модель вместо расплывчатого «обзора» начнёт давать конкретные решения с явными переходами. Когда захочет «уточнить» — будет делать это с указанием логической причины, а не просто пересчитывать детали. Ответ будет короче, но каждый шаг будет нести новую информацию.


🧠

Почему это работает

Слабость LLM: Модель обучена на текстах успешных рассуждений. Она научилась воспроизводить структуру — чередование анализа, проверок, веток — потому что в тренировочных данных именно так выглядело мышление. Но структура без содержания — это декорация, не мышление.

Что модель умеет: Следовать явным инструкциям о формате и процессе. Если явно сказать «каждый шаг должен добавлять новый факт» — модель перестраивается. Chain-of-Thought работает именно потому, что задаёт структуру явно.

Как это использовать: Исследование даёт тебе словарь для управления рассуждением. Ты можешь явно попросить Inference («давай выводы»), явно разрешить Backtrace («если не работает — откатись и скажи об этом»), явно запретить Analysis-loop («не пересказывай задачу, сразу вывод»). Вместо «думай шаг за шагом» — конкретные инструкции о типе каждого шага.

Рычаги управления в промпте: - «Каждый шаг = новый факт» → заставляет модель генерировать Inference вместо Analysis - «Если меняешь стратегию — явно напиши почему» → переводит Backtrace из имплицитного в явный - «Не проверяй то, что уже решено» → убирает Numerical-reflection loops - «Если сомневаешься в логике — объясни что именно не так» → форсирует Logical-reflection вместо Numerical


📋

Шаблон промпта

Реши задачу: {задача}

Правила рассуждения:
- Каждый шаг должен добавлять новый вывод или факт. Не пересказывай условие.
- Если текущий подход заходит в тупик — напиши явно: «Откатываюсь к [точка],
  потому что [логическая причина]». Потом предложи другой путь.
- Если хочешь усомниться в стратегии — сначала объясни ЧТО именно логически неверно,
  потом предлагай замену.
- Не проверяй повторно то, что уже установлено.
- {дополнительное_ограничение}

Начинай сразу с первого вывода.

Плейсхолдеры: - {задача} — конкретный вопрос или проблема - {дополнительное_ограничение} — например: «ответ должен быть готов к публикации» или «учитывай бюджет 50 000 рублей»


🚀 Быстрый старт — вставь в чат:

Вот шаблон для управления рассуждением модели. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о задаче и ограничениях — потому что ей нужно понять, какие шаги считаются «новым выводом» именно в твоём контексте. Она возьмёт паттерн из шаблона и адаптирует инструкции рассуждения под предметную область.


⚠️

Ограничения

⚠️ Для простых задач не нужно: Если тебе нужен рецепт борща или перевод абзаца — эти инструкции создадут лишнюю сложность. Метод работает там, где ответ требует нескольких логических шагов.

⚠️ Не убирает проблему, а управляет ею: Топологическая мимикрия — системная особенность LLM, а не баг конкретной версии. Промпт снижает её частоту, но не устраняет. Сложные математические или стратегические задачи всё равно требуют проверки выводов.

⚠️ Работает лучше с большими моделями: Чем мощнее модель, тем точнее она следует инструкциям о типе шага. На слабых моделях инструкции могут игнорироваться.

⚠️ Финальный ответ ≠ качественное рассуждение: Исследование показало: иногда модель даёт правильный ответ через неверную логику. Если процесс важен (обучение, аргументация, юридические решения) — проверяй шаги, не только результат.


🔍

Как исследовали

Исследователи взяли все 30 задач AIME 2025 — это олимпиадные задачи уровня «отбор в американскую сборную», где нельзя угадать: нужна цепочка символьных рассуждений. На них натравили DeepSeek-R1 и получили 10 247 шагов рассуждений. Каждый шаг вручную разметили пятеро аннотаторов — участников математических олимпиад, включая медалистов. Почему вручную? Потому что контекст важнее маркеров: слово «alternatively» может означать и ветвление (добавляю путь), и откат (бросаю провальный путь) — машина без понимания не различит.

Согласие между аннотаторами — 87.3% точных совпадений, κ=0.81 — это высокий показатель для такой тонкой разметки. Параллельно взяли эталонные решения людей-математиков и построили графы логического потока для каждой задачи. Вышла наглядная картина: человек решает задачу за ~10 значимых узлов, модель — за 132 шага с тупиковыми ветками и петлями проверок.

Самый показательный результат: успешные трассы модели и провальные выглядели почти одинаково по количеству шагов и плотности «проверок» — но в успешных рефлексия была логической и встроенной в вывод, а в провальных — числовой и встроенной в анализ. Длина ≠ качество. Это противоречило интуиции «больше думает → лучше отвечает».


📄

Оригинал из исследования

Таксономия шагов (оригинальные определения):

Analysis (A_ana): Steps that produce no new mathematical conclusion.
The model restates or rephrases the problem, sets up notation, lists constraints,
names a candidate strategy, or describes what it intends to do next.
Markers: "let me set up...", "so we need to find...", "one approach is to..."

Inference (A_inf): Steps that produce a new mathematical fact along the current
line of reasoning. A new equation, a new numerical value, a new geometric
relation, an applied theorem, or a discharged case.

Branch (A_bra): Steps in which the model proposes a parallel solution path
while leaving the current path intact.
Markers: "alternatively", "another way to see this", "we could also..."

Backtrace (A_bac): Steps in which the model abandons a recently pursued path
and explicitly returns the trace to an earlier point.
Unlike Branch, Backtrace removes a path from the working agenda rather than adding one.

Reflection subtypes (least → most impactful):
- Numerical (R_num): localised arithmetic check, single calculation
- Formal (R_form): check against output requirements (format, constraints)
- Supplementary (R_sup): stocktaking — listing what's known, what's open
- Logical (R_log): scrutiny of foundational logic, can trigger wholesale reversal

Combined label example: Inf_Ref_L = Inference step with Logical reflection

Контекст: Это операциональная таксономия, которую исследователи использовали для разметки и анализа трасс. Сами метки — готовый словарь для описания типов шагов в промптах.


💡

Адаптации и экстраполяции

💡 Адаптация: Диагностика ответа, который уже получил

Когда модель дала длинный ответ и ты не уверен, можно ли ему доверять:

Посмотри на своё предыдущее рассуждение и оцени каждый шаг:
- Этот шаг добавил новый вывод? (Вывод)
- Или просто пересказал условие / описал план? (Анализ)
- Была ли проверка логики стратегии? Или только пересчёт цифр? (Глубокая / поверхностная рефлексия)

Если больше половины шагов — анализ без выводов, значит ты "крутил колёса".
Перерешай задачу, фокусируясь только на шагах, которые дают новые факты.

🔧 Техника: Форсированный откат при тупике

Когда видишь, что модель повторяет одно и то же разными словами:

Вместо того чтобы продолжать текущий подход — явно откатись. Напиши: «Текущий путь не работает потому что [причина]. Возвращаюсь к [точка]. Пробую [другой подход].»

Это форсирует настоящий Backtrace вместо имитации пересмотра.


🔧 Экстраполяция: Применить к code review или анализу документа

Тот же принцип работает вне математики. Если просишь модель проанализировать договор или код:

Анализируй документ: {текст}

Для каждого найденного вопроса:
1. Сначала сформулируй конкретный вывод (не «нужно обратить внимание», а «пункт 5.3 противоречит пункту 2.1 потому что...»)
2. Если ставишь под сомнение свой вывод — объясни ЧТО логически неверно, не просто «с другой стороны»
3. Не проверяй повторно то, что уже установил

Избегай общих фраз без конкретных последствий.

🔗

Ресурсы

A Comprehensive Anatomy of Human and DeepSeek-R1 LLM Mathematical Reasoning Авторы: Yuxiang Chen, Jun Wang Организация: UCL Centre for Artificial Intelligence (University College London) Контакт: jun.wang@cs.ucl.ac.uk

Связанные работы, упомянутые в исследовании: - Chain-of-Thought (Wei et al., 2022) - Tree-of-Thought (Yao et al., 2023) - Reflexion / Self-Refine (Shinn et al., 2023; Madaan et al., 2023) - DeepSeek-R1-0120 (Shao et al., 2024)


📋 Дайджест исследования

Ключевая суть

«Подождите, давайте проверим» — исследователи UCL разобрали 10 247 шагов рассуждений DeepSeek-R1 на олимпиадных задачах и выяснили: почти ни разу это не была настоящая логическая коррекция. Этот фреймворк позволяет явно задавать тип каждого шага — и тогда модель перестаёт имитировать мышление и начинает реально продвигаться вперёд. Фишка: не «думай шаг за шагом», а «каждый шаг — новый вывод; если меняешь стратегию — объясни логически почему» — это различие переключает модель с красивой декорации на работающую механику. Человек решает ту же олимпиадную задачу за ~10 содержательных шагов — модель пишет 132 и приходит к тому же неверному ответу.

Принцип работы

Каждый шаг рассуждения относится к одному из пяти типов: Анализ (планирование без нового факта), Вывод (новый факт или уравнение — шаг вперёд), Ветка (параллельный путь), Откат (явный отказ от пути) и Рефлексия (мета-слой поверх любого из четырёх). Рефлексия бывает четырёх глубин — от поверхностной к настоящей: — Числовая: перепроверить одну цифру — Формальная: соответствует ли ответ условию — Обзорная: что знаем, что осталось — Логическая: правильно ли выбрана стратегия вообще Правило: рефлексия внутри Вывода + Логическая глубина — реальная коррекция. Рефлексия внутри Анализа + Числовая глубина — крутящееся колесо без движения. Модель как студент, который переписывает черновик снова и снова — проверяет запятые, но не замечает, что решает не ту задачу. Явные инструкции о типе шага — это как сказать ему: «Стоп. Напиши только то, чего раньше не было».

Почему работает

Модель обучена на текстах успешных рассуждений. Она выучила их структуру — чередование анализа, проверок, веток. Структура без содержания это декорация, не мышление. Отсюда 132 шага с фразой «подождите» и неверный ответ в итоге. Но модель хорошо следует явным инструкциям о формате. Это и есть рычаг. Если явно сказать «каждый шаг должен добавлять новый факт» — модель перестраивается: генерирует Выводы вместо Анализа. Именно поэтому Chain-of-Thought (цепочка рассуждений) работает — он задаёт структуру явно. Этот фреймворк идёт дальше: задаёт не просто «думай по шагам», а конкретный тип каждого шага.

Когда применять

Многошаговые задачи, где важен процесс рассуждения: стратегический анализ, сложное планирование, аргументация, юридические или учебные решения — особенно когда модель выдаёт длинный ответ, но ощущение что она ходит по кругу. НЕ подходит для: простых запросов (рецепты, переводы, краткие ответы) — там инструкции создадут лишнюю сложность без пользы. Также не устраняет проблему полностью на слабых моделях — чем мощнее модель, тем точнее она следует инструкциям о типе шага.

Мини-рецепт

1. Запрети пустые шаги: добавь в промпт «каждый шаг должен содержать новый вывод или факт — не пересказ условия, не уточнение уже решённого».

2. Легализуй Откат явно: напиши «если текущий подход не работает — напиши: Откатываюсь к [точка], потому что [логическая причина]». Без этого разрешения модель будет делать откаты скрыто — через невнятные «с другой стороны».

3. Подними планку для смены стратегии: добавь «если хочешь поставить под сомнение подход — сначала объясни ЧТО именно логически неверно, потом предлагай замену». Это форсирует Логическую рефлексию вместо Числовой.

4. Запусти сразу с Вывода: заканчивай промпт фразой «начинай сразу с первого вывода» — это отрезает вводной Анализ, который чаще всего и запускает холостой ход.

5. Используй шаблон для сложных задач:
Реши задачу: {задача}

Правила:
— Каждый шаг = новый вывод или факт. Не пересказывай условие.
— Если уходишь от пути: напиши явно «Откатываюсь к [точка], потому что [причина]».
— Если сомневаешься в стратегии: сначала объясни что логически не так, потом предлагай другое.
— Не проверяй повторно то, что уже установлено.

Начинай сразу с первого вывода.

Примеры

[ПЛОХО] : Подумай шаг за шагом, как мне запустить телеграм-канал о личных финансах
[ХОРОШО] : Реши задачу: запуск телеграм-канала о личных финансах, бюджет 0 рублей, старт через 2 недели. Правила: — Каждый шаг — новое решение или факт. Не планируй, сразу выводи. — Если текущее направление заходит в тупик — напиши явно: «Откатываюсь к шагу X, потому что [логическая причина]». — Если хочешь изменить подход — сначала объясни что именно не так, потом предлагай замену. — Не пересматривай то, что уже решено. Начинай сразу с первого конкретного решения. Результат: вместо 20 расплывчатых пунктов модель даёт конкретные решения с явными переходами. Когда хочет «уточнить» — указывает логическую причину, а не просто пересчитывает детали.
Источник: A Comprehensive Anatomy of Human and DeepSeek-R1 LLM Mathematical Reasoning (arXiv: 2606.07410)
ArXiv ID: 2606.07410 | Сгенерировано: 2026-06-08 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Длинная цепочка рассуждений не гарантирует качестваМодель пишет «подождите, давайте проверим...» и делает 100+ шагов. Большинство шагов — пересчёт уже решённого или пересказ условия. Новых выводов нет. Внешне выглядит как глубокая проверка. Внутри — топтание на месте. Это происходит на любой многошаговой задаче: планирование, анализ, математикаЯвно ограничь тип шагов в промпте. Требуй чтобы каждый шаг добавлял новый факт или вывод. Запрети пересказ условия и повторную проверку уже решённого

Методы

МетодСуть
Явные правила типа шага — управление рассуждениемВ промпте задай что считается шагом вперёд. Используй такую конструкцию: Каждый шаг = новый вывод или факт. Не пересказывай условие. Если заходишь в тупик — напиши явно: «Откатываюсь к [точка], потому что [логическая причина]». Если сомневаешься в стратегии — сначала объясни что именно не так логически, потом предлагай замену. Не проверяй повторно то, что уже установлено. Почему работает: Модель умеет следовать явным инструкциям о формате. Без явного требования она воспроизводит структуру «похожую на мышление» — из тренировочных данных. С явным требованием — переключается на генерацию новых выводов. Когда применять: задачи с несколькими логическими шагами, планирование, анализ. Когда не нужен: простые или одношаговые задачи

Тезисы

ТезисКомментарий
Важно не сколько проверок, а где они происходятПроверка во время вывода («это уравнение логически неверно, меняю подход») — двигает вперёд. Проверка во время планирования («пересчитаю это число ещё раз») — имитирует работу без прогресса. Одно и то же слово «проверю» означает разные вещи в зависимости от места в рассуждении. Применяй: в промпте различай явно — «пересчёт деталей» запрети, «сомнение в выбранном пути» — разреши и попроси объяснять причину
📖 Простыми словами

A Comprehensive Anatomy of Human andDeepSeek-R1LLMMathematical Reasoning

arXiv: 2606.07410

Когда DeepSeek-R1 или любая другая продвинутая модель начинает вслух сомневаться и писать «так, погодите, давайте перепроверим», она не включает мозг. На самом деле это топологическая мимикрия: нейронка просто имитирует внешние признаки глубоких раздумий, потому что её так обучили. Она знает, что умные люди в текстах часто спотыкаются и исправляются, поэтому воспроизводит саму форму сомнения, не имея при этом реального понимания, где именно она лажанула.

Это как если бы ты смотрел на актера, который играет гениального хирурга. Он может идеально хмурить брови, поправлять очки и вовремя кричать «скальпель!», создавая полную иллюзию сложнейшей операции. Но если дать ему настоящий нож, он не сделает ни одного правильного надреза. Модель просто косплеит процесс мышления, выдавая декорации за реальную работу нейронов, и в 10 247 проанализированных шагах это подтвердилось: красивые фразы о проверке ошибок почти никогда не вели к исправлению этих самых ошибок.

В реальности мы видим 5 типов шагов, из которых состоят эти «рассуждения», и большинство из них — пустой прогон воздуха. Модель может запустить ветку анализа, начать проверку или имитировать сомнение, но это не продвигает её к ответу. Это имитация функции через форму: если в тренировочных данных правильные ответы всегда сопровождались длинными размышлениями, модель будет генерировать длинные размышления, даже если они абсолютно бессмысленны для решения конкретной задачи.

Принцип универсален и касается не только олимпиадной математики. Когда ты просишь AI составить стратегию маркетинга, а он выдает простыню текста с фразами «нужно учесть риски» и «давайте посмотрим с другой стороны», ты получаешь иллюзию глубины. Это работает везде: в кодинге, в написании статей, в планировании. Модель просто заполняет пространство паттернами, которые выглядят как «умный контент», но по факту это белый шум в красивой обертке, который не гарантирует результат.

Короче: не ведись на «мыслительный процесс» нейронок, это всего лишь карго-культ логики. Если модель начала долго рассуждать, это не значит, что она стала умнее — она просто тратит твои токены на воспроизведение театрального сценария. Структура без содержания — это просто декорация, поэтому всегда проверяй финальный результат, не обращая внимания на то, как уверенно и «вдумчиво» модель к нему шла.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с