3,583 papers
arXiv:2606.29876 72 29 июня 2026 г. FREE

Structured Reflection Protocol: как заставить LLM проверить собственный вывод — и почему точный ответ не значит надёжное мышление

КЛЮЧЕВАЯ СУТЬ
Парадокс: структура рассуждений у LLM почти одинакова для правильных и неправильных ответов. Развёрнутое убедительное объяснение — не доказательство надёжности. Structured Reflection Protocol позволяет получить более строгий анализ: вместо одного потока мыслей — три явные фазы, где модель сначала формулирует задачу своими словами, затем атакует собственный вывод, потом решает — защитить или пересмотреть. Фишка: явная инструкция «приведи аргументы ПРОТИВ» меняет точку отсчёта во второй фазе — модель перестаёт искать подтверждения первой мысли. Результат — на 33% больше аргументов, которые реально разграничивают гипотезы, а не просто красиво выглядят.
Адаптировать под запрос

TL;DR

LLM может дать правильный ответ через совершенно разное рассуждение — каждый раз как с чистого листа. Исследование показало: если задать модели два похожих вопроса (например, про схожие клинические случаи), структура её рассуждений будет настолько разной, что практически не отличается от рассуждений о совершенно непохожих вещах. Граф «как она думала» почти одинаковый у правильных и неправильных ответов. Это значит: цепочка рассуждений выглядит убедительно — но это не доказательство, что ответ надёжен.

Практическая боль — ты просишь LLM разобрать задачу, получаешь развёрнутое логичное объяснение, думаешь «ага, модель хорошо проанализировала». Но это поверхностная реконструкция под конкретный случай, а не стабильная схема анализа. Проверить это просто: задай похожий вопрос чуть иначе — и рассуждение будет другим, хотя ответ может совпасть.

Исследование также обнаружило: среди трёх типов промптов один существенно улучшает качество анализа внутри одного ответа — это Structured Reflection Protocol (протокол структурированной рефлексии). Трёхфазный промпт, в котором модель сначала формулирует задачу, затем атакует свой собственный вывод, и только потом решает — защитить или пересмотреть.


🔬

Схема метода

ШАГ 1: Представление задачи
→ Модель формулирует суть проблемы своими словами

ШАГ 2: Стресс-тест (атака на собственный вывод)
→ Модель приводит аргументы ПРОТИВ своего главного вывода
→ Ищет альтернативы и слабые места

ШАГ 3: Защита или пересмотр
→ Явное решение: остаться при своём OR скорректировать вывод
→ С объяснением что именно изменилось и почему

Всё выполняется в одном промпте.

🚀

Пример применения

Задача: Ты думаешь запустить телеграм-канал с платной подпиской. Просишь Claude оценить идею — и хочешь получить честный анализ, а не поддакивание.

Промпт:

Я хочу запустить телеграм-канал с платной подпиской за 990 рублей в месяц. 
Тема: разборы переговорных техник на реальных примерах из российского бизнеса. 
Аудитория — менеджеры по продажам и руководители малого бизнеса.

Разбери идею в три фазы:

ФАЗА 1 — Представление задачи:
Сформулируй, что я пытаюсь сделать, какую проблему решить и за счёт чего 
это должно работать. Своими словами, без украшений.

ФАЗА 2 — Стресс-тест:
Приведи самые сильные аргументы ПРОТИВ этой идеи. 
Почему это может провалиться? Какие допущения я делаю неправильно? 
Что упускаю? Какие альтернативы у аудитории есть вместо моего канала?

ФАЗА 3 — Защита или пересмотр:
Теперь реши: идея жизнеспособна или нет? 
Если жизнеспособна — что нужно изменить с учётом критики из Фазы 2? 
Если нет — сформулируй почему, и что было бы рабочей альтернативой.

Результат: В Фазе 1 модель перефразирует идею — и уже здесь часто обнаруживаются размытые допущения, которые ты не замечал. В Фазе 2 выйдут конкретные риски: насыщенность рынка, сложность монетизации, конкуренция с бесплатным контентом. В Фазе 3 — не общая оценка, а конкретное решение с обоснованием и правками. Разница с обычным «оцени идею» — модель не ищет баланс между плюсами и минусами, а сначала специально атакует, потом решает.


🧠

Почему это работает

LLM склонна к подтверждению первого вывода. Когда ты просишь «оцени идею», модель генерирует первый правдоподобный вывод — и дальше ищет ему подтверждения. Это не «предвзятость» в психологическом смысле, а свойство авторегрессивной генерации: следующий токен строится на предыдущих. Первый вывод задаёт тон всему ответу.

Явная инструкция атаковать меняет траекторию. Когда в промпте написано «приведи аргументы ПРОТИВ», модель получает другую отправную точку во второй фазе. Исследование показало: этот тип промпта увеличивает количество различающих аргументов (тех, что разграничивают гипотезы) на 33% по сравнению с базовым запросом. Не «подумай лучше» — а конкретная структура с явным переключением режима.

Рычаги управления: - Глубина атаки — можно добавить «назови минимум 5 аргументов против» для жёсткого стресс-теста - Альтернативы — в Фазе 2 добавь «предложи три альтернативных подхода» — расширишь поиск - Роль критика — вместо нейтрального «приведи аргументы» напиши «ты скептичный инвестор» — острее исполнение роли


📋

Шаблон промпта

Задача: {описание задачи или идеи, которую нужно оценить}

Разбери в три фазы:

ФАЗА 1 — Представление задачи:
Сформулируй своими словами: что здесь пытается быть сделано, 
какая предполагаемая ценность и на каких допущениях это держится.

ФАЗА 2 — Стресс-тест (аргументы ПРОТИВ):
Приведи {число_аргументов} самых сильных аргументов против {главный_вывод}.
Что может пойти не так? Какие допущения из Фазы 1 ошибочны? 
Какие альтернативы существуют?

ФАЗА 3 — Защита или пересмотр:
Прими явное решение: {главный_вывод} подтверждается или пересматривается?
Если подтверждается — что нужно скорректировать с учётом Фазы 2?
Если пересматривается — сформулируй новый вывод и обоснуй переход.

Что подставлять: - {описание задачи} — идея, решение, план, аргумент, который хочешь проверить - {число_аргументов} — 3–5 для быстрого теста, 7–10 для серьёзного разбора - {главный_вывод} — конкретно: «идея жизнеспособна», «это правильное решение», «план реалистичен»

🚀 Быстрый старт — вставь в чат:

Вот шаблон Structured Reflection Protocol. Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно нужно оценить и какой главный вывод атаковать — потому что метод строится вокруг переключения между поддержкой и атакой конкретной гипотезы, и без неё структура не работает.


⚠️

Ограничения

⚠️ Качество внутри ≠ надёжность между случаями: Протокол делает рассуждение более детальным и дискриминирующим внутри одного ответа — но не делает модель стабильнее при похожих запросах. Задай вопрос завтра в другом контексте — рассуждение будет другим, даже если ответ совпадёт.

⚠️ Не для простых задач: Трёхфазная структура избыточна там, где ответ очевиден или задача фактологическая. Метод раскрывается на сложных аналитических задачах с конкурирующими гипотезами.

⚠️ Структурированная рефлексия ≠ гарантия правильного ответа: Исследование показало, что точность ответа и качество структуры рассуждений — независимые измерения. Красиво структурированное рассуждение бывает у неправильных ответов так же часто, как у правильных.


🔍

Как исследовали

Команда взяла 50 сложных клинических случаев из New England Journal of Medicine — задачи, где даже опытным врачам непросто поставить диагноз. Пять топовых моделей (включая GPT-5, Claude Opus/Sonnet 4.5, Gemini 3 Pro) каждую задачу решали в трёх режимах: базовый промпт, «атакуй свой вывод», структурированная рефлексия. Итого 750 ответов.

Чтобы сравнивать структуру мышления, а не только финальный ответ, исследователи преобразовали каждый ответ в граф — сеть узлов (признаки, гипотезы, аргументы) и связей (поддерживает, опровергает, пересматривает). Потом сравнили: похожи ли графы у схожих клинических случаев?

Результат удивил: схожие случаи не давали похожих графов. Разница между «рассуждения о похожих случаях» и «рассуждения о разных случаях» статистически нулевая — 0.475 против 0.472. Особенно неожиданно: правильные ответы и неправильные имели почти одинаковую структуру рассуждений (0.488 против 0.484). А вот structured reflection промпт дал +33% к количеству различающих аргументов внутри одного ответа — это единственное, где эффект был реальным.


📌

Главный инсайт: точность не равно стабильное мышление

Это стоит вынести отдельно, потому что меняет отношение к LLM-ответам.

Когда LLM рассуждает убедительно — это не доказательство надёжности. Модель каждый раз реконструирует путь к ответу заново, под конкретный запрос. Эксперт-врач, встречая похожие случаи, активирует похожую схему анализа — стабильный паттерн. LLM этого не делает. Её рассуждения — не схема, а ситуативная генерация.

Практически это значит три вещи: - Не доверяй рассуждению только потому что оно выглядит продуманным — проверяй факты отдельно - Одна проверка не генерализуется — если модель хорошо разобрала один похожий кейс, не значит что разберёт следующий так же - Структурированный промпт улучшает конкретный ответ — но не делает модель «умнее в целом» по теме


📄

Оригинал из исследования

Описание structured reflection prompting condition из статьи:

The structured reflection prompt used a phased protocol requiring 
a problem representation, balanced stress test, and explicit 
defend-or-update decision for each diagnosis (Dhaliwal, 2017). 

Each trace was generated from a single prompt in one autoregressive 
pass at temperature 1.0; the phased conditions sequence their 
protocol phases within that prompt rather than across separate 
model turns.

Контекст: Авторы тестировали три условия промптинга на 50 сложных клинических случаях. Structured reflection — прямая реализация ART-фреймворка Dhaliwal (2017), инструмента обучения клинического мышления. Всё три фазы исполнялись в одном промпте, не в диалоге.


💡

Адаптации и экстраполяции

1. Техника: добавь роль скептика в Фазу 2 → острее критика

🔧 Замена нейтральной Фазы 2 на ролевую атаку

Вместо:

Приведи аргументы против этой идеи.

Напиши:

ФАЗА 2 — Ты Михаил Токовинин (основатель amoCRM), 
который скептически смотрит на любую идею без доказанного спроса. 
С его позиции: почему эта идея провалится?

Конкретная роль с известным стилем мышления даёт более острые и специфичные аргументы, чем безликое «приведи критику».


2. Адаптация: проверка важного решения через параллельные рассуждения

Если знаешь, что LLM каждый раз рассуждает по-разному — используй это как инструмент. Задай одну и ту же задачу три раза в разных сессиях (или с просьбой «рассуди иначе»). Если все три пути ведут к одному выводу — значит вывод устойчив. Если рассуждения расходятся — значит задача неоднозначна и стоит разобраться почему.

Разбери вопрос: {твой вопрос}

После ответа — дай второй, альтернативный разбор с другой отправной точки. 
Какой вывод делаешь во втором разборе? Совпадает ли с первым?
Если нет — что это означает для финального решения?

🔗

Ресурсы

Название работы: Clinical Reasoning Graphs: Structured Evaluation of LLM Diagnostic Reasoning Reveals Competence Without Consistency

Репозиторий: github.com/nisargpatel/clinical-reasoning-graphs — онтология, пайплайн, 750 графов, код оценки

Авторы: Nisarg Patel — Department of Oral and Maxillofacial Surgery + Department of Medicine, Division of Clinical Informatics and Digital Transformation, University of California, San Francisco (UCSF)

Опубликовано: Workshop on Structured Data for Health, 43rd ICML, Сеул, 2026

Ключевые отсылки из статьи: Dhaliwal G. (2017) — ART Framework (Assessment of Reasoning Tool); Charlin et al. (2000) — Script Concordance Test; Basu & Chakraborty (2026) — "Illusion of Reasoning" (chain-of-thought steps часто декоративны)


📋 Дайджест исследования

Ключевая суть

Парадокс: структура рассуждений у LLM почти одинакова для правильных и неправильных ответов. Развёрнутое убедительное объяснение — не доказательство надёжности. Structured Reflection Protocol позволяет получить более строгий анализ: вместо одного потока мыслей — три явные фазы, где модель сначала формулирует задачу своими словами, затем атакует собственный вывод, потом решает — защитить или пересмотреть. Фишка: явная инструкция «приведи аргументы ПРОТИВ» меняет точку отсчёта во второй фазе — модель перестаёт искать подтверждения первой мысли. Результат — на 33% больше аргументов, которые реально разграничивают гипотезы, а не просто красиво выглядят.

Принцип работы

LLM строит ответ токен за токеном. Первый вывод задаёт тон — всё следующее его поддерживает. Это не предвзятость как таковая, а авторегрессивная механика: каждый следующий токен опирается на предыдущие. Спросишь «оцени идею» — модель находит баланс плюсов и минусов, уже держа в голове первую мысль. Три явные фазы разбивают этот цикл: каждая фаза стартует с другой задачей. Фаза 1 — сформулировать суть. Фаза 2 — атаковать вывод (не искать баланс, а именно атаковать). Фаза 3 — принять явное решение: оставить или пересмотреть.

Почему работает

Авторегрессивная генерация — как поезд на рельсах: куда поехал, туда и едет. Явная инструкция «приведи 5 аргументов ПРОТИВ» — смена рельсов в начале Фазы 2. Модель не может проигнорировать её: инструкция встроена в контекст. Исследование показало: такой тип промпта даёт +33% аргументов, которые реально разграничивают конкурирующие гипотезы — а не просто перечисляют факты в пользу первого вывода. Важное ограничение, которое стоит держать в голове: красиво структурированное рассуждение встречается у неправильных ответов так же часто, как у правильных. Протокол делает анализ строже внутри одного ответа — но не делает модель стабильнее при повторных похожих запросах.

Когда применять

Сложные аналитические задачи с конкурирующими гипотезами — оценка бизнес-идей, стратегических решений, рисков, планов. Особенно когда первое впечатление от задачи сильное — и именно его стоит проверить на прочность. НЕ подходит для фактологических вопросов и задач с очевидным ответом — трёхфазная структура там избыточна и замедлит без пользы.

Мини-рецепт

1. Опишите что проверяете: идею, решение, план или аргумент. Чем конкретнее формулировка — тем острее получится Фаза 2. Размытое «оцени бизнес» даёт размытую атаку.
2. Задайте три явные фазы в одном промпте: Фаза 1 — «сформулируй суть задачи своими словами, какие допущения в ней заложены». Фаза 2 — «приведи N аргументов ПРОТИВ [конкретного вывода]». Фаза 3 — «прими явное решение: вывод подтверждается или пересматривается — с обоснованием».
3. Настройте жёсткость атаки: для быстрой проверки — 3–5 аргументов против. Для серьёзного разбора — 7–10, плюс добавьте роль: <роль>скептичный инвестор, который уже видел сто похожих провалов. Роль делает Фазу 2 острее.

Примеры

[ПЛОХО] : Оцени мою идею запустить телеграм-канал с платной подпиской за 990 рублей
[ХОРОШО] : Разбери идею в три фазы. ФАЗА 1 — Представление: сформулируй своими словами, что я пытаюсь сделать и на каких допущениях это держится. ФАЗА 2 — Атака: приведи 5 самых сильных аргументов ПРОТИВ того, что идея жизнеспособна. Что упускаю? Какие допущения из Фазы 1 ошибочны? ФАЗА 3 — Решение: идея жизнеспособна или нет? Если да — что скорректировать с учётом Фазы 2. Если нет — что было бы рабочей альтернативой.
Источник: Clinical Reasoning Graphs: Structured Evaluation of LLM Diagnostic Reasoning Reveals Competence Without Consistency
ArXiv ID: 2606.29876 | Сгенерировано: 2026-06-30 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Убедительное рассуждение не означает правильный ответМодель строит развёрнутую цепочку рассуждений. Выглядит логично. Но структура рассуждений у правильных и неправильных ответов — одинаковая. Нельзя отличить надёжный ответ от ненадёжного по тому, как складно модель объяснила свой вывод. Это работает для любых аналитических задач: оценка идей, разбор ситуаций, диагностика проблемНе доверяй качеству объяснения как сигналу правильности. Проверяй через независимый стресс-тест. Даже хорошо структурированное рассуждение — не гарантия

Методы

МетодСуть
Трёхфазный промпт — атака на собственный выводОдин запрос, три фазы. Фаза 1: модель формулирует задачу своими словами — выявляет скрытые допущения. Фаза 2: модель приводит аргументы ПРОТИВ своего главного вывода — ищет альтернативы и слабые места. Фаза 3: явное решение — подтвердить или пересмотреть — с объяснением что изменилось. Шаблон: ФАЗА 1 — Представь задачу своими словами. ФАЗА 2 — Приведи [N] аргументов ПРОТИВ вывода [X]. ФАЗА 3 — Подтверди или пересмотри [X] с учётом Фазы 2. Почему работает: явная инструкция атаковать задаёт новую отправную точку во второй фазе. Модель не продолжает первый вывод — она вынуждена его оспорить. Сильнее всего для задач с конкурирующими гипотезами. Избыточно для простых фактических вопросов

Тезисы

ТезисКомментарий
Первый вывод закрепляет всё рассуждение после негоМодель генерирует текст последовательно. Первый вывод задаёт тон: каждый следующий шаг достраивается как его подтверждение. Это не ошибка — это механика авторегрессивной генерации. Поэтому обычный запрос «оцени идею» даёт анализ, который поддерживает первое правдоподобное утверждение. Чтобы получить честную критику — нужна явная структура, которая прерывает эту цепочку. Применяй: хочешь реальный анализ — блокируй первый вывод отдельной фазой атаки
📖 Простыми словами

Clinical Reasoning Graphs: Structured Evaluation ofLLMDiagnostic Reasoning Reveals Competence Without Consistency

arXiv: 2606.29876

Нейросети в медицине — это как гениальный студент-прогульщик, который угадывает правильный диагноз, но каждый раз объясняет его по-новому, путаясь в показаниях. Корень проблемы в том, что у LLM нет устойчивой логической базы. Модель не «знает» медицину, она генерирует клинические графы рассуждений на лету. Это значит, что правильный ответ — часто просто статистическая удача, а не результат железной логики. Исследование показало пугающую вещь: структура мыслей нейросети при верном и неверном ответе практически идентична.

Это как если бы ты пришел к врачу, он поставил верный диагноз, а на вопрос «почему?» начал нести околесицу, которая звучит очень уверенно. Формально всё логично, но если спросить его о точно таком же случае через пять минут, он выстроит совершенно другую цепочку аргументов. Это отсутствие консистентности: модель каждый раз изобретает велосипед, и то, что она приехала в нужную точку, не гарантирует, что в следующий раз она не свернет в кювет.

Ученые проверили это через структурированную оценку графов: они сравнивали, как модель рассуждает о похожих болезнях и о совершенно разных. Выяснилось, что логическая связность у нейросети — это миф. Рассуждения о двух похожих случаях различаются так же сильно, как рассуждения о гриппе и переломе ноги. Модель просто подгоняет решение под ответ, используя авторегрессивную генерацию — когда каждое следующее слово просто оправдывает предыдущее, создавая иллюзию глубокой экспертизы.

Принцип универсален и касается не только врачей. Если ты просишь AI оценить бизнес-идею или код, он страдает от подтверждения первого вывода. Как только модель выдала первый тезис, она становится его заложником и начинает подтягивать факты за уши. Это работает везде: в юридических консультациях, в аналитике, в советах по жизни. Цепочка рассуждений (CoT) выглядит убедительно, но на деле это часто просто красивый фасад над пустотой.

Короче: никогда не верь объяснениям нейросети на слово, даже если итоговый ответ кажется правильным. Компетентность без стабильности — это опасная ловушка. Если модель не может повторить свой путь дважды, значит, она не понимает задачу, а просто удачно галлюцинирует в правильном направлении. Используй AI как генератор гипотез, но никогда не доверяй ему проверку этих самых гипотез без жесткого контроля со стороны человека.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с