3,583 papers
arXiv:2606.25489 76 24 июня 2026 г. FREE

Ловушка уверенных рассуждений: почему видимый Chain-of-Thought может навредить больше, чем его отсутствие

КЛЮЧЕВАЯ СУТЬ
Парадокс: ошибочное рассуждение подрывает доверие сильнее, чем если бы модель вообще ничего не объясняла. А уверенный тон («Я абсолютно уверен») влияет на восприятие отдельно от того, правильна ли логика — убедительно написанная ошибка ощущается иначе, чем очевидная. Метод «маркированной неуверенности» позволяет превратить гладкий убедительный монолог в рабочий черновик с явными слабыми местами. Просишь модель отмечать каждый шаг: это проверяемый факт, вывод или предположение — и слабые места, которые тонут в уверенном потоке, всплывают на поверхность.
Адаптировать под запрос

TL;DR

Когда LLM показывает цепочку рассуждений, пользователи считывают её как доказательство качества ответа — но это иллюзия. Исследование показало: красивое, связное рассуждение может содержать один ломаный шаг, который приводит к неверному или вводящему в заблуждение выводу. Модель не «думает» заново при каждом ответе — она генерирует текст, который звучит как мышление.

Главная находка: ошибочное рассуждение подрывает доверие сильнее, чем полное его отсутствие. Если модель показала логику и там оказалась ошибка — это хуже, чем если бы она просто дала ответ без объяснений. При этом тон уверенности («Я абсолютно уверен в своих рассуждениях») влияет на доверие независимо от того, правильна ли логика. То есть уверенный неправильный ответ воспринимается иначе, чем неуверенный неправильный — хотя оба неверны.

Как это сменяет работу с LLM: не читай цепочку рассуждений как подтверждение — читай её как объект проверки. Особенно когда модель звучит уверенно — это момент, когда стоит проверить сильнее, а не меньше.


🔬

Схема метода

Это не пошаговый промпт-метод, а набор принципов взаимодействия с LLM-рассуждениями. Три уровня применения:

УРОВЕНЬ 1 — Запрос калиброванной неуверенности
Вместо: "Объясни почему"
Используй: "Объясни и явно отметь шаги, где ты менее уверен"
→ Модель покажет слабые места, а не только уверенный нарратив

УРОВЕНЬ 2 — Проверка связи с доказательствами  
Вопрос к каждому шагу рассуждения: "На что опирается этот вывод?"
→ Если рассуждение "висит в воздухе" без опоры на факты — красный флаг

УРОВЕНЬ 3 — Встречная проверка при высокой уверенности
Если модель звучит очень уверенно → это сигнал ПРОВЕРИТЬ, а не довериться
→ Задай уточняющий вопрос или попроси найти контраргументы

Всё выполняется в одном чате, без дополнительных инструментов.


🚀

Пример применения

Задача: Ты изучаешь возможность выйти на маркетплейс Wildberries с новым товаром. Спрашиваешь у Claude, какая комиссия на категорию «Электроника», и получаешь уверенный развёрнутый ответ с логикой. Как не попасться на убедительное, но устаревшее или ошибочное рассуждение?

Промпт:

Какая комиссия на Wildberries для категории «Электроника» в 2024 году?

Объясни своё рассуждение. Для каждого утверждения в своей логике 
укажи — ты опираешься на конкретный факт, или это предположение? 
Если ты не уверен в каком-то шаге — отметь это явно.

В конце укажи: что именно стоит перепроверить в официальных 
источниках, прежде чем принимать решение на основе твоего ответа?

Результат: Модель структурирует рассуждение с явными метками достоверности — «это точный факт», «это может устареть», «здесь я менее уверен». В финале появится список того, что нужно верифицировать самостоятельно. Это превращает ответ из «доверительного нарратива» в рабочий черновик с красными флагами.


🧠

Почему это работает

Слабость LLM: Модель генерирует текст, который следует паттернам убедительного объяснения — связного, уверенного, логически оформленного. Но «звучит как правильное рассуждение» и «является правильным рассуждением» — разные вещи. Рассуждение может быть постфактумным нарративом: модель сначала генерирует вывод, потом строит объяснение, которое к нему ведёт.

Находка про уверенность: Тон («Я очень уверен» / «Я несколько сомневаюсь») влияет на доверие пользователя как отдельный сигнал, независимо от правильности ответа. Это значит: уверенный неправильный ответ воспринимается пользователем иначе, чем если бы модель выразила сомнение. Модель же генерирует уверенный тон, потому что так обычно пишут тексты с правильными ответами — это паттерн данных, а не честная самооценка.

Как работает на практике: Когда ты явно просишь модель маркировать уверенность покоординатно (по шагам, а не как общий вывод) — ты сдвигаешь задачу. Вместо «сгенерируй объяснение» модель получает «сгенерируй объяснение с явными метками надёжности каждого утверждения». Это другой паттерн, и он часто обнажает слабые места, которые тонут в уверенном монолите.

Рычаги управления: - «Отметь шаги, где ты менее уверен» → модель явно маркирует слабые места вместо монотонной уверенности - «На что именно ты опираешься в этом шаге?» → проверяешь есть ли реальная опора или это вывод из вывода - «Найди контраргументы к своему рассуждению» → включаешь встречный режим, меньше однобокой уверенности - «Что в твоём ответе стоит перепроверить?» → модель сама указывает зоны риска


📋

Шаблон промпта

{Твой вопрос или задача}

При ответе:
1. Объясни своё рассуждение пошагово
2. Для каждого ключевого утверждения укажи — это проверяемый факт, 
   обоснованный вывод или предположение?
3. Если в каком-то шаге ты менее уверен — скажи об этом явно
4. В конце: что именно стоит перепроверить самостоятельно 
   до принятия решения?

Что подставлять: - {Твой вопрос} — любой вопрос, где важна точность: юридическое, финансовое, техническое, фактологическое - Шаги 1-4 — оставь как есть, это и есть инструкция для калиброванного рассуждения


🚀 Быстрый старт — вставь в чат:

Вот шаблон для запроса калиброванного рассуждения. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит — какой вопрос тебя интересует и насколько важна точность — потому что от этого зависит, насколько детально маркировать неуверенность.


⚠️

Ограничения

⚠️ Не защищает от системных ошибок модели: Если LLM стабильно ошибается в каком-то домене (например, устаревшие данные), то она будет ошибаться уверенно и последовательно — маркировка неуверенности не помогает.

⚠️ Работает хуже для субъективных вопросов: Метод заточен под проверяемые факты. На вопросы типа «хорошая ли это бизнес-идея» модель не сможет честно отметить «это предположение» — почти всё там предположение.

⚠️ Уверенность модели ≠ диагностика: Даже если модель говорит «я уверен», это паттерн генерации, а не честная самооценка. Метаданные уверенности у модели нет — есть только текстовые паттерны.

⚠️ Формат подачи рассуждений не имеет значения: Исследование показало — не важно, появляется ли рассуждение сразу, с задержкой или по запросу. На доверие влияет только его правильность и тон уверенности, а не способ появления.


🔍

Как исследовали

Исследователи задали вопрос: «Что именно из свойств рассуждения влияет на доверие — или всё сразу?» И разделили три переменные, которые обычно идут вместе: правильность рассуждения, тон уверенности и формат подачи (мгновенно / с задержкой / по кнопке).

В первом исследовании (68 человек онлайн) участники проверяли фактологические вопросы и видели ответы LLM с разными комбинациями этих трёх переменных. Результат удивил: формат подачи — показывать сразу или давать с задержкой — почти не влиял. Зато правильность рассуждения и тон уверенности давали чёткий эффект. Причём тон работал как отдельный рычаг — уверенное неправильное рассуждение воспринималось иначе, чем неуверенное неправильное, хотя оба приводили к ошибке.

Второе исследование (54 человека в лаборатории) добавило айтрекинг — слежение за движением глаз. Участники видели условие «без рассуждения», «правильное рассуждение» и «неправильное рассуждение». Когда рассуждение оказывалось ошибочным, люди автоматически больше смотрели на сопроводительные доказательства — как будто что-то не сходилось и мозг шёл проверять. Зрачок при чтении неправильного рассуждения был шире — это маркер когнитивной нагрузки. Интересно, что само время и количество просмотров внутри блока с рассуждением не отличалось — люди не читали его дольше, но смотрели в другие места.

Главный контринтуитивный вывод: неправильное рассуждение хуже, чем его отсутствие. Если LLM ничего не объяснила — это один уровень доверия. Если LLM объяснила и ошиблась — доверие падает ниже нулевой отметки. Это важно для пользователей: прозрачность работает только если рассуждение верное.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: «Красный флаг» — специальный запрос при высокой ценности решения

Когда ставки высоки (деньги, карьера, здоровье) — просить модель не просто объяснить, а явно сыграть роль критика своего же ответа:

{Вопрос с высокими ставками}

Сначала дай ответ с рассуждением.

Затем — выступи критиком своего же ответа: 
какой шаг в твоей логике наиболее уязвим? 
Что могло бы сделать твой вывод неверным?

Это использует находку исследования: когда видишь несогласованность в рассуждении, автоматически идёшь проверять доказательства. Здесь ты принудительно запускаешь этот механизм.


📌

🔧 Техника: явная калибровка уверенности → лучший сигнал для доверия

Исследование показало, что тон уверенности влияет на доверие независимо от правильности. Используй это в обратную сторону — заставь модель явно калибровать уверенность:

После каждого ключевого утверждения добавляй в скобках 
уровень уверенности: (высокая), (средняя) или (низкая).
Основывайся на том, насколько хорошо это утверждение 
подкреплено проверяемыми фактами.

Это превращает монолитный уверенный текст в карту достоверности. Ты видишь, где модель сильна, а где «натягивает».


🔗

Ресурсы

Название работы: When LLM Rationales Become User-Facing: Effects on Trust Perception, Decision-Making, and Gaze Behaviors

Авторы: Xin Sun, Ting Pan, Yajing Wang, Shu Wei, Jos A. Bosch, Isao Echizen, Abdallah El Ali, Saku Sugawara

Организации: National Institute of Informatics (Japan), University of Amsterdam (Netherlands), Yale School of Medicine (USA), University of Tokyo (Japan), Centrum Wiskunde & Informatica / CWI (Netherlands), Utrecht University (Netherlands)

Ключевые отсылки из исследования: - Chain-of-Thought prompting [Wei et al.] — техника, на которой строятся рассуждения LLM - Концепция appropriate reliance [Lee & See] — цель не «доверять больше», а «доверять точнее» - Explainable AI (XAI) и overreliance — объяснения могут увеличивать неоправданное доверие


📋 Дайджест исследования

Ключевая суть

Парадокс: ошибочное рассуждение подрывает доверие сильнее, чем если бы модель вообще ничего не объясняла. А уверенный тон («Я абсолютно уверен») влияет на восприятие отдельно от того, правильна ли логика — убедительно написанная ошибка ощущается иначе, чем очевидная. Метод «маркированной неуверенности» позволяет превратить гладкий убедительный монолог в рабочий черновик с явными слабыми местами. Просишь модель отмечать каждый шаг: это проверяемый факт, вывод или предположение — и слабые места, которые тонут в уверенном потоке, всплывают на поверхность.

Принцип работы

Модель не оценивает свои ответы — она генерирует текст по паттернам. В обучающих данных правильные ответы обычно написаны уверенно. Значит, уверенный тон включается по умолчанию — вне зависимости от качества ответа. Это как диктор на радио: голос уверенный всегда, даже когда читает опровержение вчерашней новости. Маркировка неуверенности по шагам ломает этот паттерн: модель получает задачу не «объясни», а «объясни с метками надёжности каждого шага». Другая задача — другой результат.

Почему работает

Рассуждение модели часто постфактумное: сначала генерируется вывод, потом строится логика к нему. Эту логику можно написать убедительно, даже если она неверна. Когда каждый шаг требует явной метки надёжности — скрыть слабое место за гладким нарративом уже не получается. Исследование зафиксировало тревожное: уверенный неправильный ответ воспринимается пользователем иначе, чем неуверенный неправильный. Оба ошибочны — но только один ощущается надёжным. Отсюда простое правило: максимальная уверенность в тоне — это момент, когда нужно проверять тщательнее, а не меньше.

Когда применять

Везде, где важна точность: юридические вопросы, финансовые расчёты, технические решения, медицинские данные — особенно когда ответ звучит очень уверенно и складно (именно тогда и стоит насторожиться). Не подходит для субъективных вопросов типа «хорошая ли это бизнес-идея» — там почти всё предположение, маркировка не поможет.

Мини-рецепт

1. Задай вопрос + запроси пошаговое рассуждение: не просто «объясни», а «объясни по шагам».
2. Добавь требование маркировки: для каждого ключевого утверждения — это проверяемый факт, обоснованный вывод или предположение?
3. Попроси честность про слабые места: «Если в каком-то шаге менее уверен — скажи об этом явно».
4. Запроси список для перепроверки: «В конце укажи, что именно стоит проверить самостоятельно до принятия решения».

Всё в одном промпте. Готовый шаблон:

{Твой вопрос}. Объясни пошагово. Для каждого утверждения: это факт, вывод или предположение? Где менее уверен — отметь явно. В конце: что стоит перепроверить самостоятельно?

Примеры

[ПЛОХО] : Какая комиссия Wildberries для категории «Электроника»? → Получишь уверенный развёрнутый ответ. Выглядит убедительно. Может быть устаревшим или неточным — не поймёшь.
[ХОРОШО] : Какая комиссия Wildberries для «Электроники» в 2024 году? Объясни своё рассуждение пошагово. Для каждого утверждения в логике укажи: ты опираешься на конкретный факт или это предположение? Если в каком-то шаге менее уверен — отметь явно. В конце напиши, что именно стоит перепроверить в официальных источниках до принятия решения. → Модель структурирует ответ с метками: «это точный факт», «это может устареть», «здесь я менее уверен». В финале — список того, что нужно верифицировать самому. Ответ перестаёт быть «доверительным монологом» и становится рабочим черновиком с красными флагами.
Источник: When LLM Rationales Become User-Facing: Effects on Trust Perception, Decision-Making, and Gaze Behaviors
ArXiv ID: 2606.25489 | Сгенерировано: 2026-06-28 20:43

Проблемы LLM

ПроблемаСутьКак обойти
Уверенный тон в рассуждениях не связан с правильностьюМодель звучит уверенно — пишет связно, логично, без оговорок. Но уверенность — это паттерн текста, а не самооценка. Так звучат правильные объяснения в обучающих данных. Модель воспроизводит стиль, а не честность. При этом ошибка в уверенном тоне воспринимается хуже, чем ответ без объяснений вовсе. Работает для любых фактических запросовПопроси маркировать каждое утверждение отдельно: это факт, вывод или предположение? Уверенный монолит распадётся. Слабые места станут видны явно

Методы

МетодСуть
Пошаговая маркировка надёжности — вскрывает слабые места рассужденияДобавь в конец запроса: Для каждого ключевого утверждения укажи — это проверяемый факт, обоснованный вывод или предположение? Где ты менее уверен — скажи явно. В конце: что стоит перепроверить самостоятельно? Почему работает: Меняется задача. Не "сгенерируй убедительное объяснение", а "сгенерируй объяснение с метками надёжности по шагам". Это другой паттерн. Модель вынуждена явно обозначить то, что иначе тонет в уверенном нарративе. Когда применять: фактические вопросы, решения с последствиями, юридическое/финансовое/техническое. Когда слабее: субъективные вопросы, оценки идей — там почти всё предположение
📖 Простыми словами

WhenLLMRationales Become User-Facing: Effects on Trust Perception, Decision-Making, and Gaze Behaviors

arXiv: 2606.25489

Суть в том, что когда нейронка вываливает на тебя цепочку своих рассуждений, она не «думает» в человеческом смысле, а просто занимается имитацией когнитивного процесса. Для модели текст с объяснением — это такая же статистическая последовательность слов, как и сам ответ. Проблема в том, что мы подсознательно считываем наличие логических шагов как гарантию качества, хотя на деле это просто хорошо упакованный контент. Модель сначала может «придумать» ответ, а потом подогнать под него убедительную историю, которая звучит логично, но по факту является постфактумным нарративом.

Это как если бы ты спросил дорогу у прохожего, и он начал уверенно объяснять: «Сначала поверните за угол, там старая аптека, за ней стройка, поэтому идите через двор». Ты веришь ему, потому что детали выглядят правдоподобно, но на деле аптеку снесли пять лет назад, а стройки там никогда не было. Прохожий просто галлюцинирует подробностями, чтобы казаться экспертом, а ты веришь не фактам, а его уверенному тону. В итоге ты идешь в тупик, но с полным ощущением, что путь был логически обоснован.

В реальности работают три уровня фильтрации: верификация промежуточных шагов, поиск логических разрывов и проверка фактов. Если модель пишет, что комиссия на маркетплейсе выросла, потому что «изменились правила логистики в категории электроника», это звучит солидно. Но если ты проверишь цифры, окажется, что логика верна, а конкретный процент — полная лажа. Исследование доказывает, что пользователи склонны доверять «умным» рассуждениям даже тогда, когда в них закралась одна критическая ошибка, рушащая всю конструкцию.

Этот принцип применим везде: от анализа юридических договоров до выбора стратегии на Wildberries. Мы привыкли, что если человек объясняет «почему», он понимает суть, но с LLM это правило не работает. SEO-логика рассуждений заставляет нас расслабиться, хотя именно в развернутых ответах модель чаще всего прячет свои косяки. Это не просто текст, это инструмент манипуляции доверием, который работает на любом типе контента, где требуется экспертность.

Короче: не дай себя обмануть красивым оформлением мысли. Если нейронка выдает длинную простыню рассуждений, это не значит, что она стала умнее — она просто стала более убедительной в своем вранье. Всегда ищи тот самый «ломаный шаг», где логика расходится с реальностью. Помни: красивое рассуждение ≠ правильный ответ, и если ты перестанешь проверять факты, полагаясь на «умный вид» модели, ты гарантированно влетишь в облом.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с