3,583 papers
arXiv:2506.17088 60 20 июня 2025 г. FREE

Подсказки «цепочки мыслей» маскируют признаки галлюцинаций в больших языковых моделях: эмпирическая оценка

КЛЮЧЕВАЯ СУТЬ
Однако, если студент в самом начале сделал неверное допущение, он с той же уверенностью и с виду логично распишет всю цепочку рассуждений, которая приведет к неверному результату
Адаптировать под запрос

Исследование показывает, что популярная техника промптинга "Chain-of-Thought" (CoT), заставляющая модель "думать шаг за шагом", имеет опасный побочный эффект. Несмотря на то, что CoT действительно снижает общее количество ошибок (галлюцинаций), она одновременно "маскирует" оставшиеся ошибки, делая их более правдоподобными и трудными для обнаружения. Модель становится более "уверенной" в своих ответах, даже когда они фактически неверны.

Ключевой результат: Использование Chain-of-Thought заставляет LLM генерировать ложные ответы с той же высокой степенью уверенности, что и правильные, обманывая как пользователя, так и автоматические системы детекции галлюцинаций.

Суть исследования можно объяснить через простую аналогию. Представьте себе студента, который решает задачу. Если просто спросить у него ответ, он может ошибиться и будет в этом не уверен. Если же попросить его "расписать решение по шагам" (применить CoT), он начнет выстраивать логическую цепочку. Этот процесс часто помогает ему прийти к верному ответу.

Однако, если студент в самом начале сделал неверное допущение, он с той же уверенностью и с виду логично распишет всю цепочку рассуждений, которая приведет к неверному результату. При этом его подробное, структурированное решение будет выглядеть гораздо более убедительно, чем простой неверный ответ. Он "замаскировал" свою ошибку за фасадом логики.

LLM ведет себя точно так же. Техника CoT ("Думай шаг за шагом") заставляет модель генерировать внутреннее обоснование. Этот процесс повышает ее "внутреннюю уверенность" в результате. Если рассуждения верны — отлично. Но если в цепочке рассуждений закралась ошибка или неверный факт, модель все равно выдаст финальный ответ с высокой степенью уверенности, подкрепив его красивой, но ложной логикой.

Практическая методика для пользователя: 1. Не доверяйте форме. Осознайте, что структурированный и логичный ответ, полученный с помощью CoT, не является гарантией его правильности. 2. Проверяйте не результат, а процесс. Самые опасные ошибки скрываются в промежуточных шагах рассуждений. Если промт содержит Думай шаг за шагом, ваша основная задача — критически проверить каждый из этих шагов, а не только финальный вывод. 3. Внедряйте самокритику в промпт. Добавляйте в конец CoT-запроса явную инструкцию для модели перепроверить свои же рассуждения на предмет ошибок, допущений или устаревших данных.

  • Прямая применимость: Пользователь может немедленно начать применять главный вывод исследования. При использовании промптов с CoT (например, "разложи по полочкам", "действуй поэтапно") нужно быть вдвойне бдительным и не принимать на веру логично выглядящие рассуждения. Вместо того чтобы радоваться подробному ответу, нужно взять за правило проверять промежуточные шаги.

  • Концептуальная ценность: Исследование формирует ключевое понимание: правдоподобие не равно истине. LLM — это генератор правдоподобного текста, а CoT — это усилитель правдоподобия. Когда модель использует CoT, она лучше имитирует процесс человеческого мышления, но это все еще имитация, которая может быть основана на ложных предпосылках. Это помогает избавиться от антропоморфизма и воспринимать LLM как инструмент, а не как всезнающего эксперта.

  • Потенциал для адаптации: Выводы исследования можно легко адаптировать в виде конкретных инструкций в промпте. Вместо того чтобы просто просить "думать шаг за шагом", можно добавить дополнительный шаг: "А теперь критически пересмотри шаги 1-3 и найди в них возможные ошибки или слабые места". Это заставляет модель запускать второй, верификационный процесс, что повышает надежность.

Ты — опытный маркетолог, специализирующийся на продвижении образовательных курсов. Твоя задача — разработать контент-план для социальных сетей на одну неделю для онлайн-курса по "Основам инвестирования для начинающих".

**Целевая аудитория:** Люди 25-40 лет, без опыта в финансах, хотят начать инвестировать, но боятся рисков и не знают, с чего начать.

Чтобы создать максимально качественный и надежный план, используй следующий подход Chain-of-Thought:

**Шаг 1: Анализ болей аудитории.** Определи 3-4 ключевых страха или заблуждения целевой аудитории (например, "инвестиции — это для богатых", "я все потеряю", "это слишком сложно").

**Шаг 2: Генерация идей для постов.** Для каждой "боли" из Шага 1 придумай 2-3 формата контента (например: пост-разрушение мифа, короткое видео с объяснением, инфографика, прямой эфир с экспертом).

**Шаг 3: Формирование контент-плана.** Распредели сгенерированные идеи по дням недели, указав тему, формат и призыв к действию для каждого поста.

**Шаг 4: Критическая проверка и верификация (САМЫЙ ВАЖНЫЙ ШАГ).** Теперь вернись к своему плану. Критически оцени каждую идею. Не слишком ли сложен язык для новичков? Не даешь ли ты обещаний "гарантированной доходности", что является грубой ошибкой? Являются ли советы актуальными на сегодняшний день? Укажи потенциально слабые места в плане и предложи, как их можно улучшить.

Представь финальный результат в виде таблицы.

Этот промпт работает за счет того, что он не просто использует CoT, но и применяет главный урок из исследования.

  • Структурированное мышление (Шаги 1-3): Промпт заставляет модель сначала рассуждать, генерировать идеи и структурировать их. Это стандартное применение CoT для получения подробного и логичного ответа.
  • Принудительная самокритика (Шаг 4): Это прямая реакция на выводы исследования. Мы знаем, что модель в Шагах 1-3 могла сгенерировать правдоподобную, но ошибочную информацию (например, устаревший совет по инвестициям). Шаг 4 заставляет модель запустить отдельный процесс — проверку и критику собственных рассуждений. Это заставляет ее "выйти из роли" уверенного генератора и включить "режим редактора", что значительно снижает риск скрытых галлюцинаций.
Ты — опытный турагент. Мне нужно спланировать 10-дневное путешествие по Италии для семьи с двумя детьми (7 и 12 лет) в августе. Бюджет средний. Мы прилетаем в Рим.

Используй следующий пошаговый подход для создания детального и надежного маршрута:

**Шаг 1: Логика маршрута.** Предложи логичную последовательность городов для посещения, минимизируя время на переезды. Например, Рим -> Флоренция -> Венеция. Обоснуй выбор.

**Шаг 2: Наполнение по дням.** Для каждого города распиши план на каждый день, предлагая 1-2 активности, интересные как взрослым, так и детям. Учитывай летнюю жару (например, парки, музеи с кондиционерами, вечерние прогулки).

**Шаг 3: Логистика и бюджет.** Укажи примерные способы передвижения между городами (поезд, аренда авто) и ориентировочную стоимость билетов или аренды.

**Шаг 4: Проверка на реалистичность и выявление рисков.** А теперь — самое главное. Перечитай свой план и честно ответь на следующие вопросы:
*   **Факты:** Насколько актуальна информация о ценах на билеты и времени работы достопримечательностей? Четко укажи: "Эта информация требует проверки на официальном сайте X".
*   **Перегруженность:** Не слишком ли плотный график для семьи с детьми в августовскую жару? Где есть "узкие места"?
*   **Скрытые проблемы:** Какие типичные проблемы могут возникнуть в августе в Италии (толпы туристов, забастовки, сиеста)? Предупреди меня о них.

Предоставь итоговый маршрут, включив в него отдельный раздел "Критическая оценка и риски".

Этот промпт эффективен, потому что он напрямую борется с "ложной уверенностью" модели, которую выявило исследование.

  • Имитация экспертной работы (Шаги 1-3): Модель, как и в первом примере, использует CoT для создания логичного и подробного плана путешествия. Она генерирует правдоподобный маршрут, который на первый взгляд выглядит идеально.
  • Форсирование честности и признания ограничений (Шаг 4): Этот шаг является практическим применением выводов статьи. Мы знаем, что LLM может с уверенным видом выдать устаревшую цену на билет на поезд или не учесть фактор дикой жары. Поэтому промпт заставляет модель:
    1. Признать неточность данных: Инструкция Четко укажи: "Эта информация требует проверки..." заставляет модель саму маркировать потенциально галлюцинаторную или устаревшую информацию.
    2. Включить здравый смысл: Вопрос о перегруженности графика заставляет модель оценить не только факты, но и контекст (семья, дети, жара), что снижает риск создания нереалистичного плана.
    3. Выявить "неизвестные неизвестные": Просьба указать на скрытые проблемы заставляет модель использовать свои знания о мире для выявления рисков, о которых пользователь мог даже не догадываться.

Таким образом, промпт использует CoT для генерации основы, а затем, помня о риске "уверенных галлюцинаций", заставляет модель саму же выступить в роли скептика и верификатора.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Очень высокая. Исследование целиком посвящено анализу побочных эффектов одной из самых фундаментальных техник — Chain-of-Thought (CoT).
  • B. Улучшение качества диалоговых ответов: Высокая. Хотя исследование не предлагает новую технику, оно раскрывает критическую уязвимость существующей, что позволяет пользователю скорректировать свои ожидания и добавить в промты верификационные шаги, тем самым повышая итоговую надежность ответов.
  • C. Прямая практическая применимость: Высокая. Выводы можно применить немедленно, без кода и инструментов. Пользователю достаточно изменить свой подход к оценке ответов, сгенерированных с помощью CoT, и добавить в промты инструкции для самопроверки.
  • D. Концептуальная ценность: Очень высокая. Это исследование — одно из ключевых для понимания "психологии" LLM. Оно объясняет, почему самый логичный и структурированный ответ может быть абсолютно неверным. Оно формирует у пользователя здоровую долю скептицизма и учит не доверять "уверенному тону" модели.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в три кластера:
    • 1. Техники формулирования промптов: Анализирует последствия применения CoT.
    • 2. Поведенческие закономерности LLM: Раскрывает паттерн "ложной уверенности" при использовании CoT.
    • 7. Надежность и стабильность: Напрямую касается проблемы галлюцинаций и методов их косвенного контроля через промтинг.
  • Чек-лист практичности (+15 баллов): Да, исследование раскрывает неочевидные особенности поведения LLM и предлагает способы (через осознание проблемы) улучшить точность ответов.
📌

Цифровая оценка полезности

Аргументы в пользу оценки (90/100): Исследование имеет огромную концептуальную и практическую ценность для любого пользователя, который перешел от простых вопросов к сложным задачам, требующим рассуждений. Оно наносит удар по наивному представлению о том, что "если модель рассуждает по шагам, она права". Понимание этого "парадокса CoT" — ключевой шаг к зрелому промпт-инжинирингу. Оно напрямую учит пользователя не доверять форме ответа, а проверять его суть, и дает понимание, почему это нужно делать.

Контраргументы (почему оценка могла бы быть ниже): * Исследование не предлагает готового "решения" или новой техники, которая бы устраняла описанную проблему. Оно скорее диагностирует болезнь, а не выписывает лекарство. Пользователь, ищущий "волшебную фразу" для улучшения промптов, может быть разочарован. * Основная часть статьи посвящена методам детекции галлюцинаций (AUROC, ECE, K-S test), что является технической информацией, бесполезной для обычного пользователя. Ценность для пользователя заключается лишь в конечном выводе, а не в пути его получения.

Контраргументы (почему оценка могла бы быть выше): * Понимание этого принципа может сэкономить пользователю часы работы и уберечь от критических ошибок, вызванных слепым доверием к LLM. Это одно из тех исследований, которое формирует не просто навык, а мировоззрение при работе с ИИ. Возможно, это даже важнее, чем изучение десятка мелких техник.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с