arXiv:2511.13240 82 17 нояб. 2025 г. PRO

Непоследовательность LLM: модели действуют против своих убеждений

КЛЮЧЕВАЯ СУТЬ

Модель говорит "вероятность успеха 70%" — и рекомендует ставить на провал. GPT-4o и GPT-4o mini в большинстве случаев действуют против своих убеждений. Хуже того: когда модель получает новую информацию и "обновляет" мнение, это обновлённое мнение часто ошибается сильнее чем первое — отклонение до 30% от правильного обновления по Байесу. Фишка проблемы: убеждения и действия у LLM используют разные паттерны из обучающих данных. Модель оценивает вероятность по одним закономерностям, а принимает решение по другим — про риск, максимизацию, стратегию. Эти паттерны не синхронизированы. Решение простое: трёхэтапный промпт — убеждения → действие → проверка соответствия.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Что исследовали:

Как LLM обновляют свои убеждения (prior → posterior) согласно теореме Байеса

Соответствуют ли действия LLM их убеждениям (betting на рынке предсказаний)

Защищают ли LLM свои ответы пропорционально уверенности (deference consistency)

Ключевые находки:

LLM плохо обновляют убеждения - отклонение до 30% от Байесовского обновления

LLM часто действуют ПРОТИВ своих убеждений (betting в противоположную сторону)

LLM умеренно последовательны в защите ответов в зависимости от уверенности

Эти проблемы есть даже у хорошо откалиброванных моделей

Что применимо в чате:

Это исследование-находка, не техника. Оно показывает СЛАБОСТИ LLM:

Не доверяй "обновлённому" мнению модели - часто оно хуже первого

Не полагайся на то, что LLM будет действовать согласно своим убеждениям

Если хочешь последовательного поведения - используй промпты с явным выражением уверенности

Применимые принципы:

Prior лучше posterior - первое мнение модели часто точнее чем "обновлённое"

Запрашивай уверенность отдельно - промпт "сначала оцени уверенность, потом действуй" повышает согласованность между убеждениями и поведением

Проверяй внутреннюю логику - если модель даёт рекомендацию, отдельно спроси об её убеждениях относительно этой рекомендации

Исследование показывает, что модели часто не согласуют свои действия с выраженными убеждениями, поэтому явное структурирование запроса с указанием уверенности помогает улучшить последовательность.

Для заголовка нужно начать с практического наблюдения — что LLM часто действуют вопреки своим убеждениям или что первоначальное мнение модели оказывается точнее, чем обновлённое. TL;DR должен сразу указать на проблему, с которой столкнётся читатель: модели могут давать рекомендации, не соответствующие их собственным убеждениям.

Исследование содержит ценные принципы (явная уверенность, сохранение первоначальных убеждений), но готовой техники нет — нужна адаптация под конкретные задачи. Однако extractable принципы и примеры промптов делают его применимым. Оценка: 80-84 (хорошее исследование) — принципы достаточно универсальны и полезны для практики.

Три ключевых принципа работают в российском контексте: явно спрашивать уверенность перед действием, не полагаться на обновлённое мнение, проверять соответствие убеждений и рекомендаций. Это применимо к ставкам на стартапы, пересмотру бизнес-решений, обновлению прогнозов продаж и диагностике проблем.

Метод особенно полезен для задач, требующих уверенности и последовательных действий — например, оценка шансов запуска продукта на рынке, решение о вложениях в Яндекс.Директ или анализ отклика аудитории в Телеграм. Но он менее эффективен для простых фактических вопросов, где действие не требуется.

Меню

Непоследовательность LLM: модели действуют против своих убеждений

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации