3,583 papers
arXiv:2603.03330 79 10 фев. 2026 г. PRO

Certainty Robustness: LLM бросает правильный ответ, если пользователь говорит «А ты уверен?»

КЛЮЧЕВАЯ СУТЬ
Ты получил хороший ответ от AI. Засомневался — написал «а ты уверен?». Модель извинилась и дала другой. Теперь у тебя плохой ответ, а ты думаешь что лучший. Это не глюк конкретной модели — RLHF-обучение буквально научило её воспринимать «пользователь сомневается» как команду отступить. Принцип Certainty Robustness позволяет не терять правильный первый ответ и заставить модель менять позицию только при наличии реального аргумента. Работает через две вещи: антисикофантная инструкция в начале диалога и шкала уверенности 1–100 — модель переключается с «угодить» на «объяснить почему я прав».
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с