3,583 papers
arXiv:2512.07141 74 7 дек. 2025 г. PRO

Think-Reflect-Revise: рефлексия с опорой на политику для безопасности LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM не распознаёт скрытую угрозу в запросе (текст задом наперёд, вредное намерение в сюжете игры), но сама генерирует явный вредный контент в ответе — и игнорирует этот сигнал. Метод Think-Reflect-Revise позволяет модели использовать свой первый ответ как объект для проверки — найти проблемы, которые пропустил первый проход. TRR добавляет этап явной рефлексии между первым выводом и финальным ответом: модель рассуждает (Think), проверяет вывод по политике безопасности (Reflect), исправляет (Revise). Три этапа вместо одного — рефлексия находит до 40% проблем, пропущенных на первом шаге.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с