arXiv:2512.07141 74 7 дек. 2025 г. PRO

Think-Reflect-Revise: рефлексия с опорой на политику для безопасности LLM

КЛЮЧЕВАЯ СУТЬ

Парадокс: LLM не распознаёт скрытую угрозу в запросе (текст задом наперёд, вредное намерение в сюжете игры), но сама генерирует явный вредный контент в ответе — и игнорирует этот сигнал. Метод Think-Reflect-Revise позволяет модели использовать свой первый ответ как объект для проверки — найти проблемы, которые пропустил первый проход. TRR добавляет этап явной рефлексии между первым выводом и финальным ответом: модель рассуждает (Think), проверяет вывод по политике безопасности (Reflect), исправляет (Revise). Три этапа вместо одного — рефлексия находит до 40% проблем, пропущенных на первом шаге.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Think-Reflect-Revise: рефлексия с опорой на политику для безопасности LLM

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации