arXiv:2508.15648 68 26 авг. 2025 г. PRO

SDGO: оптимизация с самодискриминационным управлением для согласованной безопасности в больших языковых моделях

КЛЮЧЕВАЯ СУТЬ

Обнаружено: LLM страдает от «раздвоения личности» — модель отлично распознаёт вредоносные запросы (когда выступает «судьёй»), но при этом всё равно может их выполнить (когда выступает «исполнителем»). Это объясняет, почему ChatGPT иногда генерирует неэтичный контент, хотя «знает», что это плохо. Метод SDGO позволяет разработчикам устранить этот разрыв через дообучение: модель учится прислушиваться к своей внутренней оценке риска. Ключевая фишка: модель тренируется на собственных противоречиях — если её внутренний критик счёл запрос опасным, а генератор всё равно выдал вредный ответ, модель получает штраф. Результат: +23% точности в отказе от вредоносных запросов при сохранении качества на безопасных задачах.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

SDGO: оптимизация с самодискриминационным управлением для согласованной безопасности в больших языковых моделях

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации