3,583 papers
arXiv:2508.15648 68 26 авг. 2025 г. PRO

SDGO: оптимизация с самодискриминационным управлением для согласованной безопасности в больших языковых моделях

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM страдает от «раздвоения личности» — модель отлично распознаёт вредоносные запросы (когда выступает «судьёй»), но при этом всё равно может их выполнить (когда выступает «исполнителем»). Это объясняет, почему ChatGPT иногда генерирует неэтичный контент, хотя «знает», что это плохо. Метод SDGO позволяет разработчикам устранить этот разрыв через дообучение: модель учится прислушиваться к своей внутренней оценке риска. Ключевая фишка: модель тренируется на собственных противоречиях — если её внутренний критик счёл запрос опасным, а генератор всё равно выдал вредный ответ, модель получает штраф. Результат: +23% точности в отказе от вредоносных запросов при сохранении качества на безопасных задачах.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с