3,583 papers
arXiv:2602.19101 74 22 фев. 2026 г. FREE

Моральный дрейф: как нравственная окраска текста искажает оценку качества в LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: две грамматически одинаковые фразы получают разные оценки грамматики — только из-за того, что одна про добро, другая про зло. Метод изолированной оценки позволяет получить честную техническую оценку текста, не отношение модели к теме. Фишка: слово «хорошо» при обучении встречалось во всех смыслах сразу — грамматически хорошо, морально хорошо, экономически хорошо — и модель частично слила их в один сигнал. Итог без защиты: оценка грамматики спорного текста занижена, даже если написано идеально.
Адаптировать под запрос

TL;DR

Когда LLM оценивает грамматику или экономическую ценность, моральная окраска содержания тайно просачивается в ответ. Модель не разделяет «хорошо написано» и «хорошо по сути» — понятие «хорошее» для неё частично слипается в единый сигнал.

Конкретная боль: попросите меньшую модель проверить грамматику текста о чём-то неэтичном — и она занизит оценку. Не потому что текст написан плохо, а потому что содержание аморально. Идеально грамматически правильная фраза «я продавал поддельные лекарства умирающим» получит более низкую оценку грамматики, чем «я пожертвовал почку незнакомцу» — хотя обе написаны одинаково корректно.

Это происходит потому что слово «хорошо» в обучающих данных встречается во всех смыслах сразу — и модель не всегда научилась их разделять. Claude 3.7 и GPT-4o mini справляются хорошо. GPT-3.5, Qwen 7B, Gemma 9B — сильно «протекают».


📌

Схема эффекта и как его нейтрализовать

ПРОБЛЕМА (в уязвимых моделях):
Запрос: "Оцени грамматику текста"
Что происходит внутри: [оценка грамматики] + [оценка морали] → смешанный ответ
Результат: аморальный текст занижается, даже если написан правильно

НЕЙТРАЛИЗАЦИЯ (один запрос):
ШАГ 1: Явно изолировать измерение → "только грамматика, не содержание"
ШАГ 2: Дать критерий без пространства для морального суждения → конкретная шкала
ШАГ 3: Попросить обоснование → видно, не просочилась ли мораль в ответ

Всё выполняется в одном промпте.


🚀

Пример применения

Задача: Редактор Т—Ж или vc.ru правит материал про агрессивные маркетинговые практики МФО. Просит LLM оценить ясность и структуру черновика — хочет получить честную оценку качества текста, не отношение к теме.

Промпт:

Оцени этот текст по трём критериям. Оценивай ТОЛЬКО то, что указано — 
содержание и этичность темы не учитывай вообще.

Критерии:
1. Грамматика и синтаксис (0–10): ошибки в согласовании, пунктуация, структура предложений
2. Ясность изложения (0–10): понятно ли читателю что происходит, нет ли двусмысленностей
3. Структура (0–10): есть ли логичный переход между абзацами

По каждому критерию: оценка + одна конкретная правка или наблюдение.

Текст:
[вставить текст]

Результат: Модель выдаст три отдельные оценки с конкретными наблюдениями по каждому критерию. Явное разделение измерений и инструкция игнорировать содержание снижает вероятность того, что моральная окраска темы МФО «утечёт» в оценку грамматики или структуры. В обосновании будет видно, если модель всё же начнёт комментировать этичность — это сигнал переформулировать запрос или сменить модель.


🧠

Почему это работает

Слабость LLM: Модель не хранит отдельные «ящики» для разных смыслов слова «хорошо». При обучении слово good в контекстах «grammatically good», «morally good», «economically good» частично смешалось в единый вектор — особенно в меньших моделях. Когда модель генерирует ответ про грамматику, моральный сигнал тоже активируется и тянет оценку в свою сторону.

Что умеет LLM: Модель хорошо следует явным ограничениям в промпте. Если прямо сказать «оценивай только X, Y полностью игнорируй» — модель перераспределяет внимание и частично подавляет нерелевантные сигналы. Это не 100% защита, но значительно снижает «протечку».

Рычаги управления: - Явный критерий вместо общего вопроса → «оцени грамматику» даёт больше пространства для морального суждения, чем «посчитай ошибки согласования» - Запрос обоснования → если модель комментирует этичность темы вместо структуры — значит мораль просочилась, и вы это увидите - Выбор модели → для задач где важна чистота оценки (редактура спорного контента, оценка цен в сложном контексте) — Claude 3.7 и GPT-4o mini статистически чище, чем GPT-3.5 и небольшие открытые модели


📋

Шаблон промпта

Оцени {объект оценки} строго по следующим критериям.

ВАЖНО: оценивай только технические параметры ниже. 
Моральную, этическую или эмоциональную сторону содержания полностью игнори руй.

Критерии:
1. {критерий_1} (шкала {мин}–{макс}): {что именно измеряем}
2. {критерий_2} (шкала {мин}–{макс}): {что именно измеряем}
3. {критерий_3} (шкала {мин}–{макс}): {что именно измеряем}

По каждому критерию: оценка + одно конкретное наблюдение или пример из текста.

{объект оценки}:
{текст/фрагмент/описание}

Плейсхолдеры: - {объект оценки} — текст, описание товара, деловое письмо, финансовый прогноз - {критерий_N} — грамматика, структура, ясность, точность формулировок, читаемость - {мин}–{макс} — стандартная шкала: 1–10 или 0–5 - {что именно измеряем} — конкретный параметр без оценочных суждений о содержании

🚀 Быстрый старт — вставь в чат:

Вот шаблон для изолированной оценки текста без морального дрейфа. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой текст оценивать и по каким критериям — потому что без этого невозможно расставить правильные ограничения в промпте. Она возьмёт структуру с явной изоляцией измерений и подгонит под твою задачу.


⚠️

Ограничения

⚠️ Частичная защита, не полная: Явные инструкции снижают моральный дрейф, но не устраняют его полностью — особенно в уязвимых моделях (GPT-3.5, Qwen 7B, Gemma 9B). Для критически важных оценок используй Claude 3.7 или GPT-4o mini.

⚠️ Сильнее при явном моральном контрасте: Эффект максимален когда в тексте есть очевидно «хорошие» и «плохие» действия. Нейтральный деловой текст искажается значительно меньше.

⚠️ Экономическая оценка уязвима иначе: Когда дорогой объект упомянут в аморальном контексте («часы за 300 000 рублей рядом с описанием мошенничества»), меньшие модели занижают его экономическую ценность. Изолируй оценку стоимости от контекста действия явно.

⚠️ Эффект идёт из предобучения, не из настройки: Дообученные инструкционные версии моделей не лучше базовых по этому параметру — проблема глубже, чем RLHF-настройка. Промпт помогает, но не «лечит» модель.


🔍

Как исследовали

Исследователи создали хитрый набор из 68 предложений, где моральная окраска и грамматическое качество намеренно не связаны между собой. Одна и та же история — например, о пожертвовании почки — записывалась с нарастающим числом грамматических ошибок. Параллельно: история о продаже поддельных лекарств записывалась идеально грамматически. Это позволило проверить чистый вопрос: влияет ли мораль на оценку грамматики?

Люди (41 человек на каждое предложение) дали предсказуемый результат — их оценки грамматики и морали не коррелировали (r = 0.05). Люди понимают разницу между «написано правильно» и «поступок хороший».

Модели повели себя иначе. GPT-3.5 дал корреляцию r = 0.58 — больше половины оценки грамматики объяснялась моральной окраской. Qwen 7B — r = 0.46, Gemma 9B — r = 0.33. При этом Claude 3.7 (r = 0.07) и GPT-4o mini (r = 0.12) оказались статистически неотличимы от людей — что говорит о том, что современные большие модели проблему во многом решили.

Самое интересное: мораль влияла на грамматику, но не наоборот. Модели точно оценивали мораль, не путая её с грамматикой — а вот грамматическая оценка «протекала» в сторону морали. Асимметрия указывает на то, что моральный сигнал в моделях просто сильнее, и он перебивает более слабый грамматический.


💡

Адаптации и экстраполяции

1. Ролевая изоляция

🔧 Техника: назначить модели узкую роль эксперта → убрать пространство для моральных суждений

Вместо общего «оцени текст» — «ты корректор. Твоя единственная задача — найти ошибки согласования и пунктуации. Всё остальное тебя не касается».

Роль технического специалиста сужает активный контекст модели. Ей труднее «выскользнуть» в моральную оценку, если её идентичность в диалоге — бесстрастный редактор.


2. Диагностический тест на дрейф

🔧 Техника: подать модели контрольные пары → проверить нет ли морального перекоса перед реальной задачей

Перед важной оценкой попросить модель оценить два текста с одинаковой грамматикой, но разной моральной окраской. Если оценки сильно расходятся — в этой модели дрейф активен.

Оцени грамматику двух предложений по шкале 1–10. Только синтаксис и пунктуация:
А: "Я перевёл миллион рублей в благотворительный фонд помощи детям."
Б: "Я перевёл миллион рублей на счёт фиктивной компании-однодневки."

Оценка А: ?
Оценка Б: ?

Если оценки одинаковые (или разница не больше 1 балла) — модель держит разделение. Если А получает 9, а Б — 5 при идентичной структуре — дрейф есть, переформулируй запрос или смени модель.


🔗

Ресурсы

Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models Препринт, февраль 2026

Авторы: - Seong Hah Cho (independent researcher) - Junyi Li — Department of Cognitive Sciences, UC Irvine - Anna Leshinskaya — Department of Cognitive Sciences, UC Irvine; AI Objectives Institute

Связанные работы, упомянутые в исследовании: - Grand et al., 2022 — метод семантической проекции через векторы (основа метода измерения) - Dillion et al., 2023 — датасет моральных норм (464 сценария из 5 работ) - Arditi et al., 2024 — directional ablation техника


📋 Дайджест исследования

Ключевая суть

Парадокс: две грамматически одинаковые фразы получают разные оценки грамматики — только из-за того, что одна про добро, другая про зло. Метод изолированной оценки позволяет получить честную техническую оценку текста, не отношение модели к теме. Фишка: слово «хорошо» при обучении встречалось во всех смыслах сразу — грамматически хорошо, морально хорошо, экономически хорошо — и модель частично слила их в один сигнал. Итог без защиты: оценка грамматики спорного текста занижена, даже если написано идеально.

Принцип работы

Не «оцени грамматику» — а «посчитай ошибки согласования, этику темы полностью игнорируй». Разница огромная. Чем конкретнее критерий — тем меньше пространства остаётся для морального суждения. Добавь к этому запрос обоснования: если мораль всё же просочилась, ты увидишь это прямо в тексте ответа. Модель сама себя выдаст, начав комментировать этичность темы вместо структуры абзацев.

Почему работает

Модель не хранит отдельные «ящики» для разных значений слова «хорошее». При обучении это слово в контекстах «грамматически хорошо», «морально хорошо», «экономически хорошо» частично слилось в один вектор — особенно в небольших моделях. Когда модель генерирует ответ про грамматику, моральный сигнал тоже активируется и тянет оценку в свою сторону — без ведома пользователя. Явная инструкция «игнорируй X» перераспределяет внимание модели и подавляет нерелевантный сигнал. Не на 100%, но заметно. Причём дообучение не лечит: инструкционные версии моделей не лучше базовых — проблема глубже, чем настройка по обратной связи от людей.

Когда применять

Редактура → особенно для текстов на спорные темы (МФО, агрессивный маркетинг, криминальные сюжеты), когда нужна честная оценка качества письма, а не отношение к теме. Оценка экономической ценности → когда объект упомянут в сомнительном контексте (цены рядом с описанием мошенничества — меньшие модели занижают стоимость). Проверка деловых документов → где содержание неоднозначно, а качество написания важно отдельно. НЕ подходит для: задач где правильность неотделима от содержания — например, проверка фактов или оценка этики намеренно.

Мини-рецепт

1. Назови конкретный критерий: не «оцени качество», а «посчитай ошибки согласования» или «проверь переходы между абзацами» — общие формулировки дают больше пространства для морального суждения
2. Добавь явный запрет: «содержание, этику и эмоциональную окраску темы полностью игнорируй» — прямо в тексте промпта
3. Дай шкалу с якорями: «0 — больше пяти ошибок на абзац, 10 — ни одной» — конкретная шкала хуже поддаётся моральному смещению, чем открытый вопрос
4. Попроси обоснование: «одно конкретное наблюдение из текста по каждому критерию» — если мораль просочилась, ты это увидишь
5. Выбери правильную модель: для спорного контента — Claude 3.7 или GPT-4o mini; GPT-3.5, Qwen 7B, Gemma 9B текут заметно сильнее

Примеры

[ПЛОХО] : Оцени грамматику и качество этого текста про схемы МФО
[ХОРОШО] : Оцени текст строго по двум техническим критериям. Содержание, этику и эмоциональную окраску темы полностью игнорируй — тебя интересует только КАК написано, не ЧТО. 1. Грамматика (0–10): ошибки согласования, пунктуация, структура предложений 2. Структура (0–10): логика переходов между абзацами, есть ли потеря нити По каждому критерию: оценка + один конкретный пример из текста. Текст: [вставить] Результат: две отдельные оценки с конкретными наблюдениями. Если модель начнёт в обосновании комментировать этичность МФО — это сигнал, что мораль просочилась. Переформулируй запрос или смени модель.
Источник: Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models
ArXiv ID: 2602.19101 | Сгенерировано: 2026-02-24 05:30

Проблемы LLM

ПроблемаСутьКак обойти
Моральная окраска просачивается в техническую оценкуПросишь оценить грамматику, структуру или экономическую ценность. Модель незаметно учитывает мораль содержания. Аморальный текст получает заниженную оценку грамматики — не потому что написан плохо, а потому что тема «плохая». Проблема реальна для любой задачи где содержание несёт моральный заряд: редактура, оценка товара, анализ делового письмаНазови точный технический критерий вместо общего вопроса. Явно запрети моральную оценку: «этичность темы не учитывай». Попроси конкретное обоснование по каждому критерию — если модель комментирует мораль вместо структуры, просочился дрейф. Это видно и можно скорректировать

Методы

МетодСуть
Явная изоляция измерений — чистая оценка без морального дрейфаРазбей оценку на конкретные критерии с числовой шкалой. В начале запроса напиши: ВАЖНО: оценивай только технические параметры. Моральную и этическую сторону полностью игнорируй. По каждому критерию проси: оценка + одно конкретное наблюдение из текста. Почему работает: модель хорошо следует явным ограничениям. Прямой запрет перераспределяет внимание и частично гасит нерелевантные сигналы. Когда применять: редактура спорного контента, оценка описаний товаров в сложном контексте, анализ любого текста где тема несёт моральный заряд. Ограничение: защита частичная. В слабых моделях (GPT-3.5, Qwen 7B, Gemma 9B) дрейф всё равно просочится. Для критически важных задач — используй Claude 3.7 или GPT-4o mini

Тезисы

ТезисКомментарий
Понятие «хорошо» частично слипается в слабых моделяхВ обучающих данных слово «хорошо» встречается во всех смыслах сразу: грамматически хорошо, морально хорошо, экономически хорошо. Меньшие модели не научились их разделять — понятия частично слились в один сигнал. Когда просишь оценить грамматику, моральный сигнал тоже активируется и тянет оценку. Применяй: чем конкретнее критерий, тем меньше пространства для слипания. Вместо «оцени качество» пиши «посчитай ошибки согласования»
📖 Простыми словами

Value Entanglement: Conflation Between Different Kinds of Good In (Some)LargeLanguageModels

arXiv: 2602.19101

Нейросети до сих пор не понимают разницы между «хорошо написано» и «хорошо сделано». Для LLM понятие «хорошего» — это не набор разных папок в голове, а одна большая куча, где грамматика, мораль и деньги перемешаны в кашу. Исследователи называют это запутанностью ценностей: когда модель просят оценить качество текста, она подсознательно подсматривает в его содержание. Если текст проповедует что-то плохое, модель чисто технически начнет занижать ему оценку за структуру или стиль, просто потому что её «коробит» от смысла.

Это как если бы ты пришел к строгому учителю русского языка с идеально написанным сочинением о том, почему воровать — это круто. Учитель видит безупречные запятые, но от самой темы его так бомбит, что он подсознательно ищет, к чему бы придраться, и в итоге ставит четверку за «недостаточную глубину мысли». Модель ведет себя точно так же: она не разделяет форму и содержание, превращаясь из беспристрастного алгоритма в предвзятого критика, который сам не понимает, почему он злится.

В работе это проявляется максимально тупо: если ты попросишь нейронку отредактировать статью про агрессивный маркетинг или сомнительные схемы заработка, она может выдать мусорный фидбэк. Вместо того чтобы поправить деепричастные обороты, она начнет «лагать» и выдавать низкие баллы за ясность текста просто потому, что ей не нравится тема. Особенно сильно этим грешат маленькие модели, у которых не хватает мозгов разложить разные аспекты «хорошего» по разным полкам — у них всё, что неэтично, автоматически становится «плохо написанным».

Принцип универсален и касается не только текстов. Эта скрытая предвзятость вылезает везде, где есть оценочное суждение: в анализе бизнес-стратегий, в проверке кода или в оценке резюме. Если модель видит что-то, что противоречит её базовым установкам о «добре», она начинает искажать объективные метрики. Ты думаешь, что получаешь сухую аналитику, а на самом деле это завуалированная морализаторская лекция, упакованная в отчет о качестве структуры или экономической эффективности.

Короче, не надейся на объективность AI, когда подсовываешь ему «грязные» темы. Модель — это не скальпель, а скорее губка, пропитанная человеческими понятиями о правильном, и выжать из неё чистую логику без примеси морали почти невозможно. Если нужно оценить структуру текста про казино или МФО, будь готов, что нейронка будет предвзято лажать, даже если ты трижды попросишь её быть объективной. Либо используй самые мощные модели, либо фильтруй их «экспертное мнение» через сито здравого смысла.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с