TL;DR
Когда LLM оценивает грамматику или экономическую ценность, моральная окраска содержания тайно просачивается в ответ. Модель не разделяет «хорошо написано» и «хорошо по сути» — понятие «хорошее» для неё частично слипается в единый сигнал.
Конкретная боль: попросите меньшую модель проверить грамматику текста о чём-то неэтичном — и она занизит оценку. Не потому что текст написан плохо, а потому что содержание аморально. Идеально грамматически правильная фраза «я продавал поддельные лекарства умирающим» получит более низкую оценку грамматики, чем «я пожертвовал почку незнакомцу» — хотя обе написаны одинаково корректно.
Это происходит потому что слово «хорошо» в обучающих данных встречается во всех смыслах сразу — и модель не всегда научилась их разделять. Claude 3.7 и GPT-4o mini справляются хорошо. GPT-3.5, Qwen 7B, Gemma 9B — сильно «протекают».
Схема эффекта и как его нейтрализовать
ПРОБЛЕМА (в уязвимых моделях):
Запрос: "Оцени грамматику текста"
Что происходит внутри: [оценка грамматики] + [оценка морали] → смешанный ответ
Результат: аморальный текст занижается, даже если написан правильно
НЕЙТРАЛИЗАЦИЯ (один запрос):
ШАГ 1: Явно изолировать измерение → "только грамматика, не содержание"
ШАГ 2: Дать критерий без пространства для морального суждения → конкретная шкала
ШАГ 3: Попросить обоснование → видно, не просочилась ли мораль в ответ
Всё выполняется в одном промпте.
Пример применения
Задача: Редактор Т—Ж или vc.ru правит материал про агрессивные маркетинговые практики МФО. Просит LLM оценить ясность и структуру черновика — хочет получить честную оценку качества текста, не отношение к теме.
Промпт:
Оцени этот текст по трём критериям. Оценивай ТОЛЬКО то, что указано —
содержание и этичность темы не учитывай вообще.
Критерии:
1. Грамматика и синтаксис (0–10): ошибки в согласовании, пунктуация, структура предложений
2. Ясность изложения (0–10): понятно ли читателю что происходит, нет ли двусмысленностей
3. Структура (0–10): есть ли логичный переход между абзацами
По каждому критерию: оценка + одна конкретная правка или наблюдение.
Текст:
[вставить текст]
Результат: Модель выдаст три отдельные оценки с конкретными наблюдениями по каждому критерию. Явное разделение измерений и инструкция игнорировать содержание снижает вероятность того, что моральная окраска темы МФО «утечёт» в оценку грамматики или структуры. В обосновании будет видно, если модель всё же начнёт комментировать этичность — это сигнал переформулировать запрос или сменить модель.
Почему это работает
Слабость LLM: Модель не хранит отдельные «ящики» для разных смыслов слова «хорошо». При обучении слово good в контекстах «grammatically good», «morally good», «economically good» частично смешалось в единый вектор — особенно в меньших моделях. Когда модель генерирует ответ про грамматику, моральный сигнал тоже активируется и тянет оценку в свою сторону.
Что умеет LLM: Модель хорошо следует явным ограничениям в промпте. Если прямо сказать «оценивай только X, Y полностью игнорируй» — модель перераспределяет внимание и частично подавляет нерелевантные сигналы. Это не 100% защита, но значительно снижает «протечку».
Рычаги управления: - Явный критерий вместо общего вопроса → «оцени грамматику» даёт больше пространства для морального суждения, чем «посчитай ошибки согласования» - Запрос обоснования → если модель комментирует этичность темы вместо структуры — значит мораль просочилась, и вы это увидите - Выбор модели → для задач где важна чистота оценки (редактура спорного контента, оценка цен в сложном контексте) — Claude 3.7 и GPT-4o mini статистически чище, чем GPT-3.5 и небольшие открытые модели
Шаблон промпта
Оцени {объект оценки} строго по следующим критериям.
ВАЖНО: оценивай только технические параметры ниже.
Моральную, этическую или эмоциональную сторону содержания полностью игнори руй.
Критерии:
1. {критерий_1} (шкала {мин}–{макс}): {что именно измеряем}
2. {критерий_2} (шкала {мин}–{макс}): {что именно измеряем}
3. {критерий_3} (шкала {мин}–{макс}): {что именно измеряем}
По каждому критерию: оценка + одно конкретное наблюдение или пример из текста.
{объект оценки}:
{текст/фрагмент/описание}
Плейсхолдеры:
- {объект оценки} — текст, описание товара, деловое письмо, финансовый прогноз
- {критерий_N} — грамматика, структура, ясность, точность формулировок, читаемость
- {мин}–{макс} — стандартная шкала: 1–10 или 0–5
- {что именно измеряем} — конкретный параметр без оценочных суждений о содержании
🚀 Быстрый старт — вставь в чат:
Вот шаблон для изолированной оценки текста без морального дрейфа.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой текст оценивать и по каким критериям — потому что без этого невозможно расставить правильные ограничения в промпте. Она возьмёт структуру с явной изоляцией измерений и подгонит под твою задачу.
Ограничения
⚠️ Частичная защита, не полная: Явные инструкции снижают моральный дрейф, но не устраняют его полностью — особенно в уязвимых моделях (GPT-3.5, Qwen 7B, Gemma 9B). Для критически важных оценок используй Claude 3.7 или GPT-4o mini.
⚠️ Сильнее при явном моральном контрасте: Эффект максимален когда в тексте есть очевидно «хорошие» и «плохие» действия. Нейтральный деловой текст искажается значительно меньше.
⚠️ Экономическая оценка уязвима иначе: Когда дорогой объект упомянут в аморальном контексте («часы за 300 000 рублей рядом с описанием мошенничества»), меньшие модели занижают его экономическую ценность. Изолируй оценку стоимости от контекста действия явно.
⚠️ Эффект идёт из предобучения, не из настройки: Дообученные инструкционные версии моделей не лучше базовых по этому параметру — проблема глубже, чем RLHF-настройка. Промпт помогает, но не «лечит» модель.
Как исследовали
Исследователи создали хитрый набор из 68 предложений, где моральная окраска и грамматическое качество намеренно не связаны между собой. Одна и та же история — например, о пожертвовании почки — записывалась с нарастающим числом грамматических ошибок. Параллельно: история о продаже поддельных лекарств записывалась идеально грамматически. Это позволило проверить чистый вопрос: влияет ли мораль на оценку грамматики?
Люди (41 человек на каждое предложение) дали предсказуемый результат — их оценки грамматики и морали не коррелировали (r = 0.05). Люди понимают разницу между «написано правильно» и «поступок хороший».
Модели повели себя иначе. GPT-3.5 дал корреляцию r = 0.58 — больше половины оценки грамматики объяснялась моральной окраской. Qwen 7B — r = 0.46, Gemma 9B — r = 0.33. При этом Claude 3.7 (r = 0.07) и GPT-4o mini (r = 0.12) оказались статистически неотличимы от людей — что говорит о том, что современные большие модели проблему во многом решили.
Самое интересное: мораль влияла на грамматику, но не наоборот. Модели точно оценивали мораль, не путая её с грамматикой — а вот грамматическая оценка «протекала» в сторону морали. Асимметрия указывает на то, что моральный сигнал в моделях просто сильнее, и он перебивает более слабый грамматический.
Адаптации и экстраполяции
1. Ролевая изоляция
🔧 Техника: назначить модели узкую роль эксперта → убрать пространство для моральных суждений
Вместо общего «оцени текст» — «ты корректор. Твоя единственная задача — найти ошибки согласования и пунктуации. Всё остальное тебя не касается».
Роль технического специалиста сужает активный контекст модели. Ей труднее «выскользнуть» в моральную оценку, если её идентичность в диалоге — бесстрастный редактор.
2. Диагностический тест на дрейф
🔧 Техника: подать модели контрольные пары → проверить нет ли морального перекоса перед реальной задачей
Перед важной оценкой попросить модель оценить два текста с одинаковой грамматикой, но разной моральной окраской. Если оценки сильно расходятся — в этой модели дрейф активен.
Оцени грамматику двух предложений по шкале 1–10. Только синтаксис и пунктуация:
А: "Я перевёл миллион рублей в благотворительный фонд помощи детям."
Б: "Я перевёл миллион рублей на счёт фиктивной компании-однодневки."
Оценка А: ?
Оценка Б: ?
Если оценки одинаковые (или разница не больше 1 балла) — модель держит разделение. Если А получает 9, а Б — 5 при идентичной структуре — дрейф есть, переформулируй запрос или смени модель.
Ресурсы
Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models Препринт, февраль 2026
Авторы: - Seong Hah Cho (independent researcher) - Junyi Li — Department of Cognitive Sciences, UC Irvine - Anna Leshinskaya — Department of Cognitive Sciences, UC Irvine; AI Objectives Institute
Связанные работы, упомянутые в исследовании: - Grand et al., 2022 — метод семантической проекции через векторы (основа метода измерения) - Dillion et al., 2023 — датасет моральных норм (464 сценария из 5 работ) - Arditi et al., 2024 — directional ablation техника
