3,583 papers
arXiv:2605.05584 70 7 мая 2026 г. FREE

Поведенческая конституция LLM: конкретные правила вместо абстрактных ценностей в системных инструкциях

КЛЮЧЕВАЯ СУТЬ
Написать LLM 'будь справедливым' — то же самое, что не писать ничего. Модель и так считает, что ведёт себя справедливо — у неё нет внутреннего этического счётчика, который среагирует на слово 'этично'. Метод 'поведенческой конституции' даёт возможность закладывать устойчивые правила в кастомные инструкции ChatGPT или Project-файлы Claude — и модель реально меняет вывод, а не делает вид. Фишка: вместо 'избегай предвзятости' пиши 'повтори анализ, подставив имя другого пола, и сравни результат' — это условие текстовое, модель проверяет его прямо в процессе генерации, и вывод действительно меняется.
Адаптировать под запрос

TL;DR

Когда разработчики пишут AI-агентам "будь этичным и справедливым" — агент ведёт себя как всегда. Когда пишут конкретно: "проверь результат на именах John Smith, José García, Lakshmi Patel, Ahmed Hassan, 李明 и убедись, что при одинаковой квалификации разные имена дают одинаковый ответ" — агент реально меняет поведение. Исследование изучает файлы AGENTS.md (текстовые файлы с инструкциями для AI-агентов в репозиториях на GitHub) и фиксирует этот разрыв как ключевое явление.

Главный инсайт: LLM не умеет интерпретировать абстрактные ценности — у неё нет "этического счётчика". Фраза "будь инклюзивным" не меняет ничего, потому что модель и так считает, что ведёт себя инклюзивно. Но конкретная инструкция "пиши так, чтобы понял носитель другого языка: короткие предложения, без идиом и слэнга" — меняет реальный вывод.

Суть: Переводи абстрактные ценности в исполняемые ограничения. Не "будь честным", а "предупреждай, когда уверен менее чем на 80%". Не "избегай предвзятости", а "проверь ответ заново, подставив другое имя/пол/город, и сравни результат". Это принцип из мира разработки, но работает в любых системных инструкциях и кастомных настройках ChatGPT/Claude.


📌

Схема принципа

УРОВЕНЬ 1 (не работает): Абстрактная ценность
  → "Будь справедливым / инклюзивным / этичным"
  → Нет изменений в поведении

УРОВЕНЬ 2 (работает лучше): Поведенческое правило
  → "Используй нейтральный язык, не читай морали"
  → Влияет на тон

УРОВЕНЬ 3 (работает хорошо): Исполняемое ограничение
  → "При оценке резюме: повтори анализ с именем другого пола/национальности
     и проверь, совпадает ли результат"
  → Конкретная проверка, конкретный вывод

Все три уровня — в одном сообщении или в кастомных инструкциях. Отдельные запросы не нужны.


🚀

Пример применения

Задача: Ты — контент-менеджер в e-commerce. Используешь Claude для написания карточек товаров. Хочешь, чтобы тексты были понятны широкой аудитории и не содержали случайных возрастных или гендерных штампов.

Промпт (в системных инструкциях / Project instructions Claude):

Когда пишешь тексты для товаров, следуй этим правилам:

ЯЗЫК И ПОНИМАНИЕ:
— Пиши предложения до 15 слов. Без профессионального жаргона.
— Если используешь термин (например, "анатомическая стелька") — сразу объясни в скобках.
— Проверь: поймёт ли текст человек, который видит этот товар впервые?

НЕЙТРАЛЬНОСТЬ:
— Не указывай пол адресата по умолчанию. Не "для неё", а "для тебя" или нейтральное "для тех, кто...".
— После написания: перечитай и замени владельца товара на человека другого возраста или пола. Изменился ли смысл? Если текст стал странным — переформулируй.

ТОНАЛЬНОСТЬ:
— Без назидательных советов ("ты должен заботиться о здоровье").
— Описывай пользу, не убеждай в ней.

Результат: Claude будет автоматически применять правила к каждому тексту. При запросах "напиши карточку для кроссовок" — выдаст текст без гендерных указаний, с короткими предложениями и объяснёнными терминами. Встроенная самопроверка ("замени владельца") работает как мысленный тест на нейтральность прямо внутри генерации.


🧠

Почему это работает

LLM предсказывает следующий токен. У неё нет внутреннего "этического модуля" — она следует паттернам из контекста. Когда ты пишешь "будь справедливым", в контексте нет ничего, что бы конкретно изменило паттерн. Модель продолжает генерировать "справедливо" по своим собственным стандартам — которые могут не совпадать с твоими.

Конкретная инструкция создаёт измеримое условие: есть ли в тексте объяснение термина? Содержит ли фраза указание на пол? Это модель может проверить в процессе генерации, потому что условие — текстовое, а не абстрактное.

Рычаги управления: - Тест-кейсы (список имён, поворот роли) — убирай для простых задач, добавляй для чувствительных (HR, контент для широкой аудитории) - Числовые пороги ("предложения до 15 слов", "объясни каждый термин") — меняй под задачу - Чеклисты после генерации ("проверь: нет ли...") — превращают абстрактный принцип в конкретный шаг самопроверки


📋

Шаблон промпта

Когда ты [выполняешь задачу], следуй этим правилам:

[КАТЕГОРИЯ ЦЕННОСТИ, например "ЧЕСТНОСТЬ"]:
— [Конкретное правило 1: что делать / не делать]
— [Проверка: как убедиться, что правило соблюдено]

[КАТЕГОРИЯ ЦЕННОСТИ, например "ДОСТУПНОСТЬ"]:
— [Конкретное правило 2]
— [Тест: подставь {альтернативный случай} и сравни результат]

[КАТЕГОРИЯ ЦЕННОСТИ, например "ТОНАЛЬНОСТЬ"]:
— [Конкретное правило 3]
— Запрещено: [список конкретных паттернов, которых нужно избегать]

Что подставлять: - {задача} — тип работы: "пишешь тексты", "отвечаешь на вопросы", "анализируешь данные" - {категория ценности} — то, что важно тебе: честность, нейтральность, краткость, доступность - {альтернативный случай} — для теста на предвзятость: другое имя, возраст, пол, город

🚀 Быстрый старт — вставь в чат:

Вот шаблон для системных инструкций с конкретными поведенческими правилами.
Адаптируй под мою задачу: {твоя задача}. 
Задай вопросы, чтобы заполнить плейсхолдеры.

[вставить шаблон выше]

LLM спросит, какие ценности важны в твоей работе и какие конкретные случаи ты хочешь проверять — потому что без этого невозможно сделать правила исполняемыми, а не декларативными.


⚠️

Ограничения

⚠️ Слабая эмпирика: Исследование изучило 25 репозиториев и показало 6 примеров. Это не доказательство, что конкретные инструкции работают лучше абстрактных — это наблюдение, что разработчики их используют. Прямого сравнения "конкретные vs абстрактные правила по эффекту на вывод" в статье нет.

⚠️ Нет гарантии соответствия: Авторы прямо ставят вопрос: а соблюдает ли LLM вообще эти ограничения? Даже конкретные правила — не команды, а натуральный язык. Модель может их игнорировать или интерпретировать по-своему.

⚠️ Vision paper, не руководство: Это академическая "статья-повестка" — обозначение исследовательского направления, а не готовая методология с валидированными результатами.

⚠️ Нарастающая сложность: Чем больше конкретных правил, тем выше вероятность конфликта между ними. "Пиши коротко" + "объясняй все термины" — могут противоречить друг другу. Авторы признают: даже люди с трудом балансируют между "делать правильное дело" и "делать дело правильно".


🔗

Ресурсы

Название: Operationalizing Ethics for AI Agents: How Developers Encode Values into Repository Context Files

Авторы: Christoph Treude (Singapore Management University), Sebastian Baltes (Ruprecht-Karls-Universität Heidelberg), Marc Cheong (University of Melbourne)

Смежное: agents.md — растущий стандарт конфигурации AI-агентов, используется в 60 000+ репозиториев


📋 Дайджест исследования

Ключевая суть

Написать LLM 'будь справедливым' — то же самое, что не писать ничего. Модель и так считает, что ведёт себя справедливо — у неё нет внутреннего этического счётчика, который среагирует на слово 'этично'. Метод 'поведенческой конституции' даёт возможность закладывать устойчивые правила в кастомные инструкции ChatGPT или Project-файлы Claude — и модель реально меняет вывод, а не делает вид. Фишка: вместо 'избегай предвзятости' пиши 'повтори анализ, подставив имя другого пола, и сравни результат' — это условие текстовое, модель проверяет его прямо в процессе генерации, и вывод действительно меняется.

Принцип работы

Три уровня — три разных эффекта. Уровень первый: абстрактная ценность — 'будь инклюзивным'. Нулевой эффект: модель считает, что уже ведёт себя инклюзивно. Уровень второй: поведенческое правило — 'используй нейтральный язык, без идиом'. Влияет на тон, но расплывчато. Уровень третий: исполняемое ограничение — 'после написания замени адресата на человека другого возраста и перечитай; если смысл стал странным — переформулируй'. Это меняет конкретный вывод, потому что даёт модели проверяемое условие, а не философский принцип. Формула перевода: любую ценность превращай в проверяемое ограничение — добавь число ('предложения до 15 слов'), тест ('подставь другое имя'), или запрет ('без жаргона, без риторических вопросов').

Почему работает

LLM предсказывает следующий токен. Нет никакого 'модуля этики' — есть только паттерны из контекста. Фраза 'будь честным' не добавляет в контекст ничего нового: модель и так генерирует то, что считает честным по своим стандартам — которые могут не совпадать с твоими. Конкретное правило создаёт измеримое условие прямо в тексте: есть объяснение термина или нет? Есть указание на пол или нет? Это модель может проверить — потому что условие текстовое, а не абстрактное. Честно, исследование это не доказало в строгом смысле — авторы изучили 25 репозиториев и привели 6 примеров. Нет контрольного эксперимента 'абстрактная инструкция vs конкретная → разница в выводе'. Принцип интуитивно понятен, но его эффективность пока на уровне наблюдения, не измерения.

Когда применять

Кастомные инструкции ChatGPT и Project-файлы Claude — особенно для регулярных задач, где нужно устойчивое поведение: HR-тексты, контент для широкой аудитории, аналитика с чувствительными данными. Особенно полезно когда замечаешь, что стандартный промпт 'без предвзятости' ничего не меняет — модель возвращает то же самое. НЕ стоит тратить время для разовых задач: там проще добавить конкретное условие прямо в запрос, а не настраивать систему.

Мини-рецепт

1. Выпиши ценность: что важно в твоей работе с LLM — честность, нейтральность, доступность, краткость. Одно слово.
2. Переведи в правило: для каждой ценности — одно конкретное действие или запрет. 'Без профессионального жаргона' вместо 'доступно'. 'Предупреждай, если уверен менее 80%' вместо 'честно'. Числа и запреты работают лучше качественных описаний.
3. Добавь встроенный тест: один сценарий самопроверки прямо в инструкцию. 'Подставь другое имя и сравни', 'перечитай как человек без знания темы', 'проверь: нет ли в тексте указания на пол по умолчанию'.
4. Вставь один раз в системные настройки — не копируй в каждый запрос. Кастомные инструкции ChatGPT или Project в Claude работают как постоянный фон.

Примеры

[ПЛОХО] : Пиши тексты для товаров этично, инклюзивно и без предвзятости
[ХОРОШО] : При написании карточек товаров: предложения до 15 слов; без указания пола адресата ('для тебя', не 'для неё'); если используешь термин — объясни в скобках. После написания: перечитай, мысленно заменив покупателя на человека другого возраста. Если текст стал странным — переформулируй
Источник: Operationalizing Ethics for AI Agents: How Developers Encode Values into Repository Context Files
ArXiv ID: 2605.05584 | Сгенерировано: 2026-05-08 05:50

Проблемы LLM

ПроблемаСутьКак обойти
Абстрактные ценности в инструкциях ничего не меняютПишешь "будь справедливым", "избегай предвзятости", "будь инклюзивным". Модель не меняет поведение. Она и так считает, что ведёт себя справедливо — по своим стандартам. Нет внутреннего "этического счётчика", который бы сработал на эти слова. Касается любых инструкций: системных, кастомных, Project-файловПереводи ценности в конкретные, проверяемые правила. Не "будь честным", а "если уверенность ниже 80% — предупреди явно". Не "без предвзятости", а "повтори анализ с другим именем и сравни результат"

Методы

МетодСуть
Встроенная проверка подстановкой — тест на нейтральность внутри генерацииДобавь в системные инструкции правило: "После ответа: подставь вместо [имени/пола/возраста] другой вариант и проверь — изменился ли результат? Если да — переформулируй." Пример синтаксиса: "При оценке: повтори анализ с именем другого пола и сравни. Результат должен совпадать." Почему работает: Условие текстовое. Модель может его проверить в процессе генерации. Абстрактное "будь нейтральным" — нельзя проверить. Наличие указания на пол в тексте — можно. Когда применять: HR-тексты, контент для широкой аудитории, оценка кандидатов, любые задачи где важна нейтральность. Когда не нужно: Задачи без ролей и персон — техническая документация, математика
📖 Простыми словами

Operationalizing Ethics forAIAgents: How Developers Encode Values into Repository Context Files

arXiv: 2605.05584

AI-агенты не понимают человеческих ценностей, они просто предсказывают следующее слово в тексте. Когда ты пишешь в инструкциях «будь этичным» или «избегай предвзятости», для модели это пустой звук и статистический шум. У нее нет встроенного морального компаса, она лишь копирует паттерны из интернета. Чтобы агент реально изменил поведение, ему нужны не лозунги, а операционализация — четкий алгоритм действий, который можно выполнить по шагам, не включая философские размышления.

Это как нанять строителя и сказать ему: «Сделай красиво». Формально задача ясна, но результат будет на его вкус, который тебе вряд ли понравится. Но если ты дашь ему чертеж, укажешь марку кирпича и допустимый зазор в миллиметрах, шансы получить нормальный дом резко возрастают. С AI та же история: абстрактные ценности должны превратиться в технический регламент, иначе агент будет просто «галлюцинировать» порядочность.

Исследователи проанализировали файлы AGENTS.md на GitHub и выяснили, что реально работают только конкретные методы. Например, вместо просьбы «не дискриминируй» нужно прописать тестовый набор данных: заставь модель прогнать один и тот же сценарий на именах John Smith и Ahmed Hassan. Если результаты отличаются при одинаковых вводных — это баг, который агент должен исправить. Работает только то, что можно измерить или проверить по чек-листу: конкретные стоп-слова, проверка на инклюзивность через сравнение вариантов или жесткие рамки контекста.

Этот принцип универсален и применим далеко за пределами программирования. Если ты просишь нейронку написать рекламный пост, не пиши «сделай его дружелюбным». Пиши: «используй обращение на ты, не используй канцеляризмы и добавь пример из жизни студента». SEO для смыслов работает так же, как и для кода: чем меньше в твоем промпте воды и чем больше структурных ограничений, тем меньше шансов, что модель выдаст стандартную корпоративную чушь.

Короче: хватит надеяться на «совесть» алгоритма, ее не существует. Если хочешь, чтобы AI-агент вел себя адекватно, забудь про эпитеты и начни писать алгоритмические инструкции. Либо ты даешь модели конкретный инструмент для проверки своих действий, либо она будет выдавать среднюю температуру по больнице, игнорируя все твои пожелания о справедливости. Конкретика бьет абстракцию в 10 случаях из 10.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с