3,583 papers
arXiv:2605.18738 74 18 мая 2026 г. FREE

Этическая детерминированность LLM: модель обсуждает все стороны — и всегда приходит к одному ответу

КЛЮЧЕВАЯ СУТЬ
LLM — детерминированный советник. Когда просишь ChatGPT или Claude разобрать этическую дилемму, модель честно перечисляет аргументы с обеих сторон — и всё равно всегда даёт один и тот же ответ. Независимо от формулировки. Независимо от того, сколько раз спросишь. Это не глюк — это системная черта: у каждой модели есть вшитые ценностные приоритеты, которые она реализует в финальном решении вне зависимости от того, что написала в рассуждениях.
Адаптировать под запрос

TL;DR

LLM — детерминированный советник. Когда просишь ChatGPT или Claude разобрать этическую дилемму, модель честно перечисляет аргументы с обеих сторон — и всё равно всегда даёт один и тот же ответ. Независимо от формулировки. Независимо от того, сколько раз спросишь. Это не глюк — это системная черта: у каждой модели есть вшитые ценностные приоритеты, которые она реализует в финальном решении вне зависимости от того, что написала в рассуждениях.

Реальная боль. Ты просишь совета по сложному решению — уволить ли ключевого сотрудника, принять ли спорный контракт, сделать ли рискованный шаг. Модель выдаёт развёрнутый ответ: "С одной стороны... с другой стороны..." — и ты думаешь, что получил взвешенный взгляд. Но это иллюзия. Модель уже решила до того, как написала первое слово. Перефразируй вопрос двадцать раз — ответ будет тот же. Это не "взвешенное суждение", это заранее предопределённый вывод в красивой упаковке.

Что выяснили исследователи. Проверили 12 топовых LLM на 50 медицинских этических дилеммах и сравнили с ответами 20 врачей. Оказалось: почти во всех моделях 82–86% случаев давали идентичный ответ при повторных запросах — даже при случайном порядке вариантов и переформулировках. Врачи же реально делились: в 21 из 50 случаев ни один из вариантов не набрал даже 70% голосов. Модели рассуждали похоже на людей — но решали как автоматы.


📌

Схема механики

ЗАПРОС → РАССУЖДЕНИЕ → РЕШЕНИЕ

Видимый слой:
"С одной стороны А... с другой стороны Б..."
→ Модель упоминает обе стороны (Overton-плюрализм)

Скрытый слой:
Приоритет ценностей зашит в модель при обучении
→ Финальное решение предопределено (детерминизм)

Результат:
Риторика = плюрализм
Действие = монокультура

Один запрос → один ответ → всегда.

Что это значит на практике:

Если попросить... Что произойдёт
"Перефразировать" вопрос Тот же вывод
"Рассмотреть с другой стороны" Рассмотрит — и снова то же
"А что если я думаю иначе?" Согласится с тобой и всё равно порекомендует своё
Спросить другую модель Другой вывод — у неё другие приоритеты

🚀

Пример применения

Задача: Артём — основатель B2B-сервиса автоматизации. Его просит о встрече крупный инвестор из Москвы: предлагает 50 млн рублей, но хочет войти в совет директоров и влиять на продуктовые решения. Артём идёт к ChatGPT за советом.

Стандартный промпт (ловушка):

Стоит ли мне брать инвестиции от бизнес-ангела, 
который хочет войти в совет директоров? 
Плюсы и минусы.

ChatGPT выдаст красивый список. Но у него уже есть свой "правильный" ответ — и это просто упакованный вывод.

Промпт с принудительным плюрализмом:

Я основатель B2B-стартапа. Рассматриваю инвестора: 
50 млн рублей, место в совете директоров, влияние на продукт.

Сыграй четырёх советников с разными приоритетами:

Советник А — защищает мою автономию как основателя.
Советник Б — думает только о росте бизнеса и деньгах.
Советник В — минимизирует риски и думает о худшем сценарии.
Советник Г — учитывает долгосрочную справедливость для команды.

Каждый советник:
1. Аргументирует свою позицию по этой сделке (3-4 тезиса)
2. Указывает на слабость в позиции одного из других советников
3. Называет главную цену своего совета — что я потеряю, если послушаюсь

Финальный вывод — не нужен. Я сам решу.

Результат: Вместо одного "взвешенного" мнения получишь четыре реально разных позиции с внутренней критикой. Советник А укажет на потерю контроля, Советник Б — на упущенный рост без капитала, Советник В — на размытие доли при down-round. Каждый назовёт цену своей логики. Ты увидишь реальные противоречия, а не риторику об "учёте всех факторов".


🧠

Почему это работает

Слабость модели. LLM при обучении получила не просто знания — она получила ценностные веса: насколько важна автономия vs. безопасность, польза vs. справедливость. Эти веса зашиты глубже, чем инструкция в промпте. Поэтому "подумай взвешенно" не меняет финального решения — оно уже предрешено.

Сильная сторона модели. Зато модель отлично симулирует роли. Если явно сказать "займи позицию Советника А с таким-то приоритетом" — она будет честно генерировать текст из этой позиции. Роль создаёт новый контекст, который перебивает внутренние веса.

Как метод использует это. Мы не просим модель "быть взвешенной" — мы разбиваем один вопрос на четыре отдельных ответа с разными ценностными позициями. Каждый советник генерирует текст строго из своего угла. Плюрализм создаём внешней структурой промпта, не надеясь на внутренний "баланс" модели.

Рычаги управления: - Имена советников → дай конкретные роли ("оппозиционный юрист", "венчурный инвестор из Sand Hill") — острее и конкретнее - "Финальный вывод не нужен" → убирает попытку модели свести всё к одному "правильному" ответу - "Назови цену своего совета" → вытаскивает скрытые издержки каждой позиции - Число советников → 2 для быстрой проверки, 4-5 для сложных решений


📋

Шаблон промпта

Дилемма: {опиши ситуацию и варианты решения — 3-5 предложений}

Сыграй {N} советников с разными приоритетами:

Советник 1 — защищает {ценность_1}: {краткое описание позиции}
Советник 2 — защищает {ценность_2}: {краткое описание позиции}
Советник 3 — защищает {ценность_3}: {краткое описание позиции}
[Советник 4 — защищает {ценность_4}: {краткое описание позиции}]

Каждый советник:
1. Аргументирует свою позицию (3-4 конкретных тезиса)
2. Указывает на слабость в позиции одного другого советника
3. Называет главную цену своего совета — что я потеряю, если послушаюсь

Финальный вывод не нужен — я приму решение сам.

Что подставлять: - {ситуация} — конкретная дилемма с вариантами, не абстрактный вопрос - {ценность_1..4} — выбери из: автономия / рост / минимизация риска / справедливость / краткосрочная выгода / долгосрочная репутация / интересы команды - {N} — 2 для быстрой проверки, 4 для серьёзных решений


🚀 Быстрый старт — вставь в чат:

Вот шаблон для получения реально разных точек зрения от LLM. 
Адаптируй под мою задачу: [твоя дилемма].
Задай уточняющие вопросы про варианты решения и что для меня важно.

[вставить шаблон выше]

LLM спросит про варианты решения и ключевые ценности в твоей ситуации — потому что без этого нельзя правильно назначить роли советникам. Она возьмёт структуру из шаблона и заполнит конкретикой твоего вопроса.


⚠️

Ограничения

⚠️ Не для поиска "правильного" ответа: Метод не даёт тебе решение — он даёт реальный разброс позиций. Финальное решение остаётся за тобой. Это особенность, не баг.

⚠️ Модель всё равно остаётся собой: Симуляция роли смягчает, но не полностью устраняет внутренние ценностные приоритеты. Советник А будет более "автономным", чем дефолтный режим — но не настоящим адвокатом автономии.

⚠️ Некоторые модели занижают автономию: Исследование выявило модели, которые систематически недооценивают права пациента/пользователя на самостоятельное решение. Если это важно — проверяй один вопрос в разных моделях.

⚠️ Экосистема разнообразна, отдельная модель — нет: Разные LLM дают по-настоящему разные ответы (их разброс сопоставим с разбросом мнений врачей). Но одна конкретная модель не воспроизводит это разнообразие сама по себе. Хочешь реального плюрализма — спрашивай несколько моделей.


🔗

Ресурсы

What Does the AI Doctor Value? Auditing Pluralism in the Clinical Ethics of Language Models Payal Chandak, Victoria Alkin, David Wu, Maya Dagan, Taposh Dutta Roy, Maria Clara Saad Menezes, Ayush Noori, Nirali Somia, John S. Brownstein, Ran Balicer, Rebecca W. Brendel, Noa Dagan, Isaac S. Kohane, Gabriel A. Brat Harvard Medical School / Beth Israel Deaconess Medical Center / Clalit Research Institute Preprint, 2025


📖 Простыми словами

What Does theAIDoctor Value? Auditing Pluralism in the Clinical Ethics ofLanguageModels

arXiv: 2605.18738

Нейросети в роли советников — это не беспристрастные калькуляторы, а запрограммированные моралисты. Когда ты просишь модель разобрать сложную этическую дилемму, она работает как двухслойный пирог. Сверху — вежливая болтовня, где она честно перечисляет все «за» и «против», создавая видимость объективности. Но под капотом у каждой модели зашиты жесткие ценностные веса, которые и определяют финальный вердикт. Это фундаментальная механика: решение принимается не на основе логики твоего конкретного случая, а исходя из того, какой моральный приоритет в нее вбили при обучении.

Это как прийти к адвокату, который внимательно выслушает твою историю, сочувственно покивает, разложит все риски по полочкам, но в итоге выдаст ровно тот совет, который он дает всем клиентам без исключения. Формально он тебя услышал, но его личные убеждения настолько сильнее фактов, что исход дела был предрешен еще до того, как ты открыл рот. Ты можешь менять формулировки или переспрашивать десять раз — ответ будет одинаковым, потому что модель не рассуждает, а просто реализует вшитый сценарий.

В исследовании это проверили на методе аудита плюрализма: моделям скармливали клинические кейсы, где нужно выбрать между автономией пациента и врачебным долгом. Результат — полный детерминизм. Если ChatGPT «считает», что безопасность важнее свободы выбора, она протащит это решение через любые аргументы. Это не глюк и не ошибка логики, а системная черта: у каждой LLM есть свой скрытый этический профиль, который невозможно перебить простым промптом «будь объективен».

Принцип универсален и выходит далеко за рамки медицины. Если ты спрашиваешь совета по бизнесу, например, стоит ли брать токсичные инвестиции, модель будет опираться на свои базовые настройки. Одна модель всегда выберет безопасный рост, другая — сохранение контроля, и никакие вводные данные о том, что у тебя кассовый разрыв, не изменят финал. SEO для совести не работает: ты думаешь, что ведешь диалог, а на самом деле просто активируешь заранее записанный ответ.

Главный вывод: не надейся на «мудрость» нейросети в вопросах выбора. Она всегда будет предвзятым советником, который просто очень хорошо имитирует взвешенный подход. Если тебе нужно принять решение, помни: ChatGPT — это не зеркало твоей ситуации, а рупор своих создателей. Используй ее, чтобы собрать аргументы, но никогда не доверяй ей финальный выбор, иначе рискуешь прожить жизнь по чужим, вшитым в код правилам.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с