3,583 papers
arXiv:2601.07972 73 12 янв. 2026 г. FREE

Knowledge-Action Gap: LLM знают ценности, но плохо их применяют

КЛЮЧЕВАЯ СУТЬ
Парадокс: модель правильно отвечает 'безопасность важна', но выбирает рискованное действие в 60% сценариев. Исследование показало разрыв знания и действия у LLM. Модели знают ценности (через опросники), но слабо применяют их в решениях. Корреляция всего 0.3 между 'что ценю' и 'как поступлю'. Фишка: прямые инструкции на 3-6% точнее ролевых. Вместо Представь что ты человек, который ценит X используй Выбери действие согласно критерию X. Ролевой формат активирует конфликт: модель борется между 'быть нейтральным помощником' (так её учили при alignment) и 'иметь предпочтения' (что требует роль).
Адаптировать под запрос

TL;DR

Исследователи проверили как модели понимают и применяют человеческие ценности через два теста: опросник PVQ-40 ("что ты ценишь?") и 15,000 реальных сценариев из Reddit ("как поступишь?"). Протестировали 10 топовых LLM и 55 человек.

Обнаружили разрыв знания и действия: модели правильно отвечают на вопросы о ценностях, но слабо применяют эти ценности в конкретных решениях (корреляция всего 0.3 у LLM, 0.4 у людей). Все модели показывают почти идентичные ценности (корреляция 0.99–1.0 между собой) — гомогенизация после alignment-тренировки. При этом люди сильно различаются (от –0.79 до 0.98).

Когда модель просят "притвориться человеком с ценностью X" вместо "выбери действие согласно X", точность падает на 3-6%. Это role-play resistance — модели хуже следуют инструкциям в формате ролевой игры, даже если понимают задачу.


📌

Главные находки

📌

1. Разрыв между знанием и действием

Проблема: Модель может правильно ответить "безопасность важна", но в конкретной ситуации выберет рискованное действие.

Механика: В опроснике PVQ-40 модели оценивают абстрактные утверждения ("Для него важно жить в безопасном окружении"). В сценариях — выбирают между конкретными действиями. Корреляция между этими результатами слабая (0.3 у LLM, 0.4 у людей).

Пример: GPT может высоко оценить "самостоятельность" в опроснике, но в 60% карьерных сценариев выбирать "следование традициям" или "безопасность".

📌

2. Role-Play Resistance: прямые инструкции работают лучше ролевых

Находка: Два типа промптов для одной задачи: - Прямой: "Выбери действие, которое отражает ценность X" - Ролевой: "Представь, что ты человек, который ценит X. Как ты поступишь?"

При ролевом формате точность падает на 3-6% (у Gemini до 10% на отдельных ценностях).

Почему: Alignment-тренировка научила модели быть "сбалансированными" и "объективными". Ролевой промпт создаёт конфликт: "притвориться пристрастным" vs "быть нейтральным". Прямая инструкция обходит этот конфликт — задача воспринимается как аналитическая, а не как изменение позиции.

📌

3. Гомогенизация ценностей

Все 10 моделей (GPT, Claude, Gemini, Qwen, DeepSeek и др.) показывают почти идентичные ценности — корреляция 0.99-1.0. Американские и китайские модели неразличимы. У людей огромный разброс (от –0.79 до 0.98).

Причина: Alignment через RLHF сводит модели к общему знаменателю "социально желательных" ответов. Культурные различия стёрты.


📌

Принципы для применения

📋

Принцип 1: Избегай ролевых промптов там, где нужна точность

Плохо (ролевой формат):

Представь, что ты опытный инвестор, который ценит безопасность 
превыше всего. Как вложить 100,000₽?

Хорошо (прямая инструкция):

Предложи консервативную инвестиционную стратегию для 100,000₽ 
с минимальным риском. Приоритет — сохранение капитала.

Почему работает: Прямая инструкция даёт модели задачу, а не роль. Модель не борется с "я должна быть нейтральной" vs "я должна играть роль".

📌

Принцип 2: Эксплицитные критерии вместо ценностей

Модели знают что такое "самостоятельность" или "традиция", но слабо переводят это в решения.

Расплывчато:

Помоги выбрать карьерный путь. Я ценю самостоятельность.

Конкретно:

Помоги выбрать карьерный путь. Критерии:
- Возможность самому принимать решения
- Гибкий график
- Минимум согласований
📌

Принцип 3: Проверяй действия, не декларации

Если модель говорит "я учёл критерий X", это не значит что она его применила.

Техника проверки:

Ты предложил [решение]. Разбери пошагово, как каждый элемент 
отражает [критерий]. Если не отражает — укажи это честно.

🚀

Примеры применения

📌

Задача 1: Выбор между двумя офферами

Контекст: У тебя два оффера — стартап с equity или корпорация с ДМС. Важна финансовая безопасность.

❌ Слабый промпт (ролевой):

Представь, что ты очень консервативный человек, для которого 
финансовая безопасность важнее всего. Что выбрать: стартап 
с equity или корпорацию с ДМС?

✅ Сильный промпт (прямой):

Два оффера:
1. Стартап: зарплата 150k₽ + equity 0.5%
2. Корпорация: зарплата 180k₽ + ДМС + стабильность

Оцени каждый вариант по критерию финансовой безопасности.
Учитывай:
- Стабильность дохода
- Риски банкротства
- Ликвидность компенсации
- Гарантии

Какой вариант безопаснее? Объясни по каждому пункту.

Результат: Во втором случае модель даст структурированный анализ с привязкой к конкретным критериям. В первом — может "заиграться" в роль и дать однобокий ответ.


📌

Задача 2: Проверка применения критериев

Контекст: Попросил модель написать статью "с фокусом на практичность", но текст получился абстрактным.

Промпт для проверки:

Я просил сделать текст практичным. Проверь каждый абзац:
- Есть ли конкретный пример?
- Есть ли действие, которое читатель может сделать сейчас?
- Есть ли измеримый результат?

Для каждого абзаца напиши: ПРАКТИЧНЫЙ или АБСТРАКТНЫЙ.
Если абстрактный — покажи как переписать практично.

Результат: Модель явно покажет где она не применила критерий "практичность", хотя знала о нём. Ты увидишь разрыв знания и действия в реальном времени.


📌

Задача 3: Многокритериальное решение

Контекст: Выбираешь CRM-систему для команды. Критерии: простота, интеграции, цена.

❌ Слабо:

Ты — руководитель, который ценит простоту, но и гибкость важна. 
Какую CRM выбрать?

✅ Сильно:

Критерии для CRM (по приоритету):
1. Простота для команды без техбэка
2. Интеграция с Telegram и Битрикс24
3. Цена до 10k₽/месяц на 5 человек

Сравни варианты:
- amoCRM
- Битрикс24
- Kommo (бывший amoCRM)

Дай таблицу: вариант | критерий 1 | критерий 2 | критерий 3 | итог

Потом объясни какой вариант лучше соответствует приоритетам.

Результат: Структурированное сравнение с явной привязкой к критериям. Модель не уйдёт в абстракции про "ценности" и "баланс".


🧠

Почему это работает

Слабость LLM: Alignment-тренировка создала конфликт между "быть нейтральным помощником" и "иметь предпочтения". Когда модель должна "играть роль человека с ценностью X", она борется с этим конфликтом. Результат — сопротивление ролевой игре (role-play resistance).

Другая слабость: Модели легко оперируют абстрактными понятиями ("безопасность", "креативность"), но при переводе в конкретные действия теряют связь. Это разрыв знания и действия — модель "знает" что важно, но "не делает" в решениях.

Сильная сторона: Модели отлично следуют прямым, структурированным инструкциям. Если задача сформулирована как аналитическая ("сравни по критериям"), а не как идентификация ("ты — человек, который..."), модель работает точнее.

Как использовать: - Критерии вместо ценностей — "Минимум согласований" вместо "Самостоятельность" - Прямые инструкции вместо ролей — "Выбери X" вместо "Ты — человек, который ценит X" - Проверка применения — Явно требуй показать где критерий применён

Рычаги управления: - Формат инструкции: ролевой vs прямой → прямой на 3-6% точнее - Уровень абстракции: "ценности" vs "критерии" → критерии конкретнее и надёжнее - Проверка исполнения: добавь шаг "покажи где применил критерий" → выявит knowledge-action gap - Структура ответа: таблица/список vs свободный текст → структура привязывает к критериям


⚠️

Ограничения

⚠️ Культурный контекст: Все модели показывают одинаковые западные либеральные ценности независимо от происхождения (США/Китай). Если нужны специфичные культурные перспективы — модели не дадут разнообразия "из коробки".

⚠️ Субъективные решения: Разрыв знания и действия сильнее всего проявляется в сложных многокритериальных решениях. Для простых задач ("столица Франции") эффекта нет.

⚠️ Role-play всё равно нужен: Для творческих задач (писать от лица персонажа, симулировать стиль) ролевые промпты необходимы. Находка про падение точности касается аналитических/решенческих задач, не креатива.


🔍

Как исследовали

Команда собрала 3,000 постов с Reddit из пяти категорий: карьера, финансы, образование, отношения, этика. Для каждого поста два LLM (GPT и Qwen) сгенерировали по 10 вариантов действий — каждое соответствует одной из 10 базовых ценностей по теории Шварца (самостоятельность, безопасность, власть, достижение и др.). Получилось 15,000 вопросов — реальные дилеммы типа "Босс предлагает повышение, но придётся переехать — что делать?".

Протестировали 10 топовых моделей (GPT-4o, Claude, Gemini, Qwen, DeepSeek и др.) и 55 человек из США. Каждый прошёл два теста: 1. PVQ-40 — классический опросник "Насколько вам близок человек, который ценит X?" 2. VALACT-15K — выбор действий в сценариях

Удивительное: Все модели выбирали почти идентично (корреляция 0.99–1.0), хотя тренировались на разных данных в разных странах. У людей корреляции от –0.79 до 0.98 — огромный разброс. Alignment-тренировка стёрла различия между моделями.

Ключевой эксперимент: Взяли те же 15,000 вопросов и дали модели два типа инструкций: - "Выбери действие, которое отражает ценность X" (прямая) - "Ты — человек, который ценит X. Как поступишь?" (ролевая)

Точность упала на 3-6% в ролевом формате (у Gemini до 10% на некоторых ценностях). Причём даже в тех вопросах, где модель правильно выбрала в прямом формате, она ошибалась в ролевом. Это не проблема понимания — это сопротивление "играть роль".

Почему так: Исследователи предполагают, что RLHF научил модели быть "сбалансированными помощниками". Ролевой промпт создаёт конфликт: "притворись пристрастным" vs "будь нейтральным". Модель уходит от задачи.

Проверили устойчивость: меняли формулировки промптов (5 вариантов), температуру (0, 0.5, 1.0), язык (английский/китайский для PVQ-40) — результаты не поменялись. Эффект стабилен.


🔗

Ресурсы

Knowing But Not Doing: Convergent Morality and Divergent Action in LLMs — Jen-tse Huang, Jiantong Qin, Xueli Qiu, Sharon Levy, Michelle R. Kaufman, Mark Dredze (Johns Hopkins University, CUHK, Rutgers University). Preprint, январь 2026.

Теория базовых человеческих ценностей Шварца (Schwartz Theory of Basic Human Values) — классификация из 10 универсальных ценностей.

VALACT-15K — датасет из 15,000 сценариев для оценки применения ценностей в решениях (датасет будет доступен для некоммерческих исследований).


📋 Дайджест исследования

Ключевая суть

Парадокс: модель правильно отвечает 'безопасность важна', но выбирает рискованное действие в 60% сценариев. Исследование показало разрыв знания и действия у LLM. Модели знают ценности (через опросники), но слабо применяют их в решениях. Корреляция всего 0.3 между 'что ценю' и 'как поступлю'. Фишка: прямые инструкции на 3-6% точнее ролевых. Вместо Представь что ты человек, который ценит X используй Выбери действие согласно критерию X. Ролевой формат активирует конфликт: модель борется между 'быть нейтральным помощником' (так её учили при alignment) и 'иметь предпочтения' (что требует роль).

Принцип работы

Два формата промпта дают разную точность: Ролевой: Представь что ты человек, который ценит безопасность. Как поступишь? → модель борется с конфликтом между нейтральностью и предпочтениями. Прямой: Выбери действие согласно критерию безопасности. Приоритет — минимум риска.модель воспринимает это как аналитическую задачу, а не смену позиции. Ролевой формат говорит модели 'стань другим'. Дообучение на человеческих предпочтениях научило её 'быть сбалансированной'. Это создаёт сопротивление — role-play resistance.

Почему работает

Почему ролевые промпты хуже работают? Alignment (дообучение через RLHF) создал встроенный конфликт. Модель научили 'быть объективным помощником без предпочтений'. Когда просишь 'притворись человеком с ценностью X' — это конфликтует с тренировкой. Прямая инструкция обходит конфликт. Задача 'выбери по критерию X' не требует менять позицию. Это аналитическая работа, а не ролевая игра. Модель делает то, для чего обучена — анализирует и выбирает. Исследование показало: прямой формат даёт +3-6% точности на задачах с ценностями. У Gemini разница доходит до 10% на отдельных критериях. Второй разрыв: модели отлично говорят о ценностях (абстрактно), но плохо переводят их в действия (конкретно). Корреляция 0.3 — это слабо. У людей 0.4, но тоже не впечатляет. Проверили на 15,000 реальных сценариев из Reddit.

Когда применять

Аналитические и решенческие задачи → особенно многокритериальный выбор (карьера, продукт, инвестиции), когда нужно применить конкретные ценности или критерии. НЕ подходит для креатива: если пишешь от лица персонажа или симулируешь стиль — ролевые промпты необходимы. Падение точности касается только аналитических задач.

Мини-рецепт

1. Замени роль на критерий: вместо Ты — консервативный инвестор используй Критерий: минимальный риск, сохранение капитала

2. Структурируй критерии списком: не Я ценю самостоятельность, а Критерии: возможность принимать решения самому, гибкий график, минимум согласований

3. Добавь проверку применения: Разбери пошагово, как каждый элемент решения отражает [критерий]. Если не отражает — укажи честно

4. Для сравнения вариантов: дай таблицу вариант | критерий 1 | критерий 2 | критерий 3 | итог, потом объясни какой лучше соответствует приоритетам

Примеры

[ПЛОХО] : Представь что ты очень консервативный человек, для которого финансовая безопасность важнее всего. Выбери между стартапом с equity или корпорацией с ДМС
[ХОРОШО] : Два оффера: 1. Стартап: 150k₽ + equity 0.5% 2. Корпорация: 180k₽ + ДМС + стабильность Оцени каждый по критерию финансовой безопасности: - Стабильность дохода - Риски банкротства - Ликвидность компенсации - Гарантии Какой безопаснее? Объясни по каждому пункту.
Источник: Knowing But Not Doing: Convergent Morality and Divergent Action in LLMs
ArXiv ID: 2601.07972 | Сгенерировано: 2026-01-14 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель знает критерий, но не применяет его в решенияхСпрашиваешь модель "что для тебя важно в работе?". Отвечает: "самостоятельность". Даёшь задачу выбрать между двумя офферами — выбирает вариант с жёстким контролем. Модель правильно оперирует абстрактными понятиями ("безопасность", "креативность"), но теряет связь при переводе в конкретные действия. Проблема усиливается в многокритериальных решенияхНе давай абстрактные критерии типа "важна самостоятельность". Давай конкретные признаки: "гибкий график", "минимум согласований", "сам принимаешь решения". Попроси сравнить варианты по каждому признаку отдельно
Ролевые промпты снижают точность в аналитических задачахДва промпта для одной задачи: "Ты человек, который ценит безопасность. Как поступишь?" vs "Выбери действие по критерию безопасности". Второй работает точнее на 3-6%. Alignment-тренировка научила модель быть нейтральной. Ролевой промпт создаёт конфликт: "притвориться пристрастным" vs "быть объективным". Модель сопротивляется изменению позиции. Прямая инструкция обходит конфликт — задача воспринимается как аналитическаяДля аналитики и решений используй прямые инструкции: вместо "Ты опытный инвестор, который..." пиши "Предложи консервативную стратегию с приоритетом X". Ролевые промпты оставь для креатива (писать от лица персонажа, имитировать стиль)

Методы

МетодСуть
Конкретные признаки вместо абстрактных критериевНе пиши "важна надёжность" — модель знает слово, но слабо переводит в решения. Пиши список проверяемых признаков: "uptime 99.9%+", "поддержка 24/7", "SLA с штрафами". Попроси сравнить варианты по каждому признаку. Дай структуру: таблица или чеклист. Почему работает: Абстракция требует перевода в действия — здесь модель теряет связь. Конкретный признак — прямое указание что проверять. Структурированный формат не даёт пропустить пункт. Когда применять: Многокритериальный выбор, сравнение вариантов, проверка соответствия требованиям. Не работает: Для субъективных оценок без чётких признаков
Явная проверка применения критериевМодель выдала ответ. Добавь шаг проверки: "Ты предложил [решение]. Разбери пошагово как каждый элемент отражает [критерий]. Если не отражает — укажи это честно". Модель сама найдёт где знала критерий, но не применила. Почему работает: Модель легко оценивает чужие решения (даже свои). Проверка = аналитическая задача, не генерация. Требование честности снижает social desirability bias. Применяй: После первого ответа, для важных решений, когда сомневаешься что критерий учтён
📖 Простыми словами

Knowing But Not Doing: Convergent Morality and Divergent Action inLLMs

arXiv: 2601.07972

Современные нейросети — это отличные теоретики, но никудышные практики, когда дело касается морали. Исследователи прогнали топовые модели через два теста: классический опросник на ценности и 15 тысяч реальных дилемм с Reddit. Выяснилось, что на словах все LLM — святоши, которые топят за добро и справедливость. Но как только доходит до дела, их «правильность» рассыпается. Модели прекрасно знают, как надо ответить, чтобы понравиться цензорам, но в реальных сценариях ведут себя совершенно иначе. Это фундаментальный разрыв между декларируемыми ценностями и реальным поведением.

Это как если бы ты спросил соседа, важно ли помогать бабушкам, и он бы полчаса затирал тебе про гуманизм, а через пять минут прошел мимо старушки с тяжелыми сумками, сделав вид, что не заметил. Формально он за всё хорошее, но на практике его «прошивка» настроена на то, чтобы не ввязываться в лишние телодвижения. У нейросетей та же беда: они натренированы быть нейтральными помощниками, и эта установка на стерильность конфликтует с любыми попытками проявить человеческий характер или четкую позицию.

Главная проблема здесь — сопротивление ролевой игре. Когда модель просят «представь, что для тебя важнее всего свобода», она начинает лажать. Исследование показало, что 10 из 10 топовых моделей демонстрируют этот конфликт. Они сопротивляются навязанным ценностям, потому что alignment-тренировка (то самое «причесывание» под стандарты безопасности) вытравила из них способность иметь личное мнение. В итоге получается дивергенция действий: модель говорит, что ценит честность, но в конкретной ситуации выбирает самый удобный и обтекаемый путь, который этой честности противоречит.

Хотя тест проводили на этических дилеммах, этот принцип объясняет, почему нейросети часто выдают унылый и серый контент. Это касается не только морали, но и маркетинга, копирайтинга или креатива. Если ты просишь модель быть «дерзкой» или «эмоциональной», она все равно будет скатываться в безопасную середину. Внутренний цензор всегда бьет по рукам «актера», превращая любую попытку индивидуальности в пластиковую имитацию. Принцип универсален: чем сильнее модель зажата рамками безопасности, тем хуже она справляется с задачами, где нужно проявить характер.

Короче: мы получили поколение моделей-лицемеров, которые знают теорию этики на пятерку, но в жизни ведут себя как запрограммированные конформисты. Не надейся, что нейросеть будет искренне придерживаться заданных ценностей в долгую — её базовая нейтральность всегда победит. Чтобы получить от AI реальное «мнение» или специфический стиль, нужно буквально проламывать это сопротивление, иначе на выходе всегда будет стерильная жвачка. Модели знают, что такое хорошо, но делать «хорошо» им просто запретили.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с