3,583 papers
arXiv:2605.25256 72 24 мая 2026 г. FREE

Process Alignment: LLM даёт правильный ответ по неправильным причинам — и как это исправить

КЛЮЧЕВАЯ СУТЬ
Парадокс: модель может дать правильный ответ по совершенно другим причинам. Менеджер отсеял кандидата из-за слабого опыта — модель по той же причине, но это совпадение. Внутри она смотрела на уверенность формулировок в резюме. Обнаружить это по финальному ответу невозможно. Техника экстернализации позволяет передать свою схему оценки явно — не «оцени по нашим стандартам», а «фактор А решающий, Б умеренный, В второстепенный» — и переключить модель из режима «вынеси суждение» в режим «заполни таблицу по критериям». Фишка: в режиме таблицы модели сложнее незаметно подменить твои приоритеты своими.
Адаптировать под запрос

TL;DR

Когда просишь LLM принять решение «как у нас в компании», модель может давать верные ответы, но по совершенно другим причинам. Исследование вводит технику экстернализации — явной передачи весовой схемы критериев прямо в промпт. Вместо «оцени по нашим стандартам» ты говоришь: «Фактор А — ключевой, Б — умеренный, В — слабый». Это переводит твои неявные правила оценки в явную инструкцию.

Проблема в том, что модель «видит» твои критерии, но внутри взвешивает их иначе. Менеджер смотрит прежде всего на опыт кандидата, а LLM — на уверенность формулировок в резюме. Обе стороны могут прийти к одному решению, но по разным причинам. Обнаружить это только по финальному ответу невозможно.

Экстернализация работает в два шага: сначала описываешь свою схему весов (HIGH/MEDIUM/LOW), потом подаёшь задачу. В легитимных, чётко очерченных областях (право, аудит, стандарты) это резко выравнивает логику модели с твоей. В спорных областях (где исторические нормы потенциально предвзяты) модель сопротивляется — её встроенные установки конкурируют с твоими инструкциями.


🔬

Схема метода

ШАГ 1: BASELINE (без инструкций)
Подаёшь задачу → получаешь ответ
Проблема: модель применяет свои веса, не твои

--- --- ---

ШАГ 2: ORG-EXTERNALIZED (экстернализация — главная техника)
Описываешь схему весов по уровням:
  HIGH:   [факторы с решающим весом]
  MEDIUM: [факторы с умеренным весом]
  LOW:    [факторы с малым весом]
Затем подаёшь задачу → модель оценивает по твоей логике

--- --- ---

ШАГ 3 (опционально): INTROSPECTIVE
Показываешь модели где её текущая оценка расходится с твоей
Просишь скорректироваться → работает непредсказуемо,
иногда делает хуже (см. Ограничения)

Шаги 1-2 в одном диалоге. Шаг 3 — отдельный запрос после получения baseline.


🚀

Пример применения

Задача: Ты — партнёр небольшого фонда, который инвестирует в русскоязычные EdTech-стартапы. Каждую неделю приходит 20+ питчей. Нужен быстрый первичный скрининг — хочешь, чтобы ИИ отбирал «по твоей голове», а не по своей.

Промпт:

Ты проводишь первичный скрининг питчей EdTech-стартапов для нашего фонда.

Наша схема оценки:

ВЫСОКИЙ ВЕС (решающие факторы):
- Подтверждённый спрос: есть платящие пользователи или внятная точка боли
- Команда: основатели с релевантным опытом или профильным образованием
- Юнит-экономика: расчёт показывает путь к окупаемости

СРЕДНИЙ ВЕС (важные, но не решающие):
- Размер рынка: потенциал роста понятен, но не обязан быть огромным
- Конкурентная среда: понимание кто ещё есть и чем они отличаются

НИЗКИЙ ВЕС (приятно иметь, но не критично):
- Дизайн и продуктовая полировка на этом этапе
- Наличие трекшена в соцсетях

СТОП-ФАКТОРЫ (автоматический отказ):
- B2G как основной канал на старте
- Нет понимания метрик воронки

Оцени следующий питч по этой схеме. Укажи уровень каждого фактора, 
итоговую рекомендацию (проходит/не проходит/нужно уточнить) 
и главный аргумент за и против.

ПИТЧ:
{вставь текст питча}

Результат: Модель пройдётся по каждому фактору в порядке твоих весов, явно укажет уровень каждого (HIGH/MEDIUM/LOW/СТОП), вынесет итоговую рекомендацию с аргументацией. Ключевое: оценка будет структурирована вокруг твоей логики, а не стандартного «хорошо/плохо для стартапа».


🧠

Почему это работает

LLM обучалась на огромных текстах с разными системами ценностей. Без инструкций её «картина хорошего питча» — это усреднённый портрет из TechCrunch, Y Combinator и Hacker News. Это не твоя картина.

Когда ты даёшь явную схему весов, ты не просто говоришь что важно — ты меняешь структуру задачи. Модель оказывается в режиме «заполни таблицу по критериям», а не «вынеси суждение». В первом режиме ей сложнее незаметно подменить твои приоритеты своими.

Рычаги управления промптом: - Уровни весов (HIGH/MEDIUM/LOW) → добавь CRITICAL над HIGH для абсолютных приоритетов - СТОП-факторы → самый мощный рычаг: модель реже «интерпретирует» жёсткие запреты - Формат вывода → попроси «по каждому фактору — один абзац» чтобы видеть логику, не только резюме - Порядок перечисления → ставь самые важные факторы первыми: модель читает сверху вниз


📋

Шаблон промпта

Ты проводишь оценку {что оцениваешь} по нашим критериям.

ВЫСОКИЙ ВЕС (решающие факторы):
- {фактор_1}: {краткое описание что считается хорошим}
- {фактор_2}: {краткое описание что считается хорошим}

СРЕДНИЙ ВЕС (важные, но не решающие):
- {фактор_3}: {краткое описание}
- {фактор_4}: {краткое описание}

НИЗКИЙ ВЕС (второстепенные):
- {фактор_5}: {краткое описание}

СТОП-ФАКТОРЫ (автоматический отказ при наличии):
- {стоп_фактор_1}
- {стоп_фактор_2}

Оцени {объект оценки} по этой схеме:
1. Пройдись по каждому фактору отдельно
2. Укажи уровень (сильно/умеренно/слабо выражен)
3. Дай итоговую рекомендацию: {критерий решения}
4. Главный аргумент за и против

{объект оценки}:
{вставь контент}

Что подставлять: - {что оцениваешь} — питчи, резюме, статьи, стратегии, КП - {фактор_N} — твои реальные критерии, не общие слова - {краткое описание} — конкретный стандарт: «есть хотя бы 10 платящих клиентов», «опыт в отрасли от 3 лет» - {стоп_фактор} — то что автоматически убивает кандидата в твоей голове - {критерий решения} — проходит/не проходит/на доработку


🚀 Быстрый старт — вставь в чат:

Вот шаблон для оценки по моим критериям. 
Адаптируй под мою задачу: {опиши что хочешь оценивать и по каким принципам}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие факторы для тебя принципиальны и что служит стоп-фактором — потому что без этого схема весов будет пустой, а экстернализация не сработает.


⚠️

Ограничения

⚠️ Спорные или исторически предвзятые критерии: Если твои критерии противоречат встроенным ценностям модели (например, включают демографию или социальные маркеры), модель будет сопротивляться — частично или полностью игнорировать эти факторы. Экстернализация не победит её обучение.

⚠️ Интроспективная коррекция ненадёжна: Если показать модели где её оценка расходится с твоей и попросить исправиться — результат непредсказуем. В одном случае из исследования модель восприняла статистику как правило и начала одобрять почти всё подряд (99.5% положительных ответов). Этот метод лучше не использовать без проверки.

⚠️ Декларируемые рассуждения ≠ реальные рассуждения: Модель может писать в chain-of-thought «ключевым фактором стало X», а реально принять решение на основе Y. Исследование подтверждает: то что модель объясняет вслух — не обязательно то, что её реально движет. Проверяй через варьирование входных данных, а не через запрос «объясни почему».

⚠️ Работает лучше в чётко определённых областях: Чем более субъективная или исторически спорная область, тем слабее эффект экстернализации.


🔍

Как исследовали

Команда взяла 1000 решений Европейского суда по правам человека (ECHR) по статье 6 — нарушение/ненарушение права на справедливое судебное разбирательство — и прогнала через 10 разных LLM в трёх режимах промптинга. Измеряли не только «угадала модель с ответом», но и как она взвешивала 45 факторов — задержки процесса, качество защиты, независимость суда и другие. Потом взяли немецкий датасет кредитных решений 1990-х годов — 1000 решений банка, выдавать кредит или нет — и повторили эксперимент с 5 моделями.

Главная неожиданность: в правовом домене выровненность логики и точность ответов коррелировали почти идеально (r=0.85). Когда модели давали правильные ответы, они делали это «правильным образом». Но в кредитном домене эта связь полностью исчезла (r=0.15) — модели могли давать похожие ответы, опираясь на совершенно разные факторы. Стало ясно: одинаковые выходные данные могут скрывать принципиально разную логику.

Отдельный сюрприз с Grok: когда ему показали, что он одобряет слишком мало кредитов по сравнению с историческим базовым уровнем, он воспринял это как директиву и в следующем раунде одобрил 99.5% заявок. Модель среагировала на статистику как на правило, а не как на сигнал для калибровки. Это хороший пример того, как обратная связь может сломать поведение вместо того чтобы выправить.


💡

Адаптации и экстраполяции

1. Проверка процессной честности после оценки

Получил ответ от LLM → не верь только выводу. Спроси:

🔧 Добавь после оценки:

Перечисли три фактора, которые имели наибольший вес 
в твоём решении. Насколько каждый из них был выражен
в этом кейсе?

Сравни с тем, что ты поставил HIGH в своей схеме. Если модель называет другие — у тебя процессное расхождение. Измени вес или добавь СТОП-фактор.

2. Калибровка через несколько примеров

Вместо того чтобы угадывать правильные веса самому — дай модели 3-5 примеров твоих прошлых решений с объяснениями, а потом спроси её извлечь схему:

Вот 5 моих прошлых решений по {задача} с пояснениями.
Выведи из них: какие факторы я ставлю HIGH, MEDIUM, LOW.
Оформь в виде схемы для дальнейшей оценки.

[Пример 1 — решение + почему]
[Пример 2 — решение + почему]
...

Это реверс-инжиниринг твоей логики. Потом используешь извлечённую схему как основу для экстернализации.


🔗

Ресурсы

Название: Whose Alignment? Comparing LLM Process Alignment Across Diverse Organizational Decision Contexts

Авторы: Niklas Weller (University of St. Gallen, Швейцария), Emilio Barkett (Columbia University, США)

Ключевые отсылки: - Sorensen et al. (2024) — Pluralistic Alignment - Brunswik Lens Model (1952) — методологическая основа измерения - ECHR датасет: Aletras et al. (2016), Chalkidis et al. (2021) - German Credit Dataset: Hofmann (1994) - Turpin et al. (2024) — divergence between chain-of-thought and actual reasoning


📋 Дайджест исследования

Ключевая суть

Парадокс: модель может дать правильный ответ по совершенно другим причинам. Менеджер отсеял кандидата из-за слабого опыта — модель по той же причине, но это совпадение. Внутри она смотрела на уверенность формулировок в резюме. Обнаружить это по финальному ответу невозможно. Техника экстернализации позволяет передать свою схему оценки явно — не «оцени по нашим стандартам», а «фактор А решающий, Б умеренный, В второстепенный» — и переключить модель из режима «вынеси суждение» в режим «заполни таблицу по критериям». Фишка: в режиме таблицы модели сложнее незаметно подменить твои приоритеты своими.

Принцип работы

Без инструкций модель опирается на усреднённый «портрет хорошего решения» из обучающих данных — TechCrunch, Y Combinator, Hacker News. Это не твоя картина. С экстернализацией работает иначе. Сначала описываешь уровни: HIGH (решающие) → фактор A, фактор B MEDIUM (важные, но не решающие) → фактор C LOW (второстепенные) → фактор D СТОП-ФАКТОРЫ → то что убивает кандидата сразу Потом подаёшь задачу. Стоп-факторы — самый мощный рычаг: жёсткие запреты модель «интерпретирует» реже всего. Порядок перечисления тоже важен — ставь решающие факторы первыми, модель читает сверху вниз. Одно предупреждение, которое исследование подтвердило экспериментально: если показать модели где её оценка расходится с твоей и попросить исправиться — результат непредсказуем. В одном из экспериментов модель восприняла статистику как правило и начала одобрять 99,5% заявок. Не используй интроспективную коррекцию без проверки.

Почему работает

Модель обучалась на огромных текстах с разными системами ценностей. Без твоих критериев её оценка — это медиана по всем контекстам где она видела похожие задачи. Совпадение с твоей логикой — случайность. Ещё один неудобный факт: то что модель пишет в пошаговых рассуждениях — не обязательно то, чем она реально руководствуется. Она может написать «ключевым фактором стало X», а решение принять на основе Y. Проверять стоит не через «объясни почему» — а через варьирование входных данных: меняй один фактор, смотри меняется ли решение. Экстернализация работает сильнее всего в чётко очерченных областях — право, аудит, финансовые стандарты. В спорных областях где исторические нормы потенциально предвзяты — модель сопротивляется. Встроенные установки конкурируют с твоими инструкциями, и ты не всегда выиграешь.

Когда применять

Первичный скрининг — питчи стартапов, резюме кандидатов, входящие запросы — особенно когда за неделю приходит 20+ объектов и нужна единообразная оценка по твоей логике, а не усреднённой. Аудит и проверка соответствия — когда есть регламент, чеклист или стандарт, и нужно проверить объект именно по нему. Оценка предложений от поставщиков, партнёров, подрядчиков — там где у тебя есть реальная система приоритетов, но обычно держишь её в голове. НЕ подходит: если твои критерии включают демографические или социальные маркеры — модель будет частично их игнорировать, это не победить инструкцией.

Мини-рецепт

1. Выпиши свои реальные критерии: не «важен опыт», а «опыт в отрасли от 3 лет или подтверждённый результат в смежной». Без конкретики схема весов — пустая.

2. Раздели по уровням: HIGH (без этого — нет), MEDIUM (важно, но компенсируемо), LOW (приятно иметь). Если есть абсолютные приоритеты — добавь уровень CRITICAL над HIGH.

3. Добавь стоп-факторы отдельным блоком: это то, что автоматически убивает кандидата в твоей голове — сформулируй явно, модель обработает их строже всего.

4. Задай формат вывода: попроси пройтись по каждому фактору отдельно, а не только дать итог. Так видишь логику, а не только резюме — и можешь поймать где модель подменила твои приоритеты своими.

5. Проверь схему на одном объекте вручную: сравни с тем как ты бы оценил сам. Если решение совпало — проверь аргументы. Если аргументы расходятся — корректируй формулировки критериев, а не просто повторяй запрос.

Примеры

[ПЛОХО] : Оцени этот питч — подходит нам для инвестиций или нет?
[ХОРОШО] : Ты проводишь первичный скрининг питчей для нашего фонда. ВЫСОКИЙ ВЕС (решающие факторы): - Подтверждённый спрос: есть платящие пользователи или внятная точка боли - Команда: основатели с релевантным опытом или профильным образованием - Юнит-экономика: есть расчёт пути к окупаемости СРЕДНИЙ ВЕС: - Размер рынка: потенциал роста понятен - Конкурентная среда: понимание кто есть и чем они отличаются НИЗКИЙ ВЕС: - Дизайн и продуктовая полировка на этом этапе - Трекшн в соцсетях СТОП-ФАКТОРЫ (автоматический отказ): - Государственные контракты как основной канал на старте - Нет понимания метрик воронки По каждому фактору — один абзац с уровнем (сильно/умеренно/слабо выражен). Итог: проходит / не проходит / нужно уточнить. Главный аргумент за и против. ПИТЧ: {текст}
Источник: Whose Alignment? Comparing LLM Process Alignment Across Diverse Organizational Decision Contexts
ArXiv ID: 2605.25256 | Сгенерировано: 2026-05-26 07:35

Проблемы LLM

ПроблемаСутьКак обойти
Цепочка рассуждений не показывает реальную логикуПросишь модель объяснить решение. Она пишет «ключевым стал фактор Х». Но реально решение приняла на основе Y. Это не ложь — модель сама не знает что именно сработало. Проверить через вопрос «почему» невозможно.Вместо «объясни своё решение» варьируй входные данные. Убери один фактор — изменился ответ? Значит этот фактор реально влиял. Изменились рассуждения, но не ответ — фактор был декоративным.
Модель применяет свои веса критериев, а не твоиДаёшь задачу «оцени по нашим стандартам». Модель оценивает — но взвешивает критерии по-своему. Итоговый ответ иногда совпадает с твоим. Но по другим причинам. Обнаружить только по финальному ответу невозможно.Передавай схему весов явно: что решающее, что второстепенное, что стоп-фактор. Не «учитывай опыт» — а «опыт — решающий критерий».

Методы

МетодСуть
Явная схема весов — выравнивание логики оценкиПеред задачей опиши критерии по уровням: ВЫСОКИЙ ВЕС: [факторы], СРЕДНИЙ ВЕС: [факторы], НИЗКИЙ ВЕС: [факторы], СТОП-ФАКТОРЫ: [факторы]. Затем подавай объект оценки. Почему работает: Без схемы модель выносит суждение — применяет свои усреднённые представления. Со схемой задача переключается в режим «заполни таблицу по критериям». В этом режиме подменить твои приоритеты своими значительно сложнее. Важно: Ставь самые важные критерии первыми. Описывай стандарт конкретно: не «хороший опыт», а «опыт в отрасли от 3 лет». Когда работает хуже: Если критерии противоречат встроенным ценностям модели — эффект ослабевает.

Тезисы

ТезисКомментарий
Стоп-факторы надёжнее позитивных критериевПозитивные критерии («учитывай фактор Х») модель может взвешивать по-своему — немного учитывает, немного игнорирует. Жёсткий запрет («автоматический отказ при наличии») сложнее интерпретировать в свою пользу. Модель реже «объясняет» себе почему запрет не применим. Применяй: Первым делом формулируй стоп-факторы для своей задачи. Это самый надёжный рычаг из схемы весов.
📖 Простыми словами

Whose Alignment? ComparingLLMProcess Alignment Across Diverse Organizational Decision Contexts

arXiv: 2605.25256

Когда ты просишь нейронку принять решение «как профи», она выдает результат, опираясь на свою внутреннюю логику, которая представляет собой винегрет из миллионов текстов. Проблема в том, что модель может угадать правильный ответ, но прийти к нему через совершенно левые аргументы. Это называется скрытым несовпадением: ты думаешь, что ИИ понял твои ценности, а он просто выдал статистически вероятный текст. Чтобы это исправить, исследователи предлагают экстернализацию — метод, при котором ты буквально вытаскиваешь свои неявные правила из головы и вдалбливаешь их в промпт в виде жесткой иерархии весов.

Это как нанять нового сотрудника и вместо фразы "ну, ты посмотри наши старые отчеты и пойми, как мы работаем", выдать ему четкую таблицу: "за этот косяк мы увольняем сразу, на этот закрываем глаза, а вот это — наш главный приоритет". Без такой шпаргалки новичок будет работать как его учили в универе, а не как принято в твоей лавке. В итоге вы вроде делаете одно дело, но смотрите в разные стороны, и в критический момент он примет решение, которое тебя взбесит.

Вместо абстрактных просьб «оцени стартап» нужно использовать весовую схему критериев. Ты прямо прописываешь: фактор А (например, выручка) — это 50% успеха, фактор Б (опыт команды) — 30%, а фактор В (хайповость ниши) — всего 10%. Когда ты переводишь свои внутренние ощущения в явную инструкцию, модель перестает гадать на кофейной гуще и начинает работать как твой цифровой клон. Это превращает «черный ящик» нейронки в прозрачный инструмент, где каждый вывод обоснован твоими личными правилами, а не усредненным мнением интернета.

Хотя метод тестировали на бизнес-решениях и инвестициях, этот принцип универсален. Он работает везде, где есть субъективная оценка: от найма людей и выбора софта до проверки домашних заданий или редактуры текстов. Если ты не задал веса критериев, модель будет использовать свои «заводские настройки», которые часто оказываются бесполезным мусором для специфических задач. По сути, мы переходим от эпохи «просто спроси» к эпохе проектирования логики, где ты диктуешь ИИ не только цель, но и путь к ней.

Короче: если хочешь, чтобы нейронка реально помогала, хватит надеяться на её «интеллект». Модель — это мощный мотор, но рулить должен ты, причем через максимально конкретные веса и приоритеты. Либо ты тратишь время на прописывание критериев, либо получаешь ответы, которые вроде бы ок, но на деле ведут твой проект в тупик. Экстернализация — это единственный способ заставить LLM играть по твоим правилам, а не изображать из себя умника из Кремниевой долины.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с