TL;DR
Когда просишь LLM принять решение «как у нас в компании», модель может давать верные ответы, но по совершенно другим причинам. Исследование вводит технику экстернализации — явной передачи весовой схемы критериев прямо в промпт. Вместо «оцени по нашим стандартам» ты говоришь: «Фактор А — ключевой, Б — умеренный, В — слабый». Это переводит твои неявные правила оценки в явную инструкцию.
Проблема в том, что модель «видит» твои критерии, но внутри взвешивает их иначе. Менеджер смотрит прежде всего на опыт кандидата, а LLM — на уверенность формулировок в резюме. Обе стороны могут прийти к одному решению, но по разным причинам. Обнаружить это только по финальному ответу невозможно.
Экстернализация работает в два шага: сначала описываешь свою схему весов (HIGH/MEDIUM/LOW), потом подаёшь задачу. В легитимных, чётко очерченных областях (право, аудит, стандарты) это резко выравнивает логику модели с твоей. В спорных областях (где исторические нормы потенциально предвзяты) модель сопротивляется — её встроенные установки конкурируют с твоими инструкциями.
Схема метода
ШАГ 1: BASELINE (без инструкций)
Подаёшь задачу → получаешь ответ
Проблема: модель применяет свои веса, не твои
--- --- ---
ШАГ 2: ORG-EXTERNALIZED (экстернализация — главная техника)
Описываешь схему весов по уровням:
HIGH: [факторы с решающим весом]
MEDIUM: [факторы с умеренным весом]
LOW: [факторы с малым весом]
Затем подаёшь задачу → модель оценивает по твоей логике
--- --- ---
ШАГ 3 (опционально): INTROSPECTIVE
Показываешь модели где её текущая оценка расходится с твоей
Просишь скорректироваться → работает непредсказуемо,
иногда делает хуже (см. Ограничения)
Шаги 1-2 в одном диалоге. Шаг 3 — отдельный запрос после получения baseline.
Пример применения
Задача: Ты — партнёр небольшого фонда, который инвестирует в русскоязычные EdTech-стартапы. Каждую неделю приходит 20+ питчей. Нужен быстрый первичный скрининг — хочешь, чтобы ИИ отбирал «по твоей голове», а не по своей.
Промпт:
Ты проводишь первичный скрининг питчей EdTech-стартапов для нашего фонда.
Наша схема оценки:
ВЫСОКИЙ ВЕС (решающие факторы):
- Подтверждённый спрос: есть платящие пользователи или внятная точка боли
- Команда: основатели с релевантным опытом или профильным образованием
- Юнит-экономика: расчёт показывает путь к окупаемости
СРЕДНИЙ ВЕС (важные, но не решающие):
- Размер рынка: потенциал роста понятен, но не обязан быть огромным
- Конкурентная среда: понимание кто ещё есть и чем они отличаются
НИЗКИЙ ВЕС (приятно иметь, но не критично):
- Дизайн и продуктовая полировка на этом этапе
- Наличие трекшена в соцсетях
СТОП-ФАКТОРЫ (автоматический отказ):
- B2G как основной канал на старте
- Нет понимания метрик воронки
Оцени следующий питч по этой схеме. Укажи уровень каждого фактора,
итоговую рекомендацию (проходит/не проходит/нужно уточнить)
и главный аргумент за и против.
ПИТЧ:
{вставь текст питча}
Результат: Модель пройдётся по каждому фактору в порядке твоих весов, явно укажет уровень каждого (HIGH/MEDIUM/LOW/СТОП), вынесет итоговую рекомендацию с аргументацией. Ключевое: оценка будет структурирована вокруг твоей логики, а не стандартного «хорошо/плохо для стартапа».
Почему это работает
LLM обучалась на огромных текстах с разными системами ценностей. Без инструкций её «картина хорошего питча» — это усреднённый портрет из TechCrunch, Y Combinator и Hacker News. Это не твоя картина.
Когда ты даёшь явную схему весов, ты не просто говоришь что важно — ты меняешь структуру задачи. Модель оказывается в режиме «заполни таблицу по критериям», а не «вынеси суждение». В первом режиме ей сложнее незаметно подменить твои приоритеты своими.
Рычаги управления промптом: - Уровни весов (HIGH/MEDIUM/LOW) → добавь CRITICAL над HIGH для абсолютных приоритетов - СТОП-факторы → самый мощный рычаг: модель реже «интерпретирует» жёсткие запреты - Формат вывода → попроси «по каждому фактору — один абзац» чтобы видеть логику, не только резюме - Порядок перечисления → ставь самые важные факторы первыми: модель читает сверху вниз
Шаблон промпта
Ты проводишь оценку {что оцениваешь} по нашим критериям.
ВЫСОКИЙ ВЕС (решающие факторы):
- {фактор_1}: {краткое описание что считается хорошим}
- {фактор_2}: {краткое описание что считается хорошим}
СРЕДНИЙ ВЕС (важные, но не решающие):
- {фактор_3}: {краткое описание}
- {фактор_4}: {краткое описание}
НИЗКИЙ ВЕС (второстепенные):
- {фактор_5}: {краткое описание}
СТОП-ФАКТОРЫ (автоматический отказ при наличии):
- {стоп_фактор_1}
- {стоп_фактор_2}
Оцени {объект оценки} по этой схеме:
1. Пройдись по каждому фактору отдельно
2. Укажи уровень (сильно/умеренно/слабо выражен)
3. Дай итоговую рекомендацию: {критерий решения}
4. Главный аргумент за и против
{объект оценки}:
{вставь контент}
Что подставлять:
- {что оцениваешь} — питчи, резюме, статьи, стратегии, КП
- {фактор_N} — твои реальные критерии, не общие слова
- {краткое описание} — конкретный стандарт: «есть хотя бы 10 платящих клиентов», «опыт в отрасли от 3 лет»
- {стоп_фактор} — то что автоматически убивает кандидата в твоей голове
- {критерий решения} — проходит/не проходит/на доработку
🚀 Быстрый старт — вставь в чат:
Вот шаблон для оценки по моим критериям.
Адаптируй под мою задачу: {опиши что хочешь оценивать и по каким принципам}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какие факторы для тебя принципиальны и что служит стоп-фактором — потому что без этого схема весов будет пустой, а экстернализация не сработает.
Ограничения
⚠️ Спорные или исторически предвзятые критерии: Если твои критерии противоречат встроенным ценностям модели (например, включают демографию или социальные маркеры), модель будет сопротивляться — частично или полностью игнорировать эти факторы. Экстернализация не победит её обучение.
⚠️ Интроспективная коррекция ненадёжна: Если показать модели где её оценка расходится с твоей и попросить исправиться — результат непредсказуем. В одном случае из исследования модель восприняла статистику как правило и начала одобрять почти всё подряд (99.5% положительных ответов). Этот метод лучше не использовать без проверки.
⚠️ Декларируемые рассуждения ≠ реальные рассуждения: Модель может писать в chain-of-thought «ключевым фактором стало X», а реально принять решение на основе Y. Исследование подтверждает: то что модель объясняет вслух — не обязательно то, что её реально движет. Проверяй через варьирование входных данных, а не через запрос «объясни почему».
⚠️ Работает лучше в чётко определённых областях: Чем более субъективная или исторически спорная область, тем слабее эффект экстернализации.
Как исследовали
Команда взяла 1000 решений Европейского суда по правам человека (ECHR) по статье 6 — нарушение/ненарушение права на справедливое судебное разбирательство — и прогнала через 10 разных LLM в трёх режимах промптинга. Измеряли не только «угадала модель с ответом», но и как она взвешивала 45 факторов — задержки процесса, качество защиты, независимость суда и другие. Потом взяли немецкий датасет кредитных решений 1990-х годов — 1000 решений банка, выдавать кредит или нет — и повторили эксперимент с 5 моделями.
Главная неожиданность: в правовом домене выровненность логики и точность ответов коррелировали почти идеально (r=0.85). Когда модели давали правильные ответы, они делали это «правильным образом». Но в кредитном домене эта связь полностью исчезла (r=0.15) — модели могли давать похожие ответы, опираясь на совершенно разные факторы. Стало ясно: одинаковые выходные данные могут скрывать принципиально разную логику.
Отдельный сюрприз с Grok: когда ему показали, что он одобряет слишком мало кредитов по сравнению с историческим базовым уровнем, он воспринял это как директиву и в следующем раунде одобрил 99.5% заявок. Модель среагировала на статистику как на правило, а не как на сигнал для калибровки. Это хороший пример того, как обратная связь может сломать поведение вместо того чтобы выправить.
Адаптации и экстраполяции
1. Проверка процессной честности после оценки
Получил ответ от LLM → не верь только выводу. Спроси:
🔧 Добавь после оценки:
Перечисли три фактора, которые имели наибольший вес в твоём решении. Насколько каждый из них был выражен в этом кейсе?Сравни с тем, что ты поставил HIGH в своей схеме. Если модель называет другие — у тебя процессное расхождение. Измени вес или добавь СТОП-фактор.
2. Калибровка через несколько примеров
Вместо того чтобы угадывать правильные веса самому — дай модели 3-5 примеров твоих прошлых решений с объяснениями, а потом спроси её извлечь схему:
Вот 5 моих прошлых решений по {задача} с пояснениями. Выведи из них: какие факторы я ставлю HIGH, MEDIUM, LOW. Оформь в виде схемы для дальнейшей оценки. [Пример 1 — решение + почему] [Пример 2 — решение + почему] ...Это реверс-инжиниринг твоей логики. Потом используешь извлечённую схему как основу для экстернализации.
Ресурсы
Название: Whose Alignment? Comparing LLM Process Alignment Across Diverse Organizational Decision Contexts
Авторы: Niklas Weller (University of St. Gallen, Швейцария), Emilio Barkett (Columbia University, США)
Ключевые отсылки: - Sorensen et al. (2024) — Pluralistic Alignment - Brunswik Lens Model (1952) — методологическая основа измерения - ECHR датасет: Aletras et al. (2016), Chalkidis et al. (2021) - German Credit Dataset: Hofmann (1994) - Turpin et al. (2024) — divergence between chain-of-thought and actual reasoning
