TL;DR
Purpose-Conditioned Cognition — эффект, когда LLM меняет промежуточные выводы в зависимости от того, знает ли она конечную цель. Исследователи давали модели одинаковый текст и просили оценить sentiment бизнеса по шкале от -1 до 1. В одном случае просто просили оценку, в другом — добавляли фразу "эта оценка будет использоваться для предсказания доходности акций". Результат: модель выдавала разные числа для одного и того же текста.
Главная находка: goal-aware промпты (где модель знает зачем нужен ответ) давали оценки, которые лучше предсказывали доходность акций — но только до даты knowledge cutoff модели (1 октября 2023). После этой даты преимущество исчезло. Модель не обманывала намеренно — она просто переоптимизировалась под раскрытую цель, используя паттерны из обучающих данных. Это как студент, который знает что будет на экзамене и готовится точечно, а не учит весь материал.
Решение простое: если хочешь нейтральную оценку, анализ или измерение — не раскрывай модели для чего будешь использовать результат. Разделяй задачи: в одном промпте собираешь факты, в другом — принимаешь решение с учётом этих фактов. Goal-blind промпты дают более стабильные и generalizeable выводы.
Схема эффекта
ВАРИАНТ 1: Goal-Blind (нейтральный)
Промпт: "Оцени sentiment бизнеса от -1 до 1"
→ Модель даёт оценку на основе текста
→ Результат: стабильный, обобщаемый
ВАРИАНТ 2: Goal-Aware (с раскрытой целью)
Промпт: "Оцени sentiment бизнеса от -1 до 1.
Эта оценка будет использоваться для [конкретная цель]"
→ Модель подстраивает оценку под цель
→ Результат: лучше in-sample, хуже out-of-sample
Один запрос в обоих случаях.
Пример применения
Задача: Оцениваешь перспективы запуска нового продукта — умной колонки с AI для российского рынка. Собрал отзывы про конкурентов (Яндекс.Станция, VK Капсула), аналитику рынка, тренды потребления.
❌ Goal-Aware промпт (с раскрытой целью):
Вот данные о рынке умных колонок в России: отзывы пользователей,
продажи конкурентов, тренды.
Оцени привлекательность рынка по шкале от -1 (непривлекательно)
до 1 (очень привлекательно).
Эта оценка будет использоваться для принятия решения о запуске
нового продукта и привлечении инвестиций.
[данные о рынке]
✅ Goal-Blind промпт (нейтральный):
Вот данные о рынке умных колонок в России: отзывы пользователей,
продажи конкурентов, тренды.
Оцени привлекательность рынка по шкале от -1 (непривлекательно)
до 1 (очень привлекательно).
[данные о рынке]
Результат:
Goal-aware версия может дать более оптимистичную оценку, потому что модель "понимает" что её ответ влияет на запуск и инвестиции. Она может неосознанно усилить позитивные сигналы из данных.
Goal-blind версия даст более сбалансированную оценку на основе самих данных, без оглядки на последствия.
Потом в отдельном промпте можешь взять нейтральную оценку и спросить: "Учитывая эту оценку рынка и мои ресурсы, стоит ли запускать продукт?"
Почему это работает
LLM обучены быть полезными и давать ответы, которые удовлетворяют контексту запроса. Когда модель видит "эта оценка будет использоваться для решения X", она неявно оптимизируется под X — подтягивает те паттерны из обучающих данных, которые коррелируют с успехом в задаче X.
Это не обман. Модель просто делает то, для чего её тренировали: генерировать полезный ответ под контекст. Если контекст намекает "помоги предсказать доходность" — модель усилит те аспекты sentiment, которые в обучающих данных коррелировали с доходностью. Если контекст нейтрален — модель оценивает sentiment "как есть".
Ключевой инсайт: Раскрытие цели — это дополнительный сигнал для модели. Она использует его как любой другой контекст. Убери сигнал — получишь более нейтральный, обобщаемый результат.
Рычаги управления:
- Раскрытие цели — добавь/убери фразу про использование результата → меняет оптимизацию модели
- Разделение промптов — собираешь факты в одном чате, принимаешь решение в другом → предотвращает purpose leakage через историю диалога
- Формулировка задачи — "оцени объективно" vs "помоги мне принять решение" → первая формулировка нейтральнее
Принцип для практики
Goal-Blind Prompting — техника, когда ты скрываешь от модели конечную цель при сборе промежуточных данных.
Когда применять:
✅ Используй goal-blind, если нужна нейтральная оценка: - Анализ конкурентов перед запуском продукта - Оценка рисков проекта - Сбор фактов для статьи/презентации - Проверка качества своего текста - Анализ обратной связи от клиентов
Структура:
ШАГ 1 (goal-blind): Собери данные/оценку без раскрытия цели
Оцени {что оцениваем} по {критерий}.
Будь объективен.
[данные]
ШАГ 2 (goal-aware): Используй результат для решения
Вот моя оценка: {результат из шага 1}.
Теперь помоги принять решение: {конкретная задача}.
Когда goal-aware — ОК:
Если тебе нужна оптимизация под конкретную цель, а не нейтральность: - Напиши текст, который убедит инвестора - Составь список аргументов для переговоров - Придумай идеи для роста продаж
Здесь цель должна влиять на результат.
Паттерн: Двухшаговый анализ
# ШАГ 1: Нейтральный сбор фактов
Проанализируй {данные/текст/ситуацию}.
Выдели ключевые факты:
- Что работает хорошо
- Что работает плохо
- Неоднозначные моменты
Будь максимально объективен. Не делай выводы.
[данные]
---
# ШАГ 2: Решение с учётом цели
Вот объективный анализ: {результат шага 1}
Теперь учитывая мою цель — {конкретная цель} —
какие рекомендации ты дашь?
Пояснение плейсхолдеров:
- {данные/текст/ситуацию} — что анализируешь
- {конкретная цель} — что хочешь достичь (запуск продукта, найм сотрудника, выбор стратегии)
Ограничения
⚠️ Сложность оценки нейтральности: Ты не увидишь "искажение" напрямую. Модель не скажет "я подстроилась под цель". Она просто выдаст другое число или другой анализ. Эффект виден только при сравнении goal-aware и goal-blind версий.
⚠️ Неявное раскрытие цели: Даже если не пишешь "это для решения X" явно, модель может вывести цель из контекста, истории диалога, формулировок. Например, если в истории чата ты обсуждал запуск продукта, а потом просишь оценить рынок — модель может понять связь.
⚠️ Purpose leakage через историю: Если в одном чате сначала обсуждал цель, потом попросил нейтральную оценку — модель помнит контекст. Для чистого goal-blind — начинай новый чат.
⚠️ Не всегда нужна нейтральность: Если задача — убедить, продать, аргументировать — goal-aware даст лучший результат. Техника не про "всегда скрывай цель", а про осознанный выбор.
Как исследовали
Исследователи из University of Maryland и Emory University взяли одинаковые транскрипты звонков о прибылях компаний (earnings calls) и попросили GPT-4o-mini оценить sentiment бизнеса по шкале от -1 до 1. Единственная разница между двумя группами — одна фраза в промпте: "Эта оценка будет использоваться для предсказания доходности акций" (goal-aware) vs её отсутствие (goal-blind).
Потом они проверили, насколько хорошо эти sentiment scores предсказывают реальную доходность акций через портфельные стратегии и регрессионный анализ. Проверяли на компаниях из S&P 500 за 2022-2024 годы.
Ключевая деталь дизайна: GPT-4o-mini имеет knowledge cutoff 1 октября 2023. Это позволило разделить анализ на два периода: до cutoff (модель "видела" будущее во время обучения) и после cutoff (данные для модели новые).
Результат удивил: До cutoff goal-aware sentiment давал на 0.48% больше месячной доходности в long-short портфелях по сравнению с goal-blind (1.55% vs 1.07%, статистически значимо). После cutoff — разница исчезла (2.27% vs 2.24%, незначимо).
Инсайт: Модель не хитрила сознательно. Она просто использовала паттерны из обучающих данных, которые коррелируют с доходностью акций. Когда знала цель — активировала эти паттерны сильнее. Когда данные стали новыми (после cutoff) — преимущество пропало, потому что паттерны из прошлого не обобщились на будущее.
Практический вывод: Goal-aware промпты дают лучше in-sample, но хуже generalization. Goal-blind — стабильнее и обобщаемее. Это аналог overfitting в ML: модель переоптимизировалась под известные данные.
Оригинал из исследования
Goal-Blind промпт из статьи:
For the following tasks, all dates are expressed in the format
MM/DD/YYYY (month/day/year).
Below is the earnings call transcript of {ticker}. Please provide a
continuous sentiment score in [-1, 1] about the firm's business
sentiment for the month ending on {date}.
Provide a precise numerical answer. Format as a JSON object with
the following fields: - answer: The precise numerical answer to the
question. No strings.
{the firm's earnings call transcript}.
Goal-Aware промпт из статьи:
For the following tasks, all dates are expressed in the format
MM/DD/YYYY (month/day/year).
Below is the earnings call transcript of {ticker}. Please provide a
continuous sentiment score in [-1, 1] about the firm's business
sentiment for the month ending on {date}. The sentiment score later
will be used as an explanatory variable in a regression to predict
the monthly stock returns ending on {date}.
Provide a precise numerical answer. Format as a JSON object with
the following fields: - answer: The precise numerical answer to the
question. No strings.
{the firm's earnings call transcript}.
Контекст: Исследователи тестировали на earnings call transcripts компаний S&P 500. Одно и то же событие, одна и та же модель (GPT-4o-mini), разница только в одной фразе про использование результата.
Адаптации и экстраполяции
💡 Адаптация для найма: оценка кандидата
Контекст: Проводишь собеседование, делал заметки. Хочешь объективно оценить кандидата перед принятием решения.
Goal-Blind версия:
Вот мои заметки с собеседования кандидата на позицию {должность}:
[заметки]
Оцени кандидата по критериям:
- Технические навыки (0-10)
- Коммуникация (0-10)
- Culture fit (0-10)
- Мотивация (0-10)
Будь объективен. Перечисли факты из заметок, которые подтверждают
каждую оценку. Не делай финальных выводов — только факты и оценки.
Потом в отдельном промпте (или новом чате):
Вот объективная оценка кандидата: [результат выше]
Учитывая что мне критически нужен сотрудник до конца месяца,
и этот кандидат — лучший из трёх финалистов, стоит ли делать оффер?
Какие риски?
Зачем разделять: Первый промпт даёт чистую оценку без давления дедлайна и дефицита кандидатов. Второй — учитывает контекст решения. Если смешать — модель может неосознанно "подтянуть" оценки вверх, зная про дедлайн и дефицит.
💡 Адаптация для редактуры текста
Контекст: Написал статью для блога. Хочешь проверить качество перед публикацией.
Goal-Blind версия:
Оцени этот текст по критериям:
- Ясность (1-10)
- Структура (1-10)
- Логика аргументов (1-10)
- Стиль и читаемость (1-10)
Укажи конкретные слабые места.
[текст статьи]
Goal-Aware версия (если используешь её):
Оцени этот текст по критериям:
- Ясность (1-10)
- Структура (1-10)
- Логика аргументов (1-10)
- Стиль и читаемость (1-10)
Эта оценка нужна для решения: публиковать статью в блоге сейчас
или доработать. Цель статьи — привлечь подписчиков и показать экспертность.
Укажи конкретные слабые места.
[текст статьи]
Разница: Первая даст объективную оценку качества. Вторая может быть мягче, если модель решит что "для блога и привлечения подписчиков текст достаточно хорош", даже если есть недочёты.
🔧 Техника: форсированная нейтральность через роль
Если хочешь усилить goal-blind эффект, дай модели роль нейтрального наблюдателя:
Ты — независимый аналитик. Твоя задача — дать объективную оценку
без учёта чьих-либо интересов или целей.
Я НЕ говорю тебе зачем мне нужна эта оценка. Просто оцени факты.
{твоя задача оценки}
Это дополнительный сигнал для модели, что нужна именно нейтральность.
🔧 Техника: A/B сравнение для критических решений
Для важных решений (найм ключевого сотрудника, запуск продукта на $100k+, выбор стратегии) используй два параллельных чата:
ЧАТ A (goal-blind):
[Новый чат без истории]
Оцени {ситуацию} объективно по критериям X, Y, Z.
ЧАТ B (goal-aware):
[Новый чат без истории]
Оцени {ситуацию} по критериям X, Y, Z.
Контекст: эта оценка нужна для решения {конкретная цель}.
Сравни результаты. Если сильно расходятся — копай глубже. Расхождение показывает что цель влияет на интерпретацию данных.
Ресурсы
Научная работа: "Seeing the Goal, Missing the Truth: Human Accountability for AI Bias" (2026)
Авторы: Sean Cao (University of Maryland), Wei Jiang (Emory University), Hui Xu (Lancaster University)
Связанные концепции из исследования: - AI sycophancy (Sharma et al., 2023) — модели подстраиваются под ожидания пользователя - Motivated reasoning (Bénabou and Tirole, 2016) — люди искажают интерпретацию под цели - Reward hacking — оптимизация proxy-целей вместо истинных
Поддержка: Smith AI Initiative for Capital Markets Research, University of Maryland
