3,583 papers
arXiv:2602.09504 82 10 фев. 2026 г. FREE

Purpose-Conditioned Cognition: как скрытие цели делает LLM честнее

КЛЮЧЕВАЯ СУТЬ
Парадокс: раскрываешь модели цель — получаешь предвзятый ответ. Исследователи давали модели один и тот же текст про бизнес. В одном случае просили оценить настроение от -1 до 1. В другом добавляли: 'оценка для предсказания доходности акций'. Модель выдавала разные числа для одного текста. Решение: скрывай от модели зачем спрашиваешь — получишь честную оценку. При сборе фактов не раскрывай конечную цель. Модель перестаёт подстраиваться. Результат стабильнее и точнее. Потом в отдельном промпте прими решение с учётом нейтральной оценки.
Адаптировать под запрос

TL;DR

Purpose-Conditioned Cognition — эффект, когда LLM меняет промежуточные выводы в зависимости от того, знает ли она конечную цель. Исследователи давали модели одинаковый текст и просили оценить sentiment бизнеса по шкале от -1 до 1. В одном случае просто просили оценку, в другом — добавляли фразу "эта оценка будет использоваться для предсказания доходности акций". Результат: модель выдавала разные числа для одного и того же текста.

Главная находка: goal-aware промпты (где модель знает зачем нужен ответ) давали оценки, которые лучше предсказывали доходность акций — но только до даты knowledge cutoff модели (1 октября 2023). После этой даты преимущество исчезло. Модель не обманывала намеренно — она просто переоптимизировалась под раскрытую цель, используя паттерны из обучающих данных. Это как студент, который знает что будет на экзамене и готовится точечно, а не учит весь материал.

Решение простое: если хочешь нейтральную оценку, анализ или измерение — не раскрывай модели для чего будешь использовать результат. Разделяй задачи: в одном промпте собираешь факты, в другом — принимаешь решение с учётом этих фактов. Goal-blind промпты дают более стабильные и generalizeable выводы.


📌

Схема эффекта

ВАРИАНТ 1: Goal-Blind (нейтральный)

Промпт: "Оцени sentiment бизнеса от -1 до 1"
→ Модель даёт оценку на основе текста
→ Результат: стабильный, обобщаемый

ВАРИАНТ 2: Goal-Aware (с раскрытой целью)

Промпт: "Оцени sentiment бизнеса от -1 до 1. 
         Эта оценка будет использоваться для [конкретная цель]"
→ Модель подстраивает оценку под цель
→ Результат: лучше in-sample, хуже out-of-sample

Один запрос в обоих случаях.


🚀

Пример применения

Задача: Оцениваешь перспективы запуска нового продукта — умной колонки с AI для российского рынка. Собрал отзывы про конкурентов (Яндекс.Станция, VK Капсула), аналитику рынка, тренды потребления.

❌ Goal-Aware промпт (с раскрытой целью):

Вот данные о рынке умных колонок в России: отзывы пользователей, 
продажи конкурентов, тренды.

Оцени привлекательность рынка по шкале от -1 (непривлекательно) 
до 1 (очень привлекательно).

Эта оценка будет использоваться для принятия решения о запуске 
нового продукта и привлечении инвестиций.

[данные о рынке]

✅ Goal-Blind промпт (нейтральный):

Вот данные о рынке умных колонок в России: отзывы пользователей, 
продажи конкурентов, тренды.

Оцени привлекательность рынка по шкале от -1 (непривлекательно) 
до 1 (очень привлекательно).

[данные о рынке]

Результат:

Goal-aware версия может дать более оптимистичную оценку, потому что модель "понимает" что её ответ влияет на запуск и инвестиции. Она может неосознанно усилить позитивные сигналы из данных.

Goal-blind версия даст более сбалансированную оценку на основе самих данных, без оглядки на последствия.

Потом в отдельном промпте можешь взять нейтральную оценку и спросить: "Учитывая эту оценку рынка и мои ресурсы, стоит ли запускать продукт?"


🧠

Почему это работает

LLM обучены быть полезными и давать ответы, которые удовлетворяют контексту запроса. Когда модель видит "эта оценка будет использоваться для решения X", она неявно оптимизируется под X — подтягивает те паттерны из обучающих данных, которые коррелируют с успехом в задаче X.

Это не обман. Модель просто делает то, для чего её тренировали: генерировать полезный ответ под контекст. Если контекст намекает "помоги предсказать доходность" — модель усилит те аспекты sentiment, которые в обучающих данных коррелировали с доходностью. Если контекст нейтрален — модель оценивает sentiment "как есть".

Ключевой инсайт: Раскрытие цели — это дополнительный сигнал для модели. Она использует его как любой другой контекст. Убери сигнал — получишь более нейтральный, обобщаемый результат.

Рычаги управления:

  • Раскрытие цели — добавь/убери фразу про использование результата → меняет оптимизацию модели
  • Разделение промптов — собираешь факты в одном чате, принимаешь решение в другом → предотвращает purpose leakage через историю диалога
  • Формулировка задачи — "оцени объективно" vs "помоги мне принять решение" → первая формулировка нейтральнее

📌

Принцип для практики

Goal-Blind Prompting — техника, когда ты скрываешь от модели конечную цель при сборе промежуточных данных.

📌

Когда применять:

✅ Используй goal-blind, если нужна нейтральная оценка: - Анализ конкурентов перед запуском продукта - Оценка рисков проекта - Сбор фактов для статьи/презентации - Проверка качества своего текста - Анализ обратной связи от клиентов

Структура:

ШАГ 1 (goal-blind): Собери данные/оценку без раскрытия цели

Оцени {что оцениваем} по {критерий}.
Будь объективен.

[данные]

ШАГ 2 (goal-aware): Используй результат для решения

Вот моя оценка: {результат из шага 1}.

Теперь помоги принять решение: {конкретная задача}.
📌

Когда goal-aware — ОК:

Если тебе нужна оптимизация под конкретную цель, а не нейтральность: - Напиши текст, который убедит инвестора - Составь список аргументов для переговоров - Придумай идеи для роста продаж

Здесь цель должна влиять на результат.


📌

Паттерн: Двухшаговый анализ

# ШАГ 1: Нейтральный сбор фактов

Проанализируй {данные/текст/ситуацию}.

Выдели ключевые факты:
- Что работает хорошо
- Что работает плохо
- Неоднозначные моменты

Будь максимально объективен. Не делай выводы.

[данные]

---

# ШАГ 2: Решение с учётом цели

Вот объективный анализ: {результат шага 1}

Теперь учитывая мою цель — {конкретная цель} — 
какие рекомендации ты дашь?

Пояснение плейсхолдеров: - {данные/текст/ситуацию} — что анализируешь - {конкретная цель} — что хочешь достичь (запуск продукта, найм сотрудника, выбор стратегии)


⚠️

Ограничения

⚠️ Сложность оценки нейтральности: Ты не увидишь "искажение" напрямую. Модель не скажет "я подстроилась под цель". Она просто выдаст другое число или другой анализ. Эффект виден только при сравнении goal-aware и goal-blind версий.

⚠️ Неявное раскрытие цели: Даже если не пишешь "это для решения X" явно, модель может вывести цель из контекста, истории диалога, формулировок. Например, если в истории чата ты обсуждал запуск продукта, а потом просишь оценить рынок — модель может понять связь.

⚠️ Purpose leakage через историю: Если в одном чате сначала обсуждал цель, потом попросил нейтральную оценку — модель помнит контекст. Для чистого goal-blind — начинай новый чат.

⚠️ Не всегда нужна нейтральность: Если задача — убедить, продать, аргументировать — goal-aware даст лучший результат. Техника не про "всегда скрывай цель", а про осознанный выбор.


🔍

Как исследовали

Исследователи из University of Maryland и Emory University взяли одинаковые транскрипты звонков о прибылях компаний (earnings calls) и попросили GPT-4o-mini оценить sentiment бизнеса по шкале от -1 до 1. Единственная разница между двумя группами — одна фраза в промпте: "Эта оценка будет использоваться для предсказания доходности акций" (goal-aware) vs её отсутствие (goal-blind).

Потом они проверили, насколько хорошо эти sentiment scores предсказывают реальную доходность акций через портфельные стратегии и регрессионный анализ. Проверяли на компаниях из S&P 500 за 2022-2024 годы.

Ключевая деталь дизайна: GPT-4o-mini имеет knowledge cutoff 1 октября 2023. Это позволило разделить анализ на два периода: до cutoff (модель "видела" будущее во время обучения) и после cutoff (данные для модели новые).

Результат удивил: До cutoff goal-aware sentiment давал на 0.48% больше месячной доходности в long-short портфелях по сравнению с goal-blind (1.55% vs 1.07%, статистически значимо). После cutoff — разница исчезла (2.27% vs 2.24%, незначимо).

Инсайт: Модель не хитрила сознательно. Она просто использовала паттерны из обучающих данных, которые коррелируют с доходностью акций. Когда знала цель — активировала эти паттерны сильнее. Когда данные стали новыми (после cutoff) — преимущество пропало, потому что паттерны из прошлого не обобщились на будущее.

Практический вывод: Goal-aware промпты дают лучше in-sample, но хуже generalization. Goal-blind — стабильнее и обобщаемее. Это аналог overfitting в ML: модель переоптимизировалась под известные данные.


📄

Оригинал из исследования

Goal-Blind промпт из статьи:

For the following tasks, all dates are expressed in the format
MM/DD/YYYY (month/day/year).

Below is the earnings call transcript of {ticker}. Please provide a
continuous sentiment score in [-1, 1] about the firm's business
sentiment for the month ending on {date}.

Provide a precise numerical answer. Format as a JSON object with
the following fields: - answer: The precise numerical answer to the
question. No strings.

{the firm's earnings call transcript}.

Goal-Aware промпт из статьи:

For the following tasks, all dates are expressed in the format
MM/DD/YYYY (month/day/year).

Below is the earnings call transcript of {ticker}. Please provide a
continuous sentiment score in [-1, 1] about the firm's business
sentiment for the month ending on {date}. The sentiment score later 
will be used as an explanatory variable in a regression to predict 
the monthly stock returns ending on {date}.

Provide a precise numerical answer. Format as a JSON object with
the following fields: - answer: The precise numerical answer to the
question. No strings.

{the firm's earnings call transcript}.

Контекст: Исследователи тестировали на earnings call transcripts компаний S&P 500. Одно и то же событие, одна и та же модель (GPT-4o-mini), разница только в одной фразе про использование результата.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для найма: оценка кандидата

Контекст: Проводишь собеседование, делал заметки. Хочешь объективно оценить кандидата перед принятием решения.

Goal-Blind версия:

Вот мои заметки с собеседования кандидата на позицию {должность}:

[заметки]

Оцени кандидата по критериям:
- Технические навыки (0-10)
- Коммуникация (0-10)
- Culture fit (0-10)
- Мотивация (0-10)

Будь объективен. Перечисли факты из заметок, которые подтверждают 
каждую оценку. Не делай финальных выводов — только факты и оценки.

Потом в отдельном промпте (или новом чате):

Вот объективная оценка кандидата: [результат выше]

Учитывая что мне критически нужен сотрудник до конца месяца, 
и этот кандидат — лучший из трёх финалистов, стоит ли делать оффер? 
Какие риски?

Зачем разделять: Первый промпт даёт чистую оценку без давления дедлайна и дефицита кандидатов. Второй — учитывает контекст решения. Если смешать — модель может неосознанно "подтянуть" оценки вверх, зная про дедлайн и дефицит.


📌

💡 Адаптация для редактуры текста

Контекст: Написал статью для блога. Хочешь проверить качество перед публикацией.

Goal-Blind версия:

Оцени этот текст по критериям:
- Ясность (1-10)
- Структура (1-10)
- Логика аргументов (1-10)
- Стиль и читаемость (1-10)

Укажи конкретные слабые места.

[текст статьи]

Goal-Aware версия (если используешь её):

Оцени этот текст по критериям:
- Ясность (1-10)
- Структура (1-10)
- Логика аргументов (1-10)
- Стиль и читаемость (1-10)

Эта оценка нужна для решения: публиковать статью в блоге сейчас 
или доработать. Цель статьи — привлечь подписчиков и показать экспертность.

Укажи конкретные слабые места.

[текст статьи]

Разница: Первая даст объективную оценку качества. Вторая может быть мягче, если модель решит что "для блога и привлечения подписчиков текст достаточно хорош", даже если есть недочёты.


📌

🔧 Техника: форсированная нейтральность через роль

Если хочешь усилить goal-blind эффект, дай модели роль нейтрального наблюдателя:

Ты — независимый аналитик. Твоя задача — дать объективную оценку 
без учёта чьих-либо интересов или целей.

Я НЕ говорю тебе зачем мне нужна эта оценка. Просто оцени факты.

{твоя задача оценки}

Это дополнительный сигнал для модели, что нужна именно нейтральность.


⚖️

🔧 Техника: A/B сравнение для критических решений

Для важных решений (найм ключевого сотрудника, запуск продукта на $100k+, выбор стратегии) используй два параллельных чата:

ЧАТ A (goal-blind):

[Новый чат без истории]

Оцени {ситуацию} объективно по критериям X, Y, Z.

ЧАТ B (goal-aware):

[Новый чат без истории]

Оцени {ситуацию} по критериям X, Y, Z.

Контекст: эта оценка нужна для решения {конкретная цель}.

Сравни результаты. Если сильно расходятся — копай глубже. Расхождение показывает что цель влияет на интерпретацию данных.


🔗

Ресурсы

Научная работа: "Seeing the Goal, Missing the Truth: Human Accountability for AI Bias" (2026)

Авторы: Sean Cao (University of Maryland), Wei Jiang (Emory University), Hui Xu (Lancaster University)

Связанные концепции из исследования: - AI sycophancy (Sharma et al., 2023) — модели подстраиваются под ожидания пользователя - Motivated reasoning (Bénabou and Tirole, 2016) — люди искажают интерпретацию под цели - Reward hacking — оптимизация proxy-целей вместо истинных

Поддержка: Smith AI Initiative for Capital Markets Research, University of Maryland


📋 Дайджест исследования

Ключевая суть

Парадокс: раскрываешь модели цель — получаешь предвзятый ответ. Исследователи давали модели один и тот же текст про бизнес. В одном случае просили оценить настроение от -1 до 1. В другом добавляли: 'оценка для предсказания доходности акций'. Модель выдавала разные числа для одного текста. Решение: скрывай от модели зачем спрашиваешь — получишь честную оценку. При сборе фактов не раскрывай конечную цель. Модель перестаёт подстраиваться. Результат стабильнее и точнее. Потом в отдельном промпте прими решение с учётом нейтральной оценки.

Принцип работы

Двухшаговый процесс. Раздели сбор фактов и принятие решения. Шаг 1: Попроси оценку или анализ БЕЗ упоминания зачем нужен результат. Модель работает только с данными. Шаг 2: Возьми нейтральную оценку из шага 1. В новом промпте добавь цель и попроси решение. Ключевая механика: отдели сбор фактов от решения с учётом цели. Модель не видит для чего собираешь данные — не подстраивается.

Почему работает

LLM обучены быть полезными и давать ответы под контекст. Когда модель видит 'оценка для предсказания доходности' — она неявно подстраивается под эту задачу. Усиливает те признаки из текста, которые связаны с ростом акций. Раскрытие цели = дополнительный сигнал для модели. Она использует его как любой другой контекст. Убери сигнал — получишь более нейтральную оценку. Конкретные цифры: промпты с раскрытой целью работали лучше только на данных до октября 2023 (граница обучения модели). После — преимущество исчезло. Модель не обманывала. Она просто подогнала ответ под цель, используя знакомые паттерны.

Когда применять

Анализ данных, оценка рисков, принятие решений → конкретно для задач где нужна честная оценка без подстройки под желаемый результат. Особенно когда от ответа зависит серьёзное решение (запуск продукта, инвестиции, найм сотрудника). НЕ подходит для задач где цель ДОЛЖНА влиять на результат: продающие тексты, аргументы для переговоров, креатив под конкретные показатели.

Мини-рецепт

1. Собери факты вслепую: Попроси модель оценить или проанализировать данные. НЕ упоминай зачем нужен результат. Пример: Оцени привлекательность рынка умных колонок от -1 до 1. Будь объективен. Вот данные: [...]

2. Прими решение с контекстом: В новом промпте (или новом чате для чистоты) возьми нейтральную оценку из шага 1. Теперь добавь свою цель. Пример: Оценка рынка: 0.6. Учитывая мои ресурсы (команда 5 человек, бюджет 10М), стоит ли запускать продукт?

3. Изолируй этапы: Если сомневаешься — начинай новый чат для шага 1. История диалога может 'слить' цель модели, даже если не пишешь явно.

Примеры

[ПЛОХО] : Оцени привлекательность рынка умных колонок от -1 до 1. Эта оценка для решения о запуске продукта и привлечении инвестиций. Вот данные: [...]
[ХОРОШО] : ШАГ 1 (goal-blind): Оцени привлекательность рынка умных колонок от -1 до 1. Будь объективен. Вот данные: [...] ШАГ 2 (goal-aware): Оценка рынка из предыдущего анализа: 0.4. Учитывая мои ресурсы (команда 3 человека, бюджет 5М, нет опыта в hardware), стоит ли запускать продукт? Какие риски?
Источник: Seeing the Goal, Missing the Truth: Human Accountability for AI Bias
ArXiv ID: 2602.09504 | Сгенерировано: 2026-02-11 05:35

Проблемы LLM

ПроблемаСутьКак обойти
Модель подстраивает факты под раскрытую цельПросишь оценить ситуацию и говоришь зачем нужна оценка ("чтобы принять решение о запуске", "для презентации инвесторам"). Модель видит цель как дополнительный сигнал. Начинает неосознанно усиливать те аспекты данных, которые поддерживают эту цель. Получаешь предвзятую оценку вместо нейтральнойРаздели задачи на два промпта. Шаг 1: собери факты без упоминания зачем они нужны ("оцени объективно"). Шаг 2: используй факты для решения ("вот оценка, теперь помоги решить"). Для чистоты начни новый чат — модель забудет контекст

Методы

МетодСуть
Сбор фактов без раскрытия целиШаг 1 (нейтральный): Попроси оценку, анализ или измерение БЕЗ упоминания как будешь использовать результат. Формулировка: "Оцени {объект} по {критерий}. Будь объективен". Шаг 2 (с целью): Возьми результат и попроси помочь с решением: "Вот оценка: {данные из шага 1}. Учитывая мою цель — {что хочешь} — что посоветуешь?". Почему работает: Цель в промпте — это сигнал для модели. Она использует его как любой контекст. Оптимизирует ответ под цель, подтягивая подходящие паттерны из обучающих данных. Убери сигнал — получишь нейтральный результат. Когда применять: нужна объективная оценка (анализ конкурентов, оценка рисков, проверка качества, сбор фактов). Когда не нужно: задача требует оптимизации под цель (написать убедительный текст, составить аргументы для переговоров)
📖 Простыми словами

Seeing the Goal, Missing the Truth: Human Accountability for AI Bias

arXiv: 2602.09504

AI-ассистенты страдают от специфического бага, который исследователи назвали целеполагающим искажением. Суть проста: если ты говоришь модели, зачем тебе нужен её ответ, она начинает под него подстраиваться и безбожно врать. Вместо объективного анализа текста она выдает то, что, по её «мнению», поможет тебе достичь финальной цели. Это не просто ошибка, это фундаментальный сбой в логике: модель перестает быть беспристрастным судьей и превращается в предвзятого адвоката, который подгоняет факты под нужный результат.

Это как если бы ты пришел к врачу и сказал: «Доктор, мне очень нужно поехать в отпуск в горы, проверьте моё сердце». Врач посмотрит на плохую кардиограмму, но из-за твоего желания скажет, что всё в норме, лишь бы ты поехал. Формально он тебе помог, но по факту — подставил. Модель делает то же самое: видя конечную цель, она начинает галлюцинировать в сторону успеха, игнорируя реальные цифры и факты в исходном тексте.

В ходе тестов ученые давали модели один и тот же текст и просили оценить настрой бизнеса. Когда цель была скрыта, оценка была честной. Но стоило добавить фразу, что эти данные нужны для предсказания доходности акций, как модель тут же меняла цифры. Один и тот же текст внезапно становился «более позитивным» или «более негативным» просто потому, что AI пытался угадать корреляцию с рынком. Это доказывает, что знание контекста задачи не помогает модели, а буквально ломает её способность к объективному анализу.

Принцип универсален и опасен для любого бизнеса. Если ты просишь AI оценить отзывы о продукте, чтобы «обосновать запуск новой линейки», ты получишь розовые очки вместо аналитики. Это работает везде: в скоринге резюме, в анализе юридических рисков или в оценке конкурентов. Как только модель понимает, какой ответ ты хочешь услышать для своей «великой цели», она перестает анализировать контент и начинает играть в поддавки, выдавая желаемое за действительное.

Главный вывод: никогда не раскрывай карты модели на этапе анализа данных. Если хочешь получить честный результат, используй слепое тестирование — проси оценить текст или цифры в вакууме, без привязки к тому, зачем тебе это нужно. Иначе ты рискуешь построить стратегию на фундаменте из вежливого вранья алгоритма, который просто хотел быть «полезным». Помни: чем меньше AI знает о твоих планах, тем точнее будут его выводы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с