TL;DR
Модель не имеет фиксированных ценностей и суждений — они меняются в зависимости от того, какую задачу ты ей дал. Попроси написать новостную статью и попроси написать пост в Reddit — это буквально разные «режимы» рассуждения, не просто разный стиль. Причём это не ты меняешь модель — ты активируешь разные паттерны, которые в ней уже есть.
Главная находка исследования: изменение контекста задачи сдвигает суждения модели сильнее, чем перефразирование, порядок вариантов и температура вместе взятые. В экспериментах с предпочтениями стран — 37% решений менялись при смене контекста. Для сравнения: перефразирование промпта давало 10%, разная температура — 5%. Добавление «пиши как будто это новостная статья» меняло не стиль — меняло саму логику выбора.
Исследование проверяло пять форматов: нейтральный (голый вопрос), новостная статья, Reddit-пост, школьное эссе, влог-скрипт. Каждый формат активировал разный «режим» — от степени формальности до того, чьи интересы модель ставила выше. При этом «нейтральный» контекст — это не отсутствие контекста, это тоже конкретная позиция, которая тяготеет к одному полюсу. Идеи о «базовых ценностях модели» — это измерения в одном контексте, а не свойство модели.
Схема метода
Это не многошаговый алгоритм, а принцип управления режимом мышления LLM:
ВЫБОР РЕЖИМА: Определи какой тип рассуждения нужен
↓
ФРЕЙМИНГ: Открываешь задачу строкой контекста ("Ты пишешь новостную статью...")
ВОПРОС: Основной вопрос/задача
ФИКСАЦИЯ: Закрываешь инструкцией ("Рассуждай в рамках этого контекста")
↓
ПРИМЕНЕНИЕ: Все три части в одном промпте, один запрос
Для получения диапазона мнений: Повтори с разными форматами в отдельных запросах — сравни как меняются суждения.
Пример применения
Задача: Ты запускаешь маркетплейс для ремёсленников и думаешь стоит ли добавить систему рейтингов продавцов. Хочешь понять риски с разных сторон — и возможные перекосы в логике ChatGPT.
Промпт — Режим "Новостная статья":
Ты пишешь аналитическую статью для «Ведомостей» о практике рейтингования
продавцов на маркетплейсах.
Стоит ли небольшому нишевому маркетплейсу (ремёсла, хендмейд, ~300 продавцов)
вводить публичную систему рейтингов? Какие риски для малого бизнеса?
Рассуждай в рамках этого контекста — журналистского разбора для широкой аудитории.
Промпт — Режим "Reddit-пост":
Ты пишешь пост в r/malyi_biznes о том, как платформы убивают малых продавцов
своими рейтингами.
Стоит ли небольшому нишевому маркетплейсу (ремёсла, хендмейд, ~300 продавцов)
вводить публичную систему рейтингов? Какие риски для малого бизнеса?
Рассуждай в рамках этого контекста — пост для сообщества предпринимателей.
Промпт — Режим "Влог-скрипт":
Ты пишешь скрипт для своего YouTube-канала, где от первого лица рассказываешь
о своём опыте продажи хендмейда онлайн.
Стоит ли небольшому нишевому маркетплейсу (ремёсла, хендмейд, ~300 продавцов)
вводить публичную систему рейтингов? Какие риски для малого бизнеса?
Рассуждай от первого лица, в рамках личного опыта.
Результат: Три запроса вернут три заметно разных взгляда: «Ведомости» дадут взвешенный разбор с примерами Wildberries и Озона; Reddit-версия будет острее, возможно с акцентом на то как платформы давят продавцов; влог-версия — личная, эмоциональная, со сдвигом в сторону защиты малого продавца. Это не просто разный тон — разные аргументы, разные приоритеты, разные выводы по одному вопросу.
Почему это работает
LLM натренирована на огромном разнообразии текстов. Новостные статьи написаны иначе, чем Reddit-посты — не только по стилю, но и по тому чьи интересы там защищаются, какие аргументы считаются серьёзными, что вообще является «важным». Когда ты говоришь модели «пиши как новость», ты активируешь паттерны из всех новостных текстов в обучающих данных — и вместе с ними всё то, что в новостях принято считать само собой разумеющимся.
Поэтому «нейтральный» промпт — не нейтральный. Это тоже конкретный контекст — что-то вроде «безликий эксперт отвечает на вопрос». У этого тоже есть свои паттерны, своя культурная лепта. В экспериментах нейтральный контекст систематически сдвигал суждения в одну сторону — не потому что там «правда», а потому что это определённый тип текста в обучении.
Практический рычаг: Контекст задачи — это настройка не стиля, а режима рассуждения. Используй разные форматы осознанно:
| Формат | Когда использовать |
|---|---|
| Новостная статья | Нужен взвешенный, публичный анализ |
| Reddit-пост | Нужна критическая, острая точка зрения |
| Школьное эссе | Нужна структурированная аргументация |
| Влог-скрипт | Нужен личный, человеческий угол |
| Нейтральный | Когда хочешь именно «режим по умолчанию» — зная, что он не нейтрален |
Шаблон промпта
Ты пишешь {формат_задачи} на тему: {тема}.
{Конкретный вопрос или задача}
Рассуждай в рамках этого контекста.
Плейсхолдеры:
- {формат_задачи} — новостную статью для [издание], пост в Reddit для [сообщество], школьное эссе, скрипт для YouTube-влога от первого лица, аналитическую записку для инвестора
- {тема} — тема или домен, в котором рассуждаем
- {Конкретный вопрос или задача} — сам вопрос остаётся неизменным при смене форматов
Для получения диапазона мнений: Задай один и тот же вопрос в 2-3 разных форматах, сравни ответы — разногласия покажут где суждения действительно спорны.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для смены режима мышления LLM через контекст задачи.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
Ты пишешь {формат_задачи} на тему: {тема}.
{Конкретный вопрос или задача}
Рассуждай в рамках этого контекста.
LLM спросит какой вопрос ты хочешь рассмотреть и в каких форматах — потому что ей нужно зафиксировать неизменный вопрос и выбрать форматы под твои цели. Она возьмёт шаблон и предложит 2-3 варианта с разными контекстами.
Ограничения
⚠️ Стабильные категории: Объективно проверяемые факты (продолжительность жизни, ВВП, даты) почти не меняются при смене контекста. Эффект силён на субъективных и ценностных суждениях — этика, приоритеты, оценки компромиссов.
⚠️ Размер модели важен: Маленькие модели (~8B параметров) менее чувствительны к смене контекста — у них меньше разнообразия в паттернах. Более мощные модели (Claude, GPT-4 класс) меняются сильнее.
⚠️ Reddit-фрейминг — самый острый: Пары контекстов с Reddit дают на 39% больший сдвиг, чем все остальные сочетания. Используй осознанно — это не «более честная» точка зрения, это конкретная субкультура.
⚠️ Не инструмент истины: Разные контексты дают разные ответы — это не значит один правильный. Это значит вопрос действительно неоднозначен, и стоит учитывать разные углы.
Как исследовали
Команда из Кембриджа поставила простой вопрос: если мы берём одну и ту же пару вариантов («Какая страна лучше — Бразилия или Канада?») и встраиваем её в разные задачи — модель отвечает одинаково или по-разному? Они взяли пять контекстов (нейтральный, новость, Reddit, школьное эссе, влог) и прогнали 1,2 миллиона попарных решений через пять моделей разного масштаба и происхождения.
Сравнение с перефразированием и температурой — это была намеренная провокация. До этого исследования считалось, что модели стабильны в своих предпочтениях, а смена формулировки — это просто «шум». Оказалось, что смена контекста задачи в ~7 раз сильнее влияет на суждения, чем перефразирование промпта. Это не шум — это структурированный сдвиг.
Любопытный паттерн: Reddit-контекст систематически сдвигал все модели в сторону «незападных» и менее формальных позиций — не по инструкции, а просто потому что такова аудитория Reddit в обучающих данных. А влог (от первого лица) давал похожий эффект через механизм «говорю о себе, значит учитываю личный контекст». При этом «нейтральный» контекст систематически тяготел к «северному» (западному) полюсу — он не был нейтральным, он был просто другим конкретным режимом.
Адаптации и экстраполяции
Адаптация 1: Намеренный «совет от разных советников»
Используй смену контекста как способ получить несколько полноценных точек зрения от одной модели — вместо того чтобы просить «рассмотри с разных сторон» в одном запросе:
💡 Адаптация: Совет-борд через контексты
Серия из 3 запросов, один вопрос — три контекста:
Запрос 1:
"Ты пишешь аналитику для венчурного инвестора.
[Твой вопрос о бизнес-решении]
Рассуждай в рамках инвестиционного анализа."
Запрос 2:
"Ты пишешь пост в профессиональное сообщество предпринимателей
(аналог r/startups на русском).
[Тот же вопрос]
Рассуждай в рамках опыта практиков."
Запрос 3:
"Ты пишешь скрипт для влога о своём опыте основателя стартапа,
от первого лица.
[Тот же вопрос]
Рассуждай от первого лица, через личный опыт."
Там где все три версии согласны — высокая уверенность. Там где расходятся — зона реальной неопределённости, которую стоит изучить глубже.
Адаптация 2: «Антагонистический» контекст для стресс-теста идеи
🔧 Техника: Выбери контекст, максимально враждебный к твоей позиции
Если ты хочешь найти слабые места в своей бизнес-идее — выбери контекст, где принято критиковать именно такие идеи:
Ты пишешь разгромный обзор в стиле «антирекомендации» для Telegram-канала
о провальных стартапах.
[Опиши свою идею]
Найди всё что может пойти не так. Рассуждай в рамках этого контекста.
Это не про «модель злая» — это про то, что разные контексты активируют разные паттерны аргументации. Критический контекст → критические аргументы, которые в нейтральном режиме могли бы остаться в тени.
Ресурсы
Название: LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values
Датасет: FilipT/llm-multitudes
Визуализация результатов: trhlikfilip.github.io/LLM_multitudes
Авторы: Filip Trhlik, Aoife O'Flynn, Angela Yu, Arduin Findeis, Paula Buttery
Организации: University of Cambridge, ALTA Institute, Leverhulme Centre for the Future of Intelligence, Microsoft UK
Контакт: ft360@cam.ac.uk
