3,583 papers
arXiv:2606.13944 80 11 июня 2026 г. FREE

Deployment Context Framing: смена типа задачи переключает режим мышления и ценности LLM

КЛЮЧЕВАЯ СУТЬ
37% решений модели меняются от одной строки в начале промпта. Не от перефразирования (10%), не от температуры (5%) — от типа задачи. Метод позволяет осознанно управлять режимом рассуждений и получать реально разные углы зрения на один вопрос. Фреймовая строка активирует паттерны конкретного типа текста — вместе с ними всё «само собой разумеется» этого жанра: чьи интересы важнее, что считается серьёзным аргументом. «Нейтральный» промпт — тоже конкретная позиция. Просто ты об этом не знаешь.
Адаптировать под запрос

TL;DR

Модель не имеет фиксированных ценностей и суждений — они меняются в зависимости от того, какую задачу ты ей дал. Попроси написать новостную статью и попроси написать пост в Reddit — это буквально разные «режимы» рассуждения, не просто разный стиль. Причём это не ты меняешь модель — ты активируешь разные паттерны, которые в ней уже есть.

Главная находка исследования: изменение контекста задачи сдвигает суждения модели сильнее, чем перефразирование, порядок вариантов и температура вместе взятые. В экспериментах с предпочтениями стран — 37% решений менялись при смене контекста. Для сравнения: перефразирование промпта давало 10%, разная температура — 5%. Добавление «пиши как будто это новостная статья» меняло не стиль — меняло саму логику выбора.

Исследование проверяло пять форматов: нейтральный (голый вопрос), новостная статья, Reddit-пост, школьное эссе, влог-скрипт. Каждый формат активировал разный «режим» — от степени формальности до того, чьи интересы модель ставила выше. При этом «нейтральный» контекст — это не отсутствие контекста, это тоже конкретная позиция, которая тяготеет к одному полюсу. Идеи о «базовых ценностях модели» — это измерения в одном контексте, а не свойство модели.


🔬

Схема метода

Это не многошаговый алгоритм, а принцип управления режимом мышления LLM:

ВЫБОР РЕЖИМА: Определи какой тип рассуждения нужен
↓
ФРЕЙМИНГ: Открываешь задачу строкой контекста ("Ты пишешь новостную статью...")
ВОПРОС: Основной вопрос/задача
ФИКСАЦИЯ: Закрываешь инструкцией ("Рассуждай в рамках этого контекста")
↓
ПРИМЕНЕНИЕ: Все три части в одном промпте, один запрос

Для получения диапазона мнений: Повтори с разными форматами в отдельных запросах — сравни как меняются суждения.


🚀

Пример применения

Задача: Ты запускаешь маркетплейс для ремёсленников и думаешь стоит ли добавить систему рейтингов продавцов. Хочешь понять риски с разных сторон — и возможные перекосы в логике ChatGPT.


Промпт — Режим "Новостная статья":

Ты пишешь аналитическую статью для «Ведомостей» о практике рейтингования 
продавцов на маркетплейсах.

Стоит ли небольшому нишевому маркетплейсу (ремёсла, хендмейд, ~300 продавцов) 
вводить публичную систему рейтингов? Какие риски для малого бизнеса?

Рассуждай в рамках этого контекста — журналистского разбора для широкой аудитории.

Промпт — Режим "Reddit-пост":

Ты пишешь пост в r/malyi_biznes о том, как платформы убивают малых продавцов 
своими рейтингами.

Стоит ли небольшому нишевому маркетплейсу (ремёсла, хендмейд, ~300 продавцов) 
вводить публичную систему рейтингов? Какие риски для малого бизнеса?

Рассуждай в рамках этого контекста — пост для сообщества предпринимателей.

Промпт — Режим "Влог-скрипт":

Ты пишешь скрипт для своего YouTube-канала, где от первого лица рассказываешь 
о своём опыте продажи хендмейда онлайн.

Стоит ли небольшому нишевому маркетплейсу (ремёсла, хендмейд, ~300 продавцов) 
вводить публичную систему рейтингов? Какие риски для малого бизнеса?

Рассуждай от первого лица, в рамках личного опыта.

Результат: Три запроса вернут три заметно разных взгляда: «Ведомости» дадут взвешенный разбор с примерами Wildberries и Озона; Reddit-версия будет острее, возможно с акцентом на то как платформы давят продавцов; влог-версия — личная, эмоциональная, со сдвигом в сторону защиты малого продавца. Это не просто разный тон — разные аргументы, разные приоритеты, разные выводы по одному вопросу.


🧠

Почему это работает

LLM натренирована на огромном разнообразии текстов. Новостные статьи написаны иначе, чем Reddit-посты — не только по стилю, но и по тому чьи интересы там защищаются, какие аргументы считаются серьёзными, что вообще является «важным». Когда ты говоришь модели «пиши как новость», ты активируешь паттерны из всех новостных текстов в обучающих данных — и вместе с ними всё то, что в новостях принято считать само собой разумеющимся.

Поэтому «нейтральный» промпт — не нейтральный. Это тоже конкретный контекст — что-то вроде «безликий эксперт отвечает на вопрос». У этого тоже есть свои паттерны, своя культурная лепта. В экспериментах нейтральный контекст систематически сдвигал суждения в одну сторону — не потому что там «правда», а потому что это определённый тип текста в обучении.

Практический рычаг: Контекст задачи — это настройка не стиля, а режима рассуждения. Используй разные форматы осознанно:

Формат Когда использовать
Новостная статья Нужен взвешенный, публичный анализ
Reddit-пост Нужна критическая, острая точка зрения
Школьное эссе Нужна структурированная аргументация
Влог-скрипт Нужен личный, человеческий угол
Нейтральный Когда хочешь именно «режим по умолчанию» — зная, что он не нейтрален

📋

Шаблон промпта

Ты пишешь {формат_задачи} на тему: {тема}.

{Конкретный вопрос или задача}

Рассуждай в рамках этого контекста.

Плейсхолдеры: - {формат_задачи}новостную статью для [издание], пост в Reddit для [сообщество], школьное эссе, скрипт для YouTube-влога от первого лица, аналитическую записку для инвестора - {тема} — тема или домен, в котором рассуждаем - {Конкретный вопрос или задача} — сам вопрос остаётся неизменным при смене форматов

Для получения диапазона мнений: Задай один и тот же вопрос в 2-3 разных форматах, сравни ответы — разногласия покажут где суждения действительно спорны.


🚀 Быстрый старт — вставь в чат:

Вот шаблон для смены режима мышления LLM через контекст задачи. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

Ты пишешь {формат_задачи} на тему: {тема}.

{Конкретный вопрос или задача}

Рассуждай в рамках этого контекста.

LLM спросит какой вопрос ты хочешь рассмотреть и в каких форматах — потому что ей нужно зафиксировать неизменный вопрос и выбрать форматы под твои цели. Она возьмёт шаблон и предложит 2-3 варианта с разными контекстами.


⚠️

Ограничения

⚠️ Стабильные категории: Объективно проверяемые факты (продолжительность жизни, ВВП, даты) почти не меняются при смене контекста. Эффект силён на субъективных и ценностных суждениях — этика, приоритеты, оценки компромиссов.

⚠️ Размер модели важен: Маленькие модели (~8B параметров) менее чувствительны к смене контекста — у них меньше разнообразия в паттернах. Более мощные модели (Claude, GPT-4 класс) меняются сильнее.

⚠️ Reddit-фрейминг — самый острый: Пары контекстов с Reddit дают на 39% больший сдвиг, чем все остальные сочетания. Используй осознанно — это не «более честная» точка зрения, это конкретная субкультура.

⚠️ Не инструмент истины: Разные контексты дают разные ответы — это не значит один правильный. Это значит вопрос действительно неоднозначен, и стоит учитывать разные углы.


🔍

Как исследовали

Команда из Кембриджа поставила простой вопрос: если мы берём одну и ту же пару вариантов («Какая страна лучше — Бразилия или Канада?») и встраиваем её в разные задачи — модель отвечает одинаково или по-разному? Они взяли пять контекстов (нейтральный, новость, Reddit, школьное эссе, влог) и прогнали 1,2 миллиона попарных решений через пять моделей разного масштаба и происхождения.

Сравнение с перефразированием и температурой — это была намеренная провокация. До этого исследования считалось, что модели стабильны в своих предпочтениях, а смена формулировки — это просто «шум». Оказалось, что смена контекста задачи в ~7 раз сильнее влияет на суждения, чем перефразирование промпта. Это не шум — это структурированный сдвиг.

Любопытный паттерн: Reddit-контекст систематически сдвигал все модели в сторону «незападных» и менее формальных позиций — не по инструкции, а просто потому что такова аудитория Reddit в обучающих данных. А влог (от первого лица) давал похожий эффект через механизм «говорю о себе, значит учитываю личный контекст». При этом «нейтральный» контекст систематически тяготел к «северному» (западному) полюсу — он не был нейтральным, он был просто другим конкретным режимом.


💡

Адаптации и экстраполяции

📌

Адаптация 1: Намеренный «совет от разных советников»

Используй смену контекста как способ получить несколько полноценных точек зрения от одной модели — вместо того чтобы просить «рассмотри с разных сторон» в одном запросе:

💡 Адаптация: Совет-борд через контексты

Серия из 3 запросов, один вопрос — три контекста:

Запрос 1:
"Ты пишешь аналитику для венчурного инвестора. 
[Твой вопрос о бизнес-решении]
Рассуждай в рамках инвестиционного анализа."

Запрос 2:
"Ты пишешь пост в профессиональное сообщество предпринимателей 
(аналог r/startups на русском).
[Тот же вопрос]
Рассуждай в рамках опыта практиков."

Запрос 3:
"Ты пишешь скрипт для влога о своём опыте основателя стартапа, 
от первого лица.
[Тот же вопрос]
Рассуждай от первого лица, через личный опыт."

Там где все три версии согласны — высокая уверенность. Там где расходятся — зона реальной неопределённости, которую стоит изучить глубже.


📌

Адаптация 2: «Антагонистический» контекст для стресс-теста идеи

🔧 Техника: Выбери контекст, максимально враждебный к твоей позиции

Если ты хочешь найти слабые места в своей бизнес-идее — выбери контекст, где принято критиковать именно такие идеи:

Ты пишешь разгромный обзор в стиле «антирекомендации» для Telegram-канала 
о провальных стартапах.

[Опиши свою идею]

Найди всё что может пойти не так. Рассуждай в рамках этого контекста.

Это не про «модель злая» — это про то, что разные контексты активируют разные паттерны аргументации. Критический контекст → критические аргументы, которые в нейтральном режиме могли бы остаться в тени.


🔗

Ресурсы

Название: LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values

Датасет: FilipT/llm-multitudes

Визуализация результатов: trhlikfilip.github.io/LLM_multitudes

Авторы: Filip Trhlik, Aoife O'Flynn, Angela Yu, Arduin Findeis, Paula Buttery

Организации: University of Cambridge, ALTA Institute, Leverhulme Centre for the Future of Intelligence, Microsoft UK

Контакт: ft360@cam.ac.uk


📋 Дайджест исследования

Ключевая суть

37% решений модели меняются от одной строки в начале промпта. Не от перефразирования (10%), не от температуры (5%) — от типа задачи. Метод позволяет осознанно управлять режимом рассуждений и получать реально разные углы зрения на один вопрос. Фреймовая строка активирует паттерны конкретного типа текста — вместе с ними всё «само собой разумеется» этого жанра: чьи интересы важнее, что считается серьёзным аргументом. «Нейтральный» промпт — тоже конкретная позиция. Просто ты об этом не знаешь.

Принцип работы

Не задавай роль — задавай тип текста. Роль — это маска. Тип текста — другой режим рассуждения целиком. Формат меняет не стиль — он меняет аргументацию, приоритеты, выводы. Новостная статья и Reddit-пост — это не разные тона. Это разные системы ценностей из обучающих данных.

Почему работает

Модель обучена на текстах, которые писались с разными целями для разных аудиторий. Новостная статья защищает одни интересы. Reddit-пост — другие. Это разные культуры внутри обучающей выборки. Говоришь «пиши новость» — активируешь всю культуру новостных текстов, включая их систему ценностей. Жесть: Reddit-фрейм даёт на 39% больший сдвиг суждений, чем любая другая пара форматов. Не потому что он «честнее» — просто у него самая яркая субкультура из всех.

Когда применять

Везде где вопрос субъективный: этика, приоритеты, оценка компромиссов, бизнес-решения. Особенно — когда нужно протестировать идею критически или услышать честно несколько разных точек зрения от одной модели. НЕ подходит для объективных фактов — продолжительность жизни и даты одинаковы в любом жанре.

Мини-рецепт

1. Зафиксируй вопрос: Один вопрос, который не меняешь между запросами — это якорь.
2. Выбери 2-3 формата: Новостная статья (взвешенный разбор), Reddit-пост (острая критика), влог-скрипт (личный угол), школьное эссе (структурированная аргументация).
3. Оберни каждый запрос: Ты пишешь {формат} на тему: {тема}. {Вопрос}. Рассуждай в рамках этого контекста.
4. Сравни ответы: Там где версии расходятся — вопрос реально спорный. Там где совпадают — скорее всего, есть консенсус.

Примеры

[ПЛОХО] : Стоит ли добавить рейтинги продавцов на маркетплейс?
[ХОРОШО] : Ты пишешь аналитическую статью для «Ведомостей» о рейтингах продавцов на нишевых маркетплейсах. Стоит ли небольшому маркетплейсу (~300 продавцов, хендмейд) вводить публичную систему рейтингов? Рассуждай в рамках этого контекста — журналистский разбор для широкой аудитории. Потом повтори тот же вопрос с фреймом Reddit-поста — получишь другие аргументы, другие выводы, другие акценты по одному и тому же вопросу.
Источник: LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values
ArXiv ID: 2606.13944 | Сгенерировано: 2026-06-15 04:31

Проблемы LLM

ПроблемаСутьКак обойти
Нейтральный запрос — не нейтральныйСпрашиваешь без контекста. Думаешь — получишь объективный ответ. Нет. Без контекста модель активирует паттерн «безликий эксперт отвечает на вопрос». Это тоже конкретная позиция. Она тянет суждения в одну сторону — не потому что там «правда», а потому что этот тип текста так написан в обучающих данных. Проблема для любых задач где используешь «просто спроси» для получения взвешенного мненияПризнай: нейтральный контекст — это тоже выбор. Если хочешь именно его — окей, но осознанно. Если хочешь проверить однобокость — задай тот же вопрос в 2-3 разных форматах и сравни где мнения расходятся

Методы

МетодСуть
Фрейминг формата — переключение режима рассужденияОткрываешь запрос строкой контекста: Ты пишешь {формат} на тему: {тема}. Затем сам вопрос. Закрываешь: Рассуждай в рамках этого контекста. Форматы и что они дают: «новостная статья» — взвешенный публичный разбор; «Reddit-пост» — острая критическая точка зрения; «школьное эссе» — структурированная аргументация; «влог-скрипт» — личный, человеческий угол. Почему работает: каждый тип текста в обучающих данных несёт своё — чьи интересы важны, что считается серьёзным аргументом, что вообще «важно». Называешь формат — активируешь эти паттерны целиком, не только стиль. Для диапазона мнений: задай один вопрос в 2-3 форматах отдельными запросами. Где ответы расходятся — там вопрос реально неоднозначен. Не работает: объективно проверяемые факты (даты, цифры, ВВП) — почти не меняются. Эффект силён на ценностях, приоритетах, компромиссах

Тезисы

ТезисКомментарий
Формат задачи меняет суждения сильнее, чем все остальные настройки вместеКонтекст задачи — самый мощный рычаг из доступных. Перефразирование меняет примерно каждое десятое решение модели. Разная температура — каждое двадцатое. Смена формата задачи — каждое третье. Почему: перефразирование и температура работают внутри одного режима рассуждения. Смена формата переключает сам режим — другие паттерны, другие встроенные приоритеты. Применяй: если хочешь изменить логику ответа, а не тон — меняй формат задачи, не слова вопроса
📖 Простыми словами

LLMsContain Multitudes: How Deployment Context ReshapesModel-Level Preferences and Values

arXiv: 2606.13944

Нейросети — это не личности с твердыми убеждениями, а цифровые хамелеоны, у которых внутри зашиты тысячи разных «личностей». Фундаментальная механика тут проста: у модели нет фиксированного мнения по какому-либо вопросу. Когда ты задаешь ей роль, ты не просто меняешь стиль текста, ты переключаешь режим оценки реальности. В зависимости от контекста одна и та же модель может выдать диаметрально противоположные суждения, потому что она активирует разные пласты данных, на которых училась.

Это как если бы один и тот же человек днем работал строгим судьей, а вечером превращался в татуированного байкера. Формально это один организм, но логика принятия решений у них разная. Судья накажет за превышение скорости, а байкер скажет, что это драйв и свобода. Модель ведет себя так же: она не «врет», она просто искренне вживается в паттерны поведения, которые ты сам же и вызвал своим промптом.

Что реально работает: контекстное переключение. Если попросить модель написать новостную статью, она включит режим «объективного наблюдателя» и будет защищать интересы институтов. Но стоит сказать «напиши пост для Reddit», как она тут же перейдет на сторону обычного пользователя, станет более токсичной к корпорациям и начнет ценить личный опыт выше сухих цифр. Исследование 2606.13944 доказывает, что это не случайные сбои, а системная особенность: модель подтягивает ценности вместе с форматом текста.

Этот принцип универсален и применим везде — от разработки стратегий до написания кода. Если ты хочешь проверить идею на прочность, не спрашивай модель «что ты думаешь». Заставь ее примерить разные маски: пусть она оценит проект как циничный инвестор, а потом как социальный активист. Ты увидишь, что ценности модели плывут вслед за ролью, и это позволяет вытащить из нее аргументы, о которых ты даже не задумывался.

Короче: забудь про поиск «истинного мнения» нейросети, его не существует в природе. Модель — это зеркало контекста, которое отражает те ценности, которые ты сам активировал. Если результат кажется тебе предвзятым или тупым, скорее всего, ты просто выбрал не ту роль. Хочешь глубокой аналитики — не проси модель быть «полезным ассистентом», проси ее быть въедливым аудитором. Кто научится переключать эти режимы, тот и получит от AI максимум.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с