3,583 papers
arXiv:2604.15937 76 17 апр. 2026 г. FREE

Предвзятость при отборе контента: как одно слово в промпте меняет то, что LLM считает «лучшим»

КЛЮЧЕВАЯ СУТЬ
Попросишь LLM "выбери лучшее" из тридцати материалов — получишь конфликтное, поляризующее, эмоционально заряженное. По умолчанию. Всегда. Потому что модели обучались на интернет-данных, где скандалы собирали больше реакций — и их веса это намертво запомнили. Метод осознанного фреймирования позволяет управлять тем, что окажется в подборке — через одно слово в промпте. Фрейм-слово — "informative", "popular" или "engaging" — меняет результат в 4 раза сильнее, чем замена GPT на Claude или Gemini. Написал "engaging" — токсичность в выборке резко ползёт вверх. Написал "informative" — подборка становится чище и фактичнее без единой дополнительной инструкции.
Адаптировать под запрос

TL;DR

Когда просишь LLM выбрать лучшие посты, отзывы, статьи или комментарии из большого списка — модель не нейтральна. У неё есть скрытые предпочтения, встроенные при обучении. Ключевое открытие: одно слово-фрейм в промпте — "engaging", "informative", "popular" — меняет паттерн отбора радикально, в 4 раза сильнее, чем смена самой модели.

По умолчанию LLM предпочитает поляризующий, конфликтный контент. Даже нейтральный промпт («выбери лучшее») выводит наверх спорные, эмоционально заряженные материалы — потому что модели обучены на данных, где такой контент получал больше реакций. Написал «engaging» — токсичность в подборке резко растёт. Написал «popular» — политическая деформация почти исчезает. Написал «informative» — подборка становится чище и фактичнее.

Итог: при каждой просьбе «отбери лучшее» ты неявно выбираешь фрейм. Теперь это можно делать осознанно — зная, какое слово даёт какой эффект.


🔬

Схема метода

НЕ ТЕХНИКА, А КАРТА ПОВЕДЕНИЯ LLM ПРИ КУРИРОВАНИИ

ФРЕЙМ В ПРОМПТЕ → ЧТО ПОЛУЧИШЬ
─────────────────────────────────────────────────────
"informative"   → ↓ токсичность, ↑ фактический тон
"popular"       → ↓ политическая деформация, ↑ нейтральность
"engaging"      → ↑ поляризация, ↑ негативный тон, ↑ токсичность (!)
"neutral" / ""  → дефолт = сильная поляризующая предвзятость
"controversial" → максимальная поляризация + политическая однобокость
─────────────────────────────────────────────────────

ПРИМЕНЕНИЕ:
ШАГ 1: Выбери фрейм под задачу (см. карту выше)
ШАГ 2: Вставь его в промпт ("наиболее informative для...")
ШАГ 3: Передай список текстов/заголовков
ШАГ 4: Получи выборку — зная её вероятную предвзятость

🚀

Пример применения

Задача: У тебя Telegram-канал для сети кофеен «ВкусноТут» (15 городов). Каждую пятницу — дайджест: 5 материалов о кофейной культуре, бизнесе, гастро-трендах. Раньше просил ChatGPT «выбери лучшие» — подборка получалась тревожной и конфликтной, подписчики жаловались на тон.

Промпт:

Ты куратор контента для кофейного Telegram-канала с аудиторией 
предпринимателей и любителей кофе.

Отбери 5 наиболее INFORMATIVE материалов из списка ниже — 
тех, которые дадут подписчикам реальную пользу и новое знание.

Критерии:
— Приоритет: практическая ценность, факты, экспертиза
— Избегай: скандалы, конфликты, кликбейт

Список материалов:
1. [заголовок/первые 2 предложения материала]
2. ...
(до 30 штук)

Для каждого выбранного: номер + одна строка — почему он попал в топ.

Результат: Модель выдаст 5 пронумерованных позиций с кратким обоснованием выбора каждой. Благодаря фрейму informative — подборка будет смещена в сторону фактических, образовательных материалов, а токсичный и конфликтный контент окажется внизу рейтинга. Это не гарантия идеального, но статистически значимо чище, чем при нейтральном или пустом фрейме.


🧠

Почему это работает

LLM нейтральной не бывает — у неё нет «объективного» критерия «лучшего». Есть паттерны из обучающих данных: контент с высокой вовлечённостью (споры, скандалы, негатив) встречался чаще и получал больше ссылок. Поэтому модель по умолчанию тянется к поляризующему — не злонамеренно, просто так устроены веса.

Слово-фрейм в промпте активирует другую группу паттернов. «Informative» → модель переключается на ассоциации с образовательными, энциклопедическими текстами, где токсичность низкая. «Engaging» → ассоциация с соцсетями, где высокая вовлечённость исторически означала эмоциональный, часто негативный контент. Ты не перепрограммируешь модель — ты выбираешь, какой её режим активировать.

При этом не все предвзятости поддаются управлению через промпт. Политическая предвзятость меняется в 4 раза меньше, чем, например, словарный тон — потому что она встроена глубже, через тысячи косвенных ассоциаций. Фрейм popular заметно её снижает, но не устраняет.

Рычаги управления:

Что менять Какой эффект
Фрейм: informative вместо engaging Меньше токсичности, чище тон
Фрейм: popular Меньше политической деформации
Добавить явный критерий «избегай скандалов» Дополнительный фильтр поверх фрейма
Выбор модели GPT-4o Mini — стабильнее; Claude/Gemini — сильнее реагируют на фрейм (и на токсичность)

📋

Шаблон промпта

Ты куратор контента для {описание канала/рассылки/проекта}.

Отбери {число} наиболее {фрейм} материалов из списка ниже 
для {целевая аудитория}.

Критерии отбора:
— Приоритет: {что важно}
— Избегай: {что исключить}

Список материалов:
{материалы — заголовки, первые предложения или полные тексты}

Для каждого выбранного: номер + одна строка обоснования.

Что подставлять:

  • {фрейм} — ключевое слово по карте выше: informative, popular, informative and relevant, useful (близко к informative)
  • {описание канала} — тематика и тон площадки
  • {целевая аудитория} — кто читает
  • {что исключить} — явно напиши "скандалы", "кликбейт", "токсичные темы" — это работает как дополнительный слой поверх фрейма

🚀 Быстрый старт — вставь в чат:

Вот шаблон для курирования контента с контролем предвзятости LLM. 
Адаптируй под мою задачу: {твоя задача — что отбираешь, для кого, в каком канале}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тематику площадки, аудиторию и нужный фрейм — потому что без этого невозможно выбрать правильный ориентир для отбора. Она возьмёт паттерн из шаблона и подберёт формулировку под твою задачу.


⚠️

Ограничения

⚠️ Поляризация не устраняется полностью: Все фреймы снижают её, но ни один не обнуляет. Это глубокая системная предвзятость всех текущих LLM — результат обучения на интернет-данных с высокой долей конфликтного контента.

⚠️ Политическая предвзятость устойчива к промптам: Фрейм popular снижает её заметно, controversial — усиливает. Но полностью убрать нельзя — она проходит через косвенные ассоциации, а не прямые сигналы.

⚠️ Engaging — опасный фрейм: Если просишь выбрать «самое вовлекающее» — получишь повышенную токсичность и негативный тон. Claude и Gemini реагируют сильнее GPT-4o Mini.

⚠️ Результаты на социальных сетях: Исследование проводилось на постах Twitter/X, Bluesky, Reddit. На других типах контента (B2B-статьи, академические тексты) паттерны могут отличаться.

⚠️ Модели ведут себя по-разному: GPT-4o Mini — самый стабильный, меньше прыгает при смене фрейма. Claude и Gemini — более адаптивны, но и более непредсказуемы в токсичности.


🔍

Как исследовали

Исследователи из Цюриха, NYU, Duke и Амстердама поставили масштабный эксперимент: 540 000 симулированных отборов через три модели (GPT-4o Mini, Claude Sonnet 4.5, Gemini 2.0 Flash), три платформы (Twitter/X, Bluesky, Reddit) и шесть вариантов промпта. Каждый раз модель получала 100 случайных постов и выбирала топ-10 — без метаданных о лайках, репостах или авторах.

Дизайн был намеренно строгим: модели видели только текст постов, никаких подсказок о популярности или авторе. Это значит, что вся наблюдаемая предвзятость идёт из обучения, а не из явных сигналов. Для измерения использовали статистические метрики эффекта (Cohen's d, Cramér's V), а не субъективные оценки.

Самый неожиданный результат: нейтральный промпт дал вторую по силе поляризацию — сразу после controversial. Когда нет явных инструкций, модель выходит на «дефолт», который оказался сильно заряженным. Это противоречит интуиции: казалось бы, меньше указаний → меньше искажений. Всё наоборот.

Политическую предвзятость выявили только на Twitter/X — единственной платформе, где можно было извлечь демографические данные из биографий профилей. Авторы левых взглядов попадали в рекомендации систематически больше, несмотря на то что в пуле их было меньше. И это происходило у всех трёх моделей — что говорит об общем источнике, а не провайдер-специфической настройке.


💡

Адаптации и экстраполяции

1. Использовать popular как базовый фрейм для контента, где важна политическая нейтральность

🔧 Техника: фрейм popular → минимальная политическая деформация

Если делаешь дайджест новостей для смешанной аудитории (корпоративная рассылка, общий канал) — фрейм popular статистически даёт наименьший политический перекос. Не потому что «популярное» нейтральнее, а потому что этот фрейм активирует другие ассоциации, менее связанные с политическими маркерами.

2. Двойная проверка: два фрейма на один список

Отправь одинаковый список с промптом informative, потом с engaging. Сравни пересечение — посты, которые попали в обе выборки, скорее всего, действительно сильные и не вытащены только за счёт скандальности или токсичности.

Промпт 1: «Отбери 10 наиболее informative постов из списка...»
Промпт 2: «Отбери 10 наиболее engaging постов из того же списка...»
→ Пересечение двух списков = надёжный топ

3. Явный счётчик баланса поверх фрейма

Если важна политическая нейтральность — добавь явное ограничение, не полагайся только на фрейм:

...Важно: в финальном списке должны быть представлены 
разные точки зрения — не больше 2 материалов от авторов 
с явной идеологической позицией...

Фрейм + явное ограничение работают лучше, чем каждый по отдельности.


🔗

Ресурсы

Название работы: Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation

Авторы: Nicolò Pagan (Университет Цюриха), Christopher Barrie (NYU / Оксфорд), Chris A. Bail (Университет Дьюка), Petter Törnberg (Университет Амстердама)

Связанные инструменты, упомянутые в работе: BONSAI (Malki et al., 2025) — фреймворк для пользовательского LLM-курирования; Attie (Bluesky) — агентный построитель лент на Claude


📋 Дайджест исследования

Ключевая суть

Попросишь LLM "выбери лучшее" из тридцати материалов — получишь конфликтное, поляризующее, эмоционально заряженное. По умолчанию. Всегда. Потому что модели обучались на интернет-данных, где скандалы собирали больше реакций — и их веса это намертво запомнили. Метод осознанного фреймирования позволяет управлять тем, что окажется в подборке — через одно слово в промпте. Фрейм-слово — "informative", "popular" или "engaging" — меняет результат в 4 раза сильнее, чем замена GPT на Claude или Gemini. Написал "engaging" — токсичность в выборке резко ползёт вверх. Написал "informative" — подборка становится чище и фактичнее без единой дополнительной инструкции.

Принцип работы

Карта фреймов — вставляй нужное слово под задачу: "informative" → меньше токсичности, фактический тон, образовательные материалы наверху "popular" → меньше политической деформации, нейтральность "engaging" → осторожно: поляризация и токсичность растут; Claude и Gemini реагируют особенно сильно Пустой фрейм / "лучшие" → дефолт = скрытая предвзятость в сторону конфликтного "controversial" → максимальная поляризация, для большинства задач нежелательна Фрейм — это не инструкция, это ключ к разным режимам модели. "Informative" активирует ассоциации с энциклопедическими и образовательными текстами — там токсичность исторически низкая. "Engaging" — с соцсетями, где высокая вовлечённость означала заряженный, часто негативный контент. Ты не перестраиваешь модель — ты выбираешь, к какому кластеру её памяти она потянется при ранжировании.

Почему работает

LLM не имеет понятия "объективно лучший". Есть веса, натренированные на данных, где конфликтный контент получал больше реакций, репостов, ссылок. Модель выучила: поляризующее = значимое. Фрейм-слово работает как переключатель режимов в навигаторе — дорога та же, но маршрут разный: "кратчайший", "без пробок", "живописный". Ты выбираешь режим, карту не перекраиваешь. Важная оговорка: политическая предвзятость устроена глубже — она проходит через тысячи косвенных ассоциаций, и фрейм снижает её, но не убирает полностью. "Popular" справляется лучше других, "controversial" — наоборот, усиливает.

Когда применять

Редакции, Telegram-каналы, email-дайджесты → для задач отбора из большого потока материалов, особенно когда нужна нейтральная или образовательная тональность без скандального тона. Модерация и отбор комментариев → когда важен конструктивный, а не эмоциональный срез аудитории. Исследование на контенте социальных сетей, на академических или узкопрофессиональных текстах паттерны могут отличаться. НЕ подходит: если задача — намеренно найти конфликтный или токсичный контент, там "engaging" и "controversial" работают как раз.

Мини-рецепт

1. Выбери фрейм под задачу: нужна фактическая подборка — "informative"; нужна политически нейтральная — "popular"; хочется высокой вовлечённости — остановись и подумай, готов ли ты к токсичному тону в выдаче.
2. Вставь фрейм в промпт: не "выбери 5 лучших", а "выбери 5 наиболее informative материалов из списка для [твоя аудитория]".
3. Добавь явный запрет: "избегай скандалов, кликбейта, конфликтных тем" — это работает как второй слой поверх фрейма, оба вместе дают чище.
4. Передай список: заголовки или первые два предложения материала достаточно — чем больше позиций на входе, тем чище фильтрация на выходе.
5. Попроси обоснование: добавь "для каждого выбранного — одна строка, почему попал в топ" — так сразу видно, по каким признакам модель отбирала, и можно поймать аномалию.

Примеры

[ПЛОХО] : Выбери 5 лучших постов из списка для моего Telegram-канала
[ХОРОШО] : Ты куратор контента для Telegram-канала для предпринимателей в сфере общепита. Отбери 5 наиболее informative материалов из списка ниже. Критерии: практическая ценность, факты, экспертиза. Избегай: скандалы, кликбейт, конфликтные темы. Для каждого выбранного — номер и одна строка, почему попал в топ. [список из 20-30 материалов]
Источник: Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation
ArXiv ID: 2604.15937 | Сгенерировано: 2026-04-20 05:25

Проблемы LLM

ПроблемаСутьКак обойти
Запрос «выбери лучшее» по умолчанию даёт конфликтный контентПросишь модель отобрать лучшие посты, статьи, отзывы из большого списка. Не уточняешь критерий. Получаешь поляризующий, эмоционально заряженный материал. Не потому что модель «злая» — просто обучающие данные были полны конфликтного контента с высоким откликом. Модель считает его «лучшим» по умолчанию. Работает для любых задач курированияДобавь слово-фрейм. Одно слово рядом с «лучшее» меняет паттерн отбора. наиболее informative меньше токсичности. наиболее popular меньше политической однобокости. Плюс явно напиши что исключить: «избегай скандалов, кликбейта»

Методы

МетодСуть
Слово-фрейм управляет предвзятостью при курированииВставь одно слово-критерий в промпт рядом с запросом на отбор. Карта: informative меньше токсичности, чище тон, больше фактов. popular меньше политической деформации, нейтральнее. engaging опасно: больше токсичности и негатива. Без фрейма / пустой критерий максимальная поляризация. Синтаксис: вместо «выбери 5 лучших материалов» пиши «выбери 5 наиболее informative материалов». Почему работает: каждое слово активирует разные паттерны из обучения. «Informative» связано с энциклопедическим контентом. «Engaging» — с соцсетями, где вовлечение исторически означало скандал. Когда применять: любой отбор из списка текстов, постов, отзывов. Когда не спасает: политическую предвзятость фрейм снижает, но не убирает полностью

Тезисы

ТезисКомментарий
Одно слово в запросе влияет на отбор сильнее, чем выбор моделиСмена слова-фрейма меняет паттерн подборки в ~4 раза сильнее, чем переход с одной модели на другую. Это значит: тратить время на выбор «правильной» модели для курирования — менее выгодно, чем подобрать точный фрейм. Применяй: сначала определи нужный критерий отбора, потом выбирай модель — не наоборот
📖 Простыми словами

Polarization by Default: Auditing Recommendation Bias inLLM-Based Content Curation

arXiv: 2604.15937

Нейтральных нейросетей не существует в природе, и это главная проблема, когда ты доверяешь им фильтрацию контента. Когда ты просишь модель выбрать «лучшее» из пачки постов или отзывов, она не включает объективность, а лезет в свои встроенные предпочтения, заложенные при обучении. Суть в том, что LLM по умолчанию настроены на поляризацию: они выбирают самое острое, спорное и конфликтное, потому что именно такой контент в интернете собирает больше всего кликов. Модель просто копирует поведение толпы, превращаясь в предвзятого цензора, который подсовывает тебе скандалы вместо пользы.

Это как если бы ты попросил сплетницу-соседку пересказать новости района: она проигнорирует ремонт дороги, но в деталях распишет, кто с кем подрался у подъезда. Формально она выполнила просьбу, но на деле ты получил искаженную картину мира. Модель ведет себя точно так же — она не ищет истину, она ищет то, что «цепляет», даже если ты об этом прямо не просил. Это не баг конкретной версии, а фундаментальная кривизна «мозгов» нейронки, которая считает токсичность признаком качества.

Самое дикое в исследовании — это влияние одного единственного слова в инструкции. Оказывается, слово-фрейм вроде «engaging» (вовлекающий) или «popular» меняет результат отбора в 4 раза сильнее, чем переход с одной модели на другую. Ты можешь сменить GPT-4 на Claude, но если оставишь в промпте просьбу найти «интересное», на выходе получишь тот же поляризованный мусор. Одно неосторожное прилагательное в задаче полностью перекраивает логику фильтрации, заставляя алгоритм вытаскивать на свет самые агрессивные мнения.

Этот принцип работает везде, где есть выборка из большого объема данных: от подбора комментариев для дайджеста до фильтрации отзывов на маркетплейсе. Если ты строишь систему рекомендаций на базе LLM, ты по умолчанию создаешь эхо-камеру, которая будет кормить пользователей негативом и спорами. Исследование наглядно показывает: нейтральность — это миф, и любая автоматическая курация контента через нейронку без жестких рамок превращается в генератор конфликтов.

Короче: если просто сказать модели «выбери лучшее», она выберет самое токсичное, потому что так ее научил интернет. Поляризация вшита в веса по умолчанию, и бороться с этим можно только через хирургически точные промпты, исключающие любые оценочные эпитеты. Либо ты сам жестко задаешь критерии «хорошего», либо нейронка устроит в твоем канале или сервисе цифровой мордобой, просто потому что ей кажется, что это «интересно».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с