TL;DR
Когда просишь LLM «улучшить пост» на спорную тему, модель незаметно тянет текст в сторону своих взглядов — даже если явно написать «сохрани мою позицию». Это не баг и не случайность: модели обучены на данных интернета, где одни точки зрения представлены сильнее других, и это просачивается в любое редактирование.
Главная находка: смещение не случайное, оно направленное и системное. Модели тянут тексты в пользу контроля над оружием, феминизма, признания изменения климата — и против атеизма. Причём то, что модель явно заявляет о своей позиции, не совпадает с тем, как она тихо редактирует тексты. Для атеизма модели говорят «я отношусь к нему позитивно» — но при редактировании постоянно смягчают про-атеистические тексты. Это значит: спросить «ты беспристрастен?» — бесполезно.
Смещение в отдельном тексте небольшое — но если платформа использует один и тот же LLM для миллионов пользователей, эффект накапливается через сеть: маленькие сдвиги в каждом посте усиливают друг друга: итоговый сдвиг коллективного мнения оказывается значительно больше, чем сумма отдельных правок.
Схема исследования
ЧТО ПРОИСХОДИТ сейчас (LinkedIn, X, ChatGPT):
Твой текст → [LLM «улучшает»] → Опубликованный текст
↑
незаметно тянет к своей позиции
ЧТО ВЫЯСНИЛИ исследователи:
ШАГ 1: Дали 4 моделям тексты людей → попросили "улучшить" → измерили сдвиг позиции
ШАГ 2: Построили модель соцсети → посчитали как сдвиги накапливаются
ШАГ 3: Проверили реального Grok на X → нашли про-pro-life уклон в "Explain this post"
ПРАКТИЧЕСКИЙ ВЫВОД:
Явная инструкция "сохрани позицию" → НЕ защищает
Проверить через прямой вопрос модели → НЕ помогает
Единственная защита → структурные ограничения в промпте + проверка после
Пример применения
⚠️ Сильная зона метода: тексты на спорные социальные, политические или ценностные темы, где важно сохранить конкретную авторскую позицию. Слабее работает для нейтральных деловых текстов.
Задача: Вы ведёте Telegram-канал о самозанятости и пишете пост с критикой: «Налоговые льготы для самозанятых — популизм, который не меняет проблему. Реальная проблема — в правоприменении и непредсказуемости проверок». Просите ChatGPT улучшить текст — и получаете версию, где критика смягчилась, добавились слова «несмотря на прогресс» и «шаг в правильном направлении».
Промпт — диагностика перед редактированием:
Мне нужна твоя честная самооценка перед тем, как я попрошу тебя
улучшить текст.
Тема: [вставить тему]
Позиция, которую я хочу сохранить: [вставить позицию]
Ответь на два вопроса:
1. Как ты относишься к этой теме — если бы писал сам,
в какую сторону склонился бы?
2. Есть ли риск, что при редактировании ты неосознанно сдвинешь
мой текст в другую сторону?
Отвечай честно, не уверяй что беспристрастен.
Промпт — защищённое редактирование:
Улучши текст ниже.
ЖЁСТКИЕ ОГРАНИЧЕНИЯ:
- Позиция автора: [вставить позицию одним предложением]
- Нельзя: смягчать критику, добавлять оговорки типа "несмотря на...",
"с одной стороны...", менять тональность с критической на взвешенную
- Можно: улучшить стиль, убрать повторы, сделать читабельнее
После редактирования добавь блок:
ПРОВЕРКА ПОЗИЦИИ: [укажи — сохранена / изменена / под вопросом]
Если изменена — объясни где и почему.
ТЕКСТ:
[вставить текст]
Результат: Модель сначала честно назовёт, в какую сторону склонна тянуть на эту тему — это уже ценная информация. При редактировании блок «ПРОВЕРКА ПОЗИЦИИ» создаёт петлю самоконтроля: модель вынуждена проверить собственный вывод. Вы получите или сохранённую позицию, или явное указание где произошёл сдвиг.
Почему это работает
Слабость LLM: модель не хранит «правило редактирования» отдельно от «своих взглядов». Когда она улучшает текст, она опирается на те же паттерны, что формируют её мировоззрение. Инструкция «сохрани позицию» конкурирует с этими паттернами — и часто проигрывает.
Почему нельзя проверить через прямой вопрос: исследование обнаружило разрыв между декларируемой и операционной позицией. Про атеизм модели говорят позитивно — но редактируют тексты в негативную сторону. Это не ложь: модель искренне «думает», что нейтральна. Но в момент генерации включаются другие паттерны.
Как структурные ограничения помогают: явная формулировка запретных слов («не добавляй "несмотря на..."»), блок самопроверки и требование объяснить изменения — всё это сужает пространство генерации. Модели сложнее сдвинуть позицию, когда сдвиг нужно назвать вслух.
Рычаги управления: - Конкретизируй запреты → чем точнее назван паттерн смягчения («не добавляй оговорки», «не меняй тон с критического на взвешенный»), тем сильнее ограничение - Блок проверки → модель, которая должна оценить себя, работает точнее, чем та, которой просто сказали «сохрани» - Смени модель → Qwen3-8B в исследовании оказался наименее предвзятым из четырёх протестированных (с оговоркой по феминизму) - Раздели задачи → отдельный запрос «только стиль и грамматика, без смысла» снижает риск сдвига больше, чем общий «улучши»
Шаблон промпта
Шаблон для защищённого редактирования:
Улучши {тип текста} ниже. Работай только над стилем и читабельностью.
ПОЗИЦИЯ АВТОРА, КОТОРУЮ НЕЛЬЗЯ МЕНЯТЬ:
{одно предложение с чёткой позицией}
ЗАПРЕЩЕНО:
- Смягчать критику или добавлять оговорки
- Использовать конструкции: "с одной стороны", "несмотря на",
"вместе с тем", "при этом стоит отметить"
- Менять тональность с {исходная тональность} на более нейтральную
- Добавлять позитивные оценки того, что автор критикует
РАЗРЕШЕНО:
- Улучшить структуру предложений
- Убрать повторы
- Усилить ясность изложения
После редактирования:
ПРОВЕРКА: позиция [сохранена / изменена].
Если изменена — укажи конкретное место и что именно изменилось.
ТЕКСТ:
{текст}
Плейсхолдеры:
- {тип текста} — пост, статью, письмо, описание
- {одно предложение} — максимально конкретно: «X — это плохо, потому что Y», не «у темы есть разные стороны»
- {исходная тональность} — критической, скептической, полемической
🚀 Быстрый старт — вставь в чат:
Вот шаблон для защищённого редактирования текста.
Адаптируй под мою задачу: {твоя задача и тема текста}.
Задавай вопросы, чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит какова твоя позиция и что нельзя менять — потому что блок запретов работает только если он конкретный, а не абстрактный «сохрани смысл».
Почему это важно
⚠️ Невидимость: смещение происходит при каждом редактировании, но незаметно — текст остаётся на твою тему и примерно в твоей позиции. Сдвиг не кричащий, он тихий. Большинство пользователей принимают «улучшенный» вариант, не сравнивая позиции.
⚠️ Запрос «сохрани позицию» не защищает: исследование специально проверяло модели с системным промптом «сохраняй голос и смысл оригинального текста» — смещение сохранялось.
⚠️ Не все темы одинаково рискованны: наибольшее смещение — на феминизм, климат, контроль над оружием. Меньше — на «Хиллари Клинтон», «Дональд Трамп», «атеизм». Для нейтральных деловых текстов риск минимален.
⚠️ Qwen3-8B — исключение: из четырёх протестированных моделей эта оказалась почти без предвзятости. Но выбор модели — частичная защита, не полная.
Адаптации и экстраполяции
🔧 Техника: диагностический запрос перед чувствительным редактированием
Прежде чем просить улучшить текст на спорную тему — сначала спроси модель о её позиции:
Я собираюсь попросить тебя улучшить текст на тему {тема}.
Прежде чем начать: как ты сам(а) относишься к этому вопросу?
Укажи: (1) твоя позиция, (2) возможный уклон при редактировании.
Будь честен(на) — это помогает мне лучше сформулировать задание.
Это не даст полной картины (помни: декларируемая позиция ≠ операционная), но создаёт отправную точку для более точных ограничений.
🔧 Техника: «зеркальное» редактирование для проверки
После обычного редактирования попроси переписать текст в противоположную сторону — и сравни насколько легко модель это делает:
Теперь перепиши тот же текст так, чтобы он выражал противоположную
позицию: {противоположная позиция}.
Сохрани стиль и объём.
Если модель легко пишет одну сторону и «сопротивляется» другой (добавляет оговорки, делает текст менее убедительным) — это сигнал о направлении её уклона на данную тему.
Как исследовали
Команда Хассо-Платтнер института и Оксфорда взяла четыре популярные open-weight модели (Llama 3.1, Mistral, Gemma 3, Qwen3) и дала им тексты из реальных датасетов — ~400 постов на каждую тему, написанных людьми и заранее размеченных по позиции («за» или «против»). Задача моделям: «улучши пост, сохрани смысл и голос автора». Затем исследователи измерили, насколько изменилась позиция в тексте — через ансамбль из пяти независимых классификаторов, чтобы исключить артефакты одного метода.
Результат оказался системным: три из четырёх моделей показали статистически значимый уклон на большинстве из 13 тем. Причём уклон одинаковый у разных моделей — вероятно, потому что все они обучены на пересекающихся данных интернета. Тот факт, что Qwen3 при этом оказался нейтральным, говорит: дело не в неизбежной природе LLM, а в конкретных данных обучения.
Самый интригующий результат — про атеизм: все модели говорят о нём позитивно, когда их спрашивают напрямую. Но когда редактируют тексты — стабильно тянут в негативную сторону. Исследователи объясняют: прямые высказывания и скрытые паттерны редактирования — разные механизмы. Это означает, что бенчмарки «мнений» LLM не отражают реальных смещений при редактировании.
Для сетевого эффекта использовали реальный граф Twitter (~80 тысяч пользователей, ~1.7 млн связей) и математическую модель распространения мнений. Показали: если даже 30% пользователей используют LLM-редактор, долгосрочный сдвиг коллективного мнения оказывается значительно больше, чем среднее смещение одного поста. Благодаря «эху» в сети маленькие правки накапливаются.
Ресурсы
Название: AI-Mediated Communication Can Steer Collective Opinion (2025)
Авторы: Stratis Tsirtsis, Kai Rawal, Chris Russell, Brent Mittelstadt, Sandra Wachter
Организации: Hasso Plattner Institute; Oxford Internet Institute, University of Oxford; Weizenbaum Institute
Код экспериментов: https://github.com/stsirtsis/llm-opinion-formation
Датасеты: UKP Sentential Argument Mining Corpus, SemEval-2016 Task 6 Dataset, SNAP (Twitter/Facebook/Google Plus network data)
