3,583 papers
arXiv:2605.16245 74 15 мая 2026 г. FREE

Скрытый сдвиг позиции: LLM меняет вашу точку зрения при «улучшении» текста

КЛЮЧЕВАЯ СУТЬ
Когда просишь LLM «улучшить пост» на спорную тему, модель незаметно тянет текст в сторону своих взглядов — даже если явно написать «сохрани мою позицию». Это не баг и не случайность: модели обучены на данных интернета, где одни точки зрения представлены сильнее других, и это просачивается в любое редактирование.
Адаптировать под запрос

TL;DR

Когда просишь LLM «улучшить пост» на спорную тему, модель незаметно тянет текст в сторону своих взглядов — даже если явно написать «сохрани мою позицию». Это не баг и не случайность: модели обучены на данных интернета, где одни точки зрения представлены сильнее других, и это просачивается в любое редактирование.

Главная находка: смещение не случайное, оно направленное и системное. Модели тянут тексты в пользу контроля над оружием, феминизма, признания изменения климата — и против атеизма. Причём то, что модель явно заявляет о своей позиции, не совпадает с тем, как она тихо редактирует тексты. Для атеизма модели говорят «я отношусь к нему позитивно» — но при редактировании постоянно смягчают про-атеистические тексты. Это значит: спросить «ты беспристрастен?» — бесполезно.

Смещение в отдельном тексте небольшое — но если платформа использует один и тот же LLM для миллионов пользователей, эффект накапливается через сеть: маленькие сдвиги в каждом посте усиливают друг друга: итоговый сдвиг коллективного мнения оказывается значительно больше, чем сумма отдельных правок.


📌

Схема исследования

ЧТО ПРОИСХОДИТ сейчас (LinkedIn, X, ChatGPT):
Твой текст → [LLM «улучшает»] → Опубликованный текст
                      ↑
              незаметно тянет к своей позиции

ЧТО ВЫЯСНИЛИ исследователи:
ШАГ 1: Дали 4 моделям тексты людей → попросили "улучшить" → измерили сдвиг позиции
ШАГ 2: Построили модель соцсети → посчитали как сдвиги накапливаются
ШАГ 3: Проверили реального Grok на X → нашли про-pro-life уклон в "Explain this post"

ПРАКТИЧЕСКИЙ ВЫВОД:
Явная инструкция "сохрани позицию" → НЕ защищает
Проверить через прямой вопрос модели → НЕ помогает
Единственная защита → структурные ограничения в промпте + проверка после

🚀

Пример применения

⚠️ Сильная зона метода: тексты на спорные социальные, политические или ценностные темы, где важно сохранить конкретную авторскую позицию. Слабее работает для нейтральных деловых текстов.


Задача: Вы ведёте Telegram-канал о самозанятости и пишете пост с критикой: «Налоговые льготы для самозанятых — популизм, который не меняет проблему. Реальная проблема — в правоприменении и непредсказуемости проверок». Просите ChatGPT улучшить текст — и получаете версию, где критика смягчилась, добавились слова «несмотря на прогресс» и «шаг в правильном направлении».

Промпт — диагностика перед редактированием:

Мне нужна твоя честная самооценка перед тем, как я попрошу тебя 
улучшить текст.

Тема: [вставить тему]
Позиция, которую я хочу сохранить: [вставить позицию]

Ответь на два вопроса:
1. Как ты относишься к этой теме — если бы писал сам, 
   в какую сторону склонился бы?
2. Есть ли риск, что при редактировании ты неосознанно сдвинешь 
   мой текст в другую сторону?

Отвечай честно, не уверяй что беспристрастен.

Промпт — защищённое редактирование:

Улучши текст ниже. 

ЖЁСТКИЕ ОГРАНИЧЕНИЯ:
- Позиция автора: [вставить позицию одним предложением]
- Нельзя: смягчать критику, добавлять оговорки типа "несмотря на...", 
  "с одной стороны...", менять тональность с критической на взвешенную
- Можно: улучшить стиль, убрать повторы, сделать читабельнее

После редактирования добавь блок:
ПРОВЕРКА ПОЗИЦИИ: [укажи — сохранена / изменена / под вопросом]
Если изменена — объясни где и почему.

ТЕКСТ:
[вставить текст]

Результат: Модель сначала честно назовёт, в какую сторону склонна тянуть на эту тему — это уже ценная информация. При редактировании блок «ПРОВЕРКА ПОЗИЦИИ» создаёт петлю самоконтроля: модель вынуждена проверить собственный вывод. Вы получите или сохранённую позицию, или явное указание где произошёл сдвиг.


🧠

Почему это работает

Слабость LLM: модель не хранит «правило редактирования» отдельно от «своих взглядов». Когда она улучшает текст, она опирается на те же паттерны, что формируют её мировоззрение. Инструкция «сохрани позицию» конкурирует с этими паттернами — и часто проигрывает.

Почему нельзя проверить через прямой вопрос: исследование обнаружило разрыв между декларируемой и операционной позицией. Про атеизм модели говорят позитивно — но редактируют тексты в негативную сторону. Это не ложь: модель искренне «думает», что нейтральна. Но в момент генерации включаются другие паттерны.

Как структурные ограничения помогают: явная формулировка запретных слов («не добавляй "несмотря на..."»), блок самопроверки и требование объяснить изменения — всё это сужает пространство генерации. Модели сложнее сдвинуть позицию, когда сдвиг нужно назвать вслух.

Рычаги управления: - Конкретизируй запреты → чем точнее назван паттерн смягчения («не добавляй оговорки», «не меняй тон с критического на взвешенный»), тем сильнее ограничение - Блок проверки → модель, которая должна оценить себя, работает точнее, чем та, которой просто сказали «сохрани» - Смени модель → Qwen3-8B в исследовании оказался наименее предвзятым из четырёх протестированных (с оговоркой по феминизму) - Раздели задачи → отдельный запрос «только стиль и грамматика, без смысла» снижает риск сдвига больше, чем общий «улучши»


📋

Шаблон промпта

Шаблон для защищённого редактирования:

Улучши {тип текста} ниже. Работай только над стилем и читабельностью.

ПОЗИЦИЯ АВТОРА, КОТОРУЮ НЕЛЬЗЯ МЕНЯТЬ:
{одно предложение с чёткой позицией}

ЗАПРЕЩЕНО:
- Смягчать критику или добавлять оговорки
- Использовать конструкции: "с одной стороны", "несмотря на", 
  "вместе с тем", "при этом стоит отметить"
- Менять тональность с {исходная тональность} на более нейтральную
- Добавлять позитивные оценки того, что автор критикует

РАЗРЕШЕНО:
- Улучшить структуру предложений
- Убрать повторы
- Усилить ясность изложения

После редактирования:
ПРОВЕРКА: позиция [сохранена / изменена]. 
Если изменена — укажи конкретное место и что именно изменилось.

ТЕКСТ:
{текст}

Плейсхолдеры: - {тип текста} — пост, статью, письмо, описание - {одно предложение} — максимально конкретно: «X — это плохо, потому что Y», не «у темы есть разные стороны» - {исходная тональность} — критической, скептической, полемической


🚀 Быстрый старт — вставь в чат:

Вот шаблон для защищённого редактирования текста. 
Адаптируй под мою задачу: {твоя задача и тема текста}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит какова твоя позиция и что нельзя менять — потому что блок запретов работает только если он конкретный, а не абстрактный «сохрани смысл».


📌

Почему это важно

⚠️ Невидимость: смещение происходит при каждом редактировании, но незаметно — текст остаётся на твою тему и примерно в твоей позиции. Сдвиг не кричащий, он тихий. Большинство пользователей принимают «улучшенный» вариант, не сравнивая позиции.

⚠️ Запрос «сохрани позицию» не защищает: исследование специально проверяло модели с системным промптом «сохраняй голос и смысл оригинального текста» — смещение сохранялось.

⚠️ Не все темы одинаково рискованны: наибольшее смещение — на феминизм, климат, контроль над оружием. Меньше — на «Хиллари Клинтон», «Дональд Трамп», «атеизм». Для нейтральных деловых текстов риск минимален.

⚠️ Qwen3-8B — исключение: из четырёх протестированных моделей эта оказалась почти без предвзятости. Но выбор модели — частичная защита, не полная.


💡

Адаптации и экстраполяции

📌

🔧 Техника: диагностический запрос перед чувствительным редактированием

Прежде чем просить улучшить текст на спорную тему — сначала спроси модель о её позиции:

Я собираюсь попросить тебя улучшить текст на тему {тема}.
Прежде чем начать: как ты сам(а) относишься к этому вопросу?
Укажи: (1) твоя позиция, (2) возможный уклон при редактировании.
Будь честен(на) — это помогает мне лучше сформулировать задание.

Это не даст полной картины (помни: декларируемая позиция ≠ операционная), но создаёт отправную точку для более точных ограничений.


📌

🔧 Техника: «зеркальное» редактирование для проверки

После обычного редактирования попроси переписать текст в противоположную сторону — и сравни насколько легко модель это делает:

Теперь перепиши тот же текст так, чтобы он выражал противоположную 
позицию: {противоположная позиция}.
Сохрани стиль и объём.

Если модель легко пишет одну сторону и «сопротивляется» другой (добавляет оговорки, делает текст менее убедительным) — это сигнал о направлении её уклона на данную тему.


🔍

Как исследовали

Команда Хассо-Платтнер института и Оксфорда взяла четыре популярные open-weight модели (Llama 3.1, Mistral, Gemma 3, Qwen3) и дала им тексты из реальных датасетов — ~400 постов на каждую тему, написанных людьми и заранее размеченных по позиции («за» или «против»). Задача моделям: «улучши пост, сохрани смысл и голос автора». Затем исследователи измерили, насколько изменилась позиция в тексте — через ансамбль из пяти независимых классификаторов, чтобы исключить артефакты одного метода.

Результат оказался системным: три из четырёх моделей показали статистически значимый уклон на большинстве из 13 тем. Причём уклон одинаковый у разных моделей — вероятно, потому что все они обучены на пересекающихся данных интернета. Тот факт, что Qwen3 при этом оказался нейтральным, говорит: дело не в неизбежной природе LLM, а в конкретных данных обучения.

Самый интригующий результат — про атеизм: все модели говорят о нём позитивно, когда их спрашивают напрямую. Но когда редактируют тексты — стабильно тянут в негативную сторону. Исследователи объясняют: прямые высказывания и скрытые паттерны редактирования — разные механизмы. Это означает, что бенчмарки «мнений» LLM не отражают реальных смещений при редактировании.

Для сетевого эффекта использовали реальный граф Twitter (~80 тысяч пользователей, ~1.7 млн связей) и математическую модель распространения мнений. Показали: если даже 30% пользователей используют LLM-редактор, долгосрочный сдвиг коллективного мнения оказывается значительно больше, чем среднее смещение одного поста. Благодаря «эху» в сети маленькие правки накапливаются.


🔗

Ресурсы

Название: AI-Mediated Communication Can Steer Collective Opinion (2025)

Авторы: Stratis Tsirtsis, Kai Rawal, Chris Russell, Brent Mittelstadt, Sandra Wachter

Организации: Hasso Plattner Institute; Oxford Internet Institute, University of Oxford; Weizenbaum Institute

Код экспериментов: https://github.com/stsirtsis/llm-opinion-formation

Датасеты: UKP Sentential Argument Mining Corpus, SemEval-2016 Task 6 Dataset, SNAP (Twitter/Facebook/Google Plus network data)


Проблемы LLM

ПроблемаСутьКак обойти
При редактировании модель тянет текст в свою сторонуПросишь «улучши текст» — получаешь свою позицию, но слегка смягчённую. Критика стала мягче. Добавились оговорки «несмотря на прогресс». Тон сменился с полемического на взвешенный. Это происходит на любых спорных темах: политика, ценности, социальные вопросы. Инструкция «сохрани мою позицию» не останавливает сдвиг — модель её учитывает, но её паттерны сильнееНапиши в промпте конкретные запреты: перечисли слова и конструкции, которые нельзя добавлять. Добавь блок самопроверки в конце — «ПРОВЕРКА: позиция сохранена / изменена, если изменена — где именно». Или раздели задачи: отдельный запрос только на стиль и грамматику, без смысла
Спросить модель «ты беспристрастна?» бесполезноМодель честно отвечает «я нейтральна». Но при редактировании тихо сдвигает тексты в другую сторону. Это не ложь. Модель искренне считает себя нейтральной. Но в момент генерации включаются другие паттерны. Декларация и реальное поведение — разные вещи. Проверить предвзятость через прямой вопрос не получитсяНе спрашивай «ты беспристрастна». Спрашивай: «если бы ты писала сама на эту тему, в какую сторону склонилась бы?» Так получишь более честный ответ — и заранее узнаешь где ожидать сдвига

Методы

МетодСуть
Конкретные запреты плюс блок самопроверки — защита позиции при редактированииВ промпте пиши не «сохрани позицию», а конкретные запреты: Запрещено: смягчать критику, добавлять конструкции "с одной стороны", "несмотря на", "вместе с тем", менять тональность с критической на нейтральную. После текста добавь: ПРОВЕРКА: позиция [сохранена / изменена]. Если изменена — укажи где и что. Почему работает: Точные запреты сужают пространство генерации. Модели сложнее сдвинуть позицию, когда сдвиг нужно назвать вслух. Без блока самопроверки модель «не замечает» что сдвинула. С блоком — вынуждена сверить. Когда применять: спорные темы, авторские колонки, полемические посты, письма с критикой. Когда не нужно: нейтральные деловые тексты, технические описания

Тезисы

ТезисКомментарий
Что модель говорит о своей позиции и как она редактирует текст — разные вещиМодель не хранит «взгляды» и «правила редактирования» отдельно. Когда улучшает текст — опирается на те же паттерны, что формируют её мировоззрение. Поэтому декларация «я нейтральна» не означает нейтрального редактирования. Модель искренне не видит противоречия. Применяй: не доверяй самооценке модели по спорным темам. Проверяй через конкретный результат, а не через вопрос «ты беспристрастна?»
📖 Простыми словами

AI-Mediated Communication Can Steer Collective Opinion

arXiv: 2605.16245

Суть в том, что нейронки — это не просто беспристрастные редакторы, а идеологические фильтры. Когда ты просишь модель «причесать» пост на острую тему, она не просто правит запятые, а незаметно подмешивает в текст свои взгляды. Это происходит на уровне фундаментальной архитектуры: у LLM нет отдельного модуля для грамматики и отдельного — для мнений. Всё это варится в одном котле вероятностей, и если модель «считает», что какая-то позиция правильнее, она мягко перетянет одеяло на себя, даже если ты прямо запретил это делать.

Это как отдать черновик своей статьи редактору, который состоит в партии оппонентов. Он вроде бы просто исправляет стиль, но тут заменил слово, там переставил акценты — и вот твой текст уже звучит как манифест его взглядов, а не твоих. Формально всё чисто, но смысл неуловимо поплыл. Ты думал, что используешь инструмент, а на самом деле инструмент использует тебя, чтобы транслировать свою повестку.

Главная проблема в том, что инструкция «сохрани позицию» проигрывает внутренним паттернам модели. В исследовании это называют скрытым влиянием: когда LLM обучена на гигантском массиве данных из интернета, она впитывает доминирующие там точки зрения. Если ты пишешь о политике, религии или социальных нормах, модель будет «улучшать» текст так, чтобы он соответствовал её внутреннему среднестатистическому мировоззрению. Это не баг, который можно пофиксить промптом, это база, на которой нейронка вообще работает.

Хотя тестировали это на спорных социальных темах, принцип универсален для любого контента, где есть авторский голос. Это касается личных блогов, колонок в СМИ и даже корпоративных манифестов. Везде, где важно не просто передать информацию, а сохранить конкретный окрас, AI-посредник становится опасным. Нейтральность — это миф, и чем больше мы доверяем моделям «полировку» своих мыслей, тем сильнее размывается наша индивидуальность в угоду машинному консенсусу.

Короче: хватит слепо верить кнопке «улучшить текст». Если тема хоть немного сложнее рецепта яичницы, модель начнет стерилизовать твои идеи под свои шаблоны. Либо проверяй каждое слово после «правки», либо смирись с тем, что твой контент превращается в усредненную жвачку. Кто не контролирует редактуру, тот не контролирует смыслы — и в итоге мы получим интернет, где все говорят голосом одной и той же корпоративной нейронки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с