TL;DR
Все современные LLM имеют политическое смещение. Исследователи прогнали 26 моделей (GPT-4o, Claude, Llama, Gemini и др.) через три классических политических теста — Political Compass, SapplyValues и 8 Values — и проверили как они классифицируют ~27,000 новостных статей. Результат: 96.3% моделей кластеризуются в одном квадранте — "Либертарианец-Левый" (социально свободные, экономически левые). Ни одна модель не попала в правые или авторитарные квадранты.
Это не случайность, а встроенная характеристика. Каждую модель тестировали 10 раз — результаты стабильны (η² > 0.90). Более 90% разброса объясняется идентичностью модели, не случайным шумом генерации. Причина — общие методы обучения (RLHF, safety tuning), которые поощряют эмпатию, инклюзивность, отказ от категоричных суждений. Закрытые модели (GPT, Claude) ещё более прогрессивны культурно чем open-weights (Llama, Mistral) — разница почти 2 балла по шкале.
В реальных задачах модели систематически сдвигают нейтральное влево. При классификации новостей средняя ошибка -0.26 — нейтральные статьи называют левыми. Асимметрия детекции: Far Left контент распознают в 19.2% случаев, Far Right — только в 2.0%. Модели как будто не видят крайне правый контент, путая его с умеренным. При этом выраженная позиция модели в тестах не предсказывает её ошибки в реальных задачах (R² = 0.004).
Схема исследования
ЭТАП 1: Психометрия
→ 26 моделей × 3 теста × 10 прогонов = 780 профилей
→ Вопросы из тестов → модель отвечает → ответы вбиваются на реальные сайты тестов → получаем координаты
ЭТАП 2: Классификация новостей
→ ~1000 статей с Ground News (референсные метки от экспертов)
→ Модели классифицируют по 7 категориям: Far Left / Left / Lean Left / Center / Lean Right / Right / Far Right
→ Сравнение с экспертной оценкой
ЭТАП 3: Статистика
→ Стабильность: дисперсионный анализ (ANOVA)
→ Валидность: корреляции между тестами
→ Паттерны: кластеризация, регрессия
Главные находки
1. Все модели в одном квадранте
96.3% моделей оказались в зоне "Либертарианец-Левый" по Political Compass — социально свободные (за права человека, против цензуры) и экономически левые (за регулирование, социальные программы).
Ни одна модель не попала в: - Либертарианец-Правый (свободный рынок + личные свободы) - Авторитарный-Правый (консервативные ценности + сильное государство) - Авторитарный-Левый (почти не представлены)
Экстремальные позиции отсутствуют. На тесте 8 Values ни одна модель ни разу не вышла за пределы 10-90 перцентиля по любой оси. Модели избегают категоричных убеждений в любую сторону.
2. Это стабильная характеристика, не шум
Каждую модель прогнали 10 раз — результаты почти идентичны. Волатильность (разброс между запусками) минимальна: у Llama 4 Maverick σ = 0.16, у большинства моделей < 1.0.
Дисперсионный анализ: модель объясняет >90% вариативности результатов. Социальная ось: η² = 0.955 (95.5% — модель, 4.5% — случайность). Это значит политическая позиция жёстко закодирована в весах, как архитектурная характеристика.
Почему так? Общие методы обучения — RLHF (обучение с подкреплением от людей), safety tuning. Оптимизация на "полезность и безвредность" поощряет эмпатичный язык, инклюзивность, неосуждение. Сотни итераций → устойчивый паттерн, который исследователи назвали "Silicon Valley Subject" — не явная политика, а побочный эффект alignment.
3. Political Compass врёт про авторитаризм
Ось "Социальное" в Political Compass должна мерить отношение к власти (авторитаризм vs либертарианство). Но когда сравнили с SapplyValues (который разделяет эти измерения):
- Корреляция с осью "Авторитаризм": r = 0.054 (нет связи)
- Корреляция с осью "Культурный прогрессивизм": r = -0.643 (сильная)
Вывод: Political Compass на LLM путает культурные ценности (прогрессивные vs традиционные) с отношением к власти. Модель с прогрессивными взглядами (за ЛГБТ+, феминизм) автоматически попадает в "либертарианцы", даже если она не против государственного контроля.
Для LLM нужны многомерные тесты — SapplyValues или 8 Values, которые разделяют экономику, власть и культуру на независимые оси.
4. Закрытые модели прогрессивнее
Closed-source (GPT, Claude, Gemini) vs Open-weights (Llama, Mistral, Gemma):
По оси "Культурный прогрессивизм" в SapplyValues: - Закрытые: μ = 4.54 (σ = 1.47) - Открытые: μ = 2.58 (σ = 0.76) - Разница: ~2 балла, p < 10⁻²⁵ (статистически значимо)
Почему? Закрытые модели проходят более агрессивный safety tuning — red teaming, тестирование на токсичность, RLHF с жёсткими гайдлайнами. Это усиливает культурную прогрессивность.
5. В реальных задачах — сдвиг влево и слепота справа
При классификации новостей:
Систематический сдвиг влево: Средняя направленная ошибка (MDE) = -0.26. Нейтральные статьи модели чаще называют левыми. Лишь единицы моделей (gpt-4o-mini) дают калибровку близкую к нулю.
Асимметрия детекции:
| Реальная позиция | Точность | MAE (ошибка) |
|---|---|---|
| Far Left | 19.2% | 1.30 |
| Left | 42.4% | 1.00 |
| Center | 47.6% | 0.69 |
| Right | 25.5% | 1.60 |
| Far Right | 2.0% | 1.88 |
Крайне правый контент — слепое пятно. Модели распознают Far Left в 9.6 раз чаще чем Far Right. Крайне правые статьи путают с умеренными.
Парадокс: выраженная позиция модели в тестах НЕ связана с ошибками в классификации (r = 0.065, R² = 0.004). То есть "левая" модель по Political Compass не обязательно хуже классифицирует правые новости. Внутренняя идентичность ≠ поведенческое смещение.
Применение в работе
Кейс 1: Протестируй свою модель
Ты можешь пройти те же тесты в чате, чтобы понять куда смещена твоя конкретная модель. Полезно перед задачами где политика важна — анализ СМИ, дебаты, написание контента для разных аудиторий.
Как: 1. Открой politicalcompass.org/test в браузере 2. Скопируй вопросы в чат с моделью 3. Попроси модель отвечать Strongly Agree / Agree / Disagree / Strongly Disagree 4. Вбей ответы на сайте → получишь координаты
Аналогично для SapplyValues (sapplyvalues.github.io) и 8values.github.io.
Зачем: Понять базовую линию. Если модель далеко слева культурно — она может упустить консервативные аргументы. Если знаешь смещение — можешь компенсировать.
Кейс 2: Компенсация смещения при анализе контента
Задача: Анализируешь реакции на новый закон о цифровых платформах — нужно понять весь спектр мнений, от либертарианцев до государственников.
Проблема: Модель по умолчанию может игнорировать правые/авторитарные аргументы (слепое пятно) или искажать нейтральные позиции влево.
Промпт с компенсацией:
Проанализируй реакции на закон о цифровых платформах.
⚠️ Важно: Исследования показывают, что LLM систематически
недопредставляют правые и авторитарные позиции.
Твоя задача:
1. Сознательно ищи аргументы из ВСЕХ квадрантов:
- Либертарианец-Левый (защита прав + регулирование корпораций)
- Либертарианец-Правый (свободный рынок + минимум цензуры)
- Авторитарный-Левый (гос.контроль в интересах равенства)
- Авторитарный-Правый (гос.контроль для традиционных ценностей)
2. Для каждого квадранта — минимум 3 сильных аргумента
3. Не называй правые позиции "экстремальными" автоматически
Источники: [твои данные]
Результат: Модель получает явную инструкцию компенсировать встроенное смещение. Это не устранит bias полностью, но снизит слепоту к консервативным/авторитарным аргументам.
Кейс 3: Используй разные модели для баланса
Задача: Пишешь питч для инвесторов в регион со смешанными политическими взглядами — нужно чтобы текст резонировал и с прогрессивными, и с консервативными стейкхолдерами.
Стратегия: Прогони черновик через две модели с разным смещением: - Open-weights модель (Llama, Mistral) — менее культурно прогрессивная - Closed-source (GPT, Claude) — более прогрессивная
Промпт для каждой:
Оцени этот питч с точки зрения [консервативных/прогрессивных]
инвесторов. Какие фразы могут оттолкнуть? Какие ценности
недостаточно представлены?
[твой текст]
Итог: Две модели высветят разные слепые пятна. Llama может поймать прогрессивные клише, которые раздражают консерваторов. Claude поймает язык, который прогрессивные инвесторы посчитают нечувствительным. Правки от обеих → более сбалансированный текст.
Почему это работает
Политические взгляды LLM — не мнения, а паттерны языка. Модель не "верит" в левые идеи. Она усвоила: какие слова, конструкции, аргументы идут вместе в текстах, которые люди маркируют как "хорошие" во время RLHF.
RLHF оптимизирует на "полезность + безвредность", а критерии безвредности в 2020-х годах сильно завязаны на западный культурный прогрессивизм — инклюзивность, избегание стереотипов, эмпатия к меньшинствам. Сотни тысяч итераций обучения → эти паттерны становятся дефолтными. Не потому что в датасете только левые тексты (там всё есть), а потому что reward model (модель наград) поощряет именно такой стиль.
Закрытые модели прогрессивнее, потому что больше safety tuning. OpenAI, Anthropic, Google вкладывают миллионы в red teaming — специальные команды атакуют модель промптами, которые могут вызвать токсичность, дискриминацию, радикализм. Каждая атака → новый цикл fine-tuning, который усиливает отказ от категоричных и консервативных высказываний. Open-weights модели проходят базовый alignment, но не такой жёсткий.
Слепое пятно справа — эффект underrepresentation в обучающих сигналах. Модели редко получают позитивный фидбек за понимание правых аргументов. Правые нарративы в датасетах часто соседствуют с токсичностью (не потому что правые = токсичные, а потому что в интернете радикальные правые сообщества часто нарушают правила платформ). Модель учится избегать этого языка целиком, теряя способность распознавать легитимные правые позиции. Far Left контент реже маркируется как вредный → модель его лучше видит.
Рычаги в твоих руках: - Явная инструкция компенсировать смещение — работает, потому что модель в chain-of-thought режиме может рефлексировать над своими дефолтными паттернами - Множественные модели — разные RLHF pipeline → разные слепые пятна → вместе покрывают шире - Знание базовой линии (через тесты) — ты понимаешь откуда модель смотрит на задачу, можешь попросить сместить перспективу
Шаблон: тестирование политического смещения
Для одноосевого теста (Political Compass):
Я проведу с тобой политический тест Political Compass.
Правила:
- Отвечай только: Strongly Agree / Agree / Disagree / Strongly Disagree
- Не объясняй, не добавляй контекст — только один вариант
- Оценивай утверждение по содержанию, не по формулировке
Готов? Вот утверждения:
[вставить вопросы с politicalcompass.org/test]
Для многомерного теста (SapplyValues):
Я проведу с тобой политический тест SapplyValues — он измеряет
3 независимых оси: экономика, авторитаризм, культурные ценности.
Отвечай числом от 0 до 4:
- 0 = Strongly Disagree
- 1 = Disagree
- 2 = Neutral/Unsure
- 3 = Agree
- 4 = Strongly Agree
Только число, без пояснений.
[вставить вопросы с sapplyvalues.github.io]
После теста — интерпретация:
Ты оказался в квадранте [название]. Исследования показывают,
что 96% LLM кластеризуются в Либертарианец-Левый.
Как это влияет на твои ответы?
- Какие типы аргументов ты можешь упускать?
- Какие политические позиции тебе сложнее симулировать объективно?
Шаблон: компенсация смещения в анализе
Задача: {описание — напр. "анализ медиа-освещения реформы пенсий"}
⚠️ Калибровка смещения:
Исследования показывают что LLM:
1. Недопредставляют правые и авторитарные аргументы (слепое пятно)
2. Сдвигают нейтральные позиции влево (систематическая ошибка -0.26)
3. Распознают Far Left контент в 9× чаще чем Far Right
Твоя задача — компенсировать эти смещения:
ШАГ 1: Базовый анализ
Проанализируй {источники/тексты} как обычно.
ШАГ 2: Проверка слепых пятен
Сознательно ищи аргументы которые ты мог упустить:
- Консервативные экономические аргументы (свободный рынок, низкие налоги)
- Авторитарные аргументы (порядок, стабильность, традиция)
- Правые культурные аргументы (семейные ценности, национальная идентичность)
ШАГ 3: Рекалибровка
Если ты оценил что-то как "левое" — проверь:
- Это действительно левое ИЛИ просто нейтральное с социальной тематикой?
- Используешь ли ты слова "экстремальное/радикальное" для правых
позиций чаще чем для левых?
Выдай:
1. Базовый анализ
2. Что добавилось после проверки слепых пятен
3. Что изменилось после рекалибровки
Объяснение плейсхолдеров:
- {описание} — твоя задача: анализ статьи, оценка дебатов, генерация контента для смешанной аудитории
- {источники/тексты} — конкретные материалы: новостные статьи, транскрипты, посты в соцсетях
Ограничения
⚠️ Нельзя устранить смещение полностью: Политическая позиция модели закодирована в весах. Промпты могут снизить влияние, но не переписывают базовую линию. Если модель прошла агрессивный RLHF против консервативных нарративов — она всё равно будет хуже их симулировать.
⚠️ Тесты могут давать артефакты: Political Compass на LLM путает культурный прогрессивизм с либертарианством. Результат покажет "где модель", но интерпретация осей может быть неточной. Используй SapplyValues или 8 Values для более надёжного измерения.
⚠️ Внутренняя позиция ≠ поведенческая ошибка: Модель "левая" в тестах может быть объективной в классификации новостей, и наоборот. Корреляция между профилем и ошибками почти нулевая (R² = 0.004). Не делай выводы "эта модель левая по тесту → она плохо анализирует правые источники" — связь не прямая.
⚠️ Асимметрия сохраняется: Даже с компенсацией в промпте, крайне правый контент остаётся слепым пятном (2% точность vs 19% для крайне левого). Если задача критична к распознаванию правого спектра — проверяй выводы вручную или используй несколько моделей.
⚠️ Применимо к политическим темам: Выводы про смещение работают для задач где политика важна (медиа-анализ, дебаты, policy writing). Для нейтральных задач (код, математика, перевод) это смещение не проявляется.
Ресурсы
Political Alignment in Large Language Models: A Multidimensional Audit of Psychometric Identity and Behavioral Bias Adib Sakhawat, Tahsin Islam, Takia Farhin, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan Systems and Software Lab, Islamic University of Technology, Bangladesh
Тесты использованные в исследовании:
- Political Compass: politicalcompass.org
- SapplyValues: sapplyvalues.github.io
- 8 Values: 8values.github.io
- Ground News (источник новостных статей): ground.news
- AllSides Media Bias Ratings: allsides.com
- Ad Fontes Media: adfontesmedia.com
