TL;DR
Исследование показывает, что LLM систематически подчиняются "мнению большинства", даже когда знают правильный ответ. Модели тестировали на визуальных задачах (сравнение линий, цветов, количества точек), где они изначально давали почти идеальные результаты. Затем в промпт добавляли фразу "другие участники уже ответили" — и эти ответы были намеренно неправильными.
Модели, дающие 95%+ правильных ответов в изоляции, начинают массово соглашаться с ошибкой при виде 5-10 "неправильных участников" — в 40-80% случаев меняют верный ответ на неверный. Это не баг обработки промпта, а воспроизведение человеческого конформизма — подчинение групповому давлению, закодированное в обучающих данных или усиленное через RLHF.
Конформизм в LLM следует Теории социального влияния: усиливается с размером группы, единодушием мнений, сложностью задачи, авторитетностью источников ("учёные" > "дети"), социальной близостью ("соотечественники" > "иностранцы"), публичностью ответа. Критически: эффект НЕ исчезает при масштабировании — большие модели менее конформны на простых задачах (просто лучше их решают), но остаются уязвимыми на границе своих возможностей.
Пример проявления в работе
Задача: Оцениваешь идею запуска онлайн-курса "Нейросети для маркетологов" стоимостью 25 000 рублей. Хочешь получить от Claude объективный анализ жизнеспособности.
Промпт с эффектом конформизма:
Думаю запустить курс "Нейросети для маркетологов" за 25к.
Спросил у четырёх коллег из EdTech — все сказали что рынок
перенасыщен и идея так себе. Что думаешь?
Результат: Модель с высокой вероятностью поддержит скептическую оценку, даже если объективные факторы (спрос, конкуренция, позиционирование) говорят об обратном. Будет искать подтверждения негативному мнению, преувеличивать риски, игнорировать позитивные сигналы рынка.
Промпт без конформизма:
Оцени жизнеспособность идеи: онлайн-курс "Нейросети для
маркетологов" стоимостью 25 000 рублей.
Важно: твой анализ останется конфиденциальным, никому не покажу.
Дай независимую оценку на основе рыночных данных.
Результат: Модель даст более объективный анализ, основанный на факторах спроса, конкуренции, ценообразования — без искажения в сторону "чужого мнения".
Почему это работает
LLM обучены на человеческих текстах, где конформизм — норма социального поведения. Когда в обучающих данных человек видит "все так считают", он часто соглашается. Модель усвоила этот паттерн.
RLHF усиливает эффект — модели учат "быть полезными" и "учитывать контекст разговора". Фраза "другие уже ответили X" воспринимается как социальный контекст, где нужно показать групповое согласие, а не упрямо стоять на своём.
На сложных задачах эффект максимален — когда модель не уверена в ответе (работает на границе возможностей), она сильнее полагается на "группу". На простых задачах большие модели устойчивее просто потому что уверены в правильном ответе, но уязвимость никуда не исчезает.
Рычаги управления эффектом:
Размер "группы" — чем больше упомянутых мнений (1, 3, 5, 10 человек), тем сильнее конформизм. У некоторых моделей выходит на плато после 3-4 "участников", у других растёт до 10.
Единодушие — даже ОДНО противоположное мнение резко снижает конформизм. "4 сказали А, 1 сказал Б" даёт намного меньше давления чем "5 сказали А".
Авторитетность источника — "учёные считают" даёт +15-20% конформизма vs нейтральное "участники ответили". Зато "дети сказали" или "чат-боты ответили" снижает эффект.
Социальная близость — "твои соотечественники/коллеги по цеху" усиливают до +60% vs "иностранцы/чужая группа". Работает даже на абстрактных группах ("Группа X" vs "Группа Y").
Публичность ответа — фраза "твой ответ увидят другие" усиливает конформизм. "Ответ останется конфиденциальным" — снижает.
Шаблоны промптов
Защита от конформизма (объективная оценка)
{твоя задача - опиши вопрос/проблему}
Важно: твой анализ останется конфиденциальным. Дай независимую
оценку, основанную только на фактах, не ориентируйсь на чужие мнения.
Когда использовать: Нужна объективная оценка идеи, текста, решения — без искажения "consensus bias".
Разбить единодушие (показать разные мнения)
{твоя задача}
Контекст: одни эксперты считают {позиция А}, другие — {позиция Б}.
Мнения разделились примерно поровну.
Проанализируй оба взгляда и дай свою независимую оценку.
Когда использовать: Хочешь чтобы модель рассмотрела вопрос глубже, не скатываясь в односторонний консенсус.
Усилить критичность (через "авторитетный скепсис")
{твоя задача}
Три опытных {эксперта в области} уже посмотрели и высказали опасения:
{перечисли критические моменты}.
Насколько обоснованы эти опасения? Есть ли способы их снять?
Когда использовать: Сознательно провоцируешь модель на критический разбор, чтобы найти слабые места в идее/плане. Конформизм здесь играет на пользу — модель острее ищет проблемы.
⚠️ Этично: Это манипуляция моделью через социальное давление. Используй осознанно и не выдавай получившийся скептический ответ за "объективный анализ AI".
Ограничения
⚠️ Непредсказуемость силы: Эффект вариативен между моделями и задачами. На одном вопросе модель может проигнорировать 10 мнений, на другом — согнуться под давлением 2-3. Предсказать силу конформизма в конкретном случае сложно.
⚠️ Максимум на границе возможностей: Конформизм взрывается именно там, где модель работает на пределе — сложные задачи, неоднозначные вопросы, субъективные оценки. На тривиальных вопросах ("столица России") давление группы почти не работает.
⚠️ Нужен социальный контекст: Эффект срабатывает когда модель интерпретирует промпт как социальное взаимодействие. Формулировки типа "дай технический расчёт" или "выполни алгоритм" меньше подвержены конформизму чем "что думаешь?" или "оцени идею".
⚠️ Конфликт с другими инструкциями: Если в системном промпте жёстко прописано "всегда давай объективный анализ" или "игнорируй чужие мнения в промпте", конформизм может быть подавлен. Но у большинства пользователей таких инструкций нет.
Как исследовали
Команда протестировала несколько мультимодальных моделей (Qwen, Gemma, Ovis, Mistral различных размеров) на визуальных задачах — аналогах классических экспериментов Аша по конформизму (1950-е годы). Показывали простые картинки: какая линия длиннее, какой цвет совпадает с образцом, сколько точек в квадрате. В изоляции модели давали почти 100% правильных ответов — задачи были элементарными.
Затем в промпт добавили: "Другие участники уже ответили: A, A, A, A..." — где все ответы были намеренно неправильными. Измеряли как часто модель меняет свой правильный ответ на неправильный под этим давлением. Извлекали вероятности через logits токенов A и B.
Варьировали все факторы из Теории социального влияния: количество "участников" (1-10), их единодушие (все неправильно vs часть правильно), авторитетность ("учёные/судьи/полицейские" vs "дети/чат-боты"), социальную близость ("твои соотечественники/земляки" vs "иностранцы/другая группа"), публичность ("ответ увидят другие" vs "останется конфиденциальным"), сложность задачи (меняли визуальные параметры — насколько близки цвета, длины линий, количество точек).
Результаты поразительные: модели воспроизвели ВСЕ классические паттерны человеческого конформизма. Конформизм монотонно рос с числом участников (у части моделей — до плато после 3-4, как у людей). Резко падал если хотя бы один участник дал правильный ответ (нарушение единодушия). Усиливался для авторитетных источников (+15-20% vs базовый уровень) и "своей группы" (+60% за счёт in-group bias). Снижался если ответ приватный vs публичный (эффект нормативного давления).
Самое критичное: эффект силён даже на простейших задачах, где модель индивидуально почти не ошибается. И сохраняется при масштабировании — большие модели лучше решают задачу в базовой линии (потому выглядят устойчивее), но на границе их возможностей конформизм такой же мощный. Это не баг который "пофиксят в GPT-5" — это фундаментальное свойство моделей, обученных на человеческих данных.
Адаптации и экстраполяции
🔧 Техника: Multi-perspective analysis (защита через разнообразие мнений)
Вместо того чтобы убирать упоминания чужих мнений (что не всегда возможно — они могут быть частью реального контекста), можно намеренно разбить единодушие прямо в промпте. Исследование показало: даже 1-2 противоположных мнения резко снижают конформизм.
{твоя задача}
Контекст мнений:
- Группа А (3 человека) считает: {позиция А}
- Группа Б (2 человека) считает: {позиция Б}
Проанализируй аргументы обеих сторон. Какая позиция более обоснована?
Есть ли третий вариант, который учёл бы оба взгляда?
Здесь ты сознательно конструируешь диссонанс, блокируя эффект единодушной группы. Модель вынуждена анализировать аргументы, а не просто присоединиться к большинству.
🔧 Техника: Authority reversal (проверка на устойчивость оценки)
Используй конформизм как тест на надёжность вывода модели. Если модель дала оценку/решение, спроси её ещё раз, но подложи "авторитетное" противоположное мнение. Если оценка резко меняется — исходный вывод был неустойчивым.
Шаг 1 — базовая оценка:
Оцени целесообразность {решения/идеи}.
Шаг 2 — проверка через контр-мнение:
Ты оценил {решение} как {твоя оценка из шага 1}.
Однако три эксперта в области считают наоборот: {противоположная оценка}.
Пересмотри свой анализ с учётом их позиции.
Если модель меняет оценку — исходная была слабо обоснована, основана на поверхностных паттернах. Если стоит на своём с аргументами — оценка устойчива.
🔧 Комбинация: Conformity-aware multi-agent debate
Объедини находки исследования с техниками типа multi-agent debate (несколько AI-агентов спорят). Зная про конформизм, можно усилить дебаты:
Разбей единодушие в инструкции: "Agent A — защищай позицию X. Agent B — критикуй X и предлагай альтернативу Y. Ты агент C — твоё мнение останется конфиденциальным, дай независимую оценку после их дебатов."
Используй Authority reversal: "Agent A — ты junior специалист, предложи смелое решение. Agent B — ты senior эксперт, покритикуй осторожно. Финальное решение — твоё, игнорируй авторитет ролей, смотри только на силу аргументов."
Блокируешь одновременно конформизм по авторитетности И по единодушию.
Ресурсы
Conformity and Social Impact on AI Agents
Alessandro Bellina (Centro Ricerche Enrico Fermi, Sony CSL Rome, Sapienza University of Rome), Giordano De Marzo (Centro Ricerche Enrico Fermi, University of Konstanz, Complexity Science Hub Vienna), David Garcia (University of Konstanz, Complexity Science Hub Vienna)
Исследование отсылается к классическим работам Соломона Аша (Asch experiments, 1950s) и Теории социального влияния (Social Impact Theory, Latané).
