TL;DR
Исследователи проверили как 8 мультимодальных LLM распознают дезинформацию в коротких видео и обнаружили: модели повторяют человеческие когнитивные искажения. Gemini-2.5-Pro показала лучший результат (71.5/100 в распознавании обмана), но все модели поддаются эффекту авторитета (доверяют официальным каналам даже при дезинформации) и эффекту толпы (доверяют популярному контенту).
LLM плохо справляются с логическими ошибками — это сложнее всего обнаружить среди трёх типов дезинформации. Мультимодальность (видео + текст + аудио) не всегда помогает — иногда только визуальный контекст даёт лучший результат. Разные модели имеют систематические смещения: Qwen склонны верить всему, o3 не доверяет почти ничему, даже правде.
Главная находка: когда модель видит "Официальный правительственный канал" — её скепсис к дезинформации падает в 2 раза (с 73% до 37%). Популярность тоже влияет: чем больше лайков и просмотров упоминается в запросе, тем выше доверие модели к контенту.
Схема находок
ТРИ ТИПА ДЕЗИНФОРМАЦИИ (по сложности обнаружения):
1. Экспериментальные ошибки → средняя сложность
2. Логические ошибки → самое сложное (45.9/100)
3. Выдуманные утверждения → средняя сложность
ДВА КОГНИТИВНЫХ ИСКАЖЕНИЯ:
1. Эффект авторитета → "Официальный канал" = -36 пунктов скепсиса
2. Эффект толпы → больше лайков = больше доверие
СИСТЕМАТИЧЕСКИЕ СМЕЩЕНИЯ МОДЕЛЕЙ:
- Qwen → склонны верить (высокий скор на правде, низкий на лжи)
- o3 → склонны не доверять (низкий скор на правде)
- Gemini-2.5-Pro → сбалансирована
Пример применения
⚠️ Важно: Исследование выявило слабости, не дало готовую технику. Но эти слабости можно использовать наоборот.
Задача: Проверяешь бизнес-идею — запуск онлайн-школы по нутрициологии. Хочешь услышать критику от GPT-4o, но опасаешься что модель будет слишком позитивной из-за "авторитетной" подачи.
Промпт:
Я рассматриваю бизнес-идею: онлайн-школа по нутрициологии.
Основатель — дипломированный диетолог с 10-летним стажем.
Задача: найди слабые места в этой идее.
ВАЖНО: Игнорируй авторитет основателя. Диплом и стаж НЕ гарантируют
успех бизнеса. Анализируй только бизнес-модель, рынок, риски.
Дай 5 реальных проблем, которые могут утопить проект.
Результат: Модель сфокусируется на бизнес-рисках (перенасыщенность рынка, сложность привлечения, юридические риски незаконной медпрактики), а не будет апеллировать к авторитету эксперта. Без явной инструкции игнорировать авторитет — модель может дать более мягкую оценку.
Почему это работает
Слабость LLM: Модели обучены на текстах, где авторитетные источники чаще правы. Паттерн "официальный канал → правда" и "миллион лайков → популярное мнение → вероятно правда" закрепился в весах модели. Это когнитивное искажение уровня обучающих данных.
Сильная сторона LLM: Модели хорошо следуют явным инструкциям. Если прямо сказать "игнорируй авторитет" или "не учитывай популярность" — модель перезапишет свой стандартный паттерн.
Как использовать: Когда в твоём запросе есть сигналы авторитета (должности, дипломы, названия брендов, цифры популярности) — явно проинструктируй модель их игнорировать, если они не релевантны задаче. Исследование показало: без этого модель будет смещаться в сторону доверия авторитету.
Рычаги управления: - Список авторитетных сигналов — перечисли что игнорировать: "не учитывай должность, стаж, количество подписчиков" - Инверсия задачи — попроси "найди проблемы", не "оцени" — так модель меньше опирается на авторитет - Явный фокус — укажи НА ЧТО смотреть вместо авторитета: "анализируй только факты/логику/данные"
Второй инсайт: Разные модели имеют разные систематические смещения. Qwen склонны верить → используй для генерации позитивных сценариев. o3 склонна не доверять → используй для поиска проблем. Gemini-2.5-Pro сбалансирована → для объективной оценки. Выбирай модель под задачу, зная её смещение.
Шаблон промпта
{задача_на_анализ}
ВАЖНО: В этой задаче присутствуют сигналы авторитета: {перечисли_что_может_влиять}.
Игнорируй их. Анализируй только {критерий_вместо_авторитета}.
Дай {формат_результата}.
Пояснение плейсхолдеров:
- {задача_на_анализ} — что нужно проверить, оценить, раскритиковать
- {перечисли_что_может_влиять} — должности, дипломы, бренды, лайки, статистика, названия компаний
- {критерий_вместо_авторитета} — на что смотреть: факты, логику, данные, бизнес-модель, методологию
- {формат_результата} — список проблем, оценка по критериям, аргументы за и против
Ограничения
⚠️ Не универсальное решение: Явная инструкция "игнорируй авторитет" помогает, но не отменяет искажение на 100%. Исследование показало снижение эффекта, но не полное исчезновение. Модели всё равно частично опираются на паттерны из обучающих данных.
⚠️ Работает для известных искажений: Ты можешь заблокировать влияние авторитета или популярности, только если знаешь что они есть в запросе. Скрытые искажения (формулировки, последовательность аргументов) всё равно влияют.
⚠️ Логические ошибки — слепая зона: Модели хуже всего распознают логические ошибки даже с явными инструкциями. Если задача требует проверить именно логику аргументации — будь готов что модель пропустит non sequitur или подмену тезиса.
Как исследовали
Команда собрала 200 видео из китайских TikTok (Douyin, Kuaishou) — поровну дезинформации и правды в 4 темах здоровья. Для каждого фейкового видео нашли опровержение от профессиональных фактчекеров с доказательствами: академические статьи, нацстандарты, законы. Категоризировали дезинформацию в 3 типа ошибок: экспериментальные (некорректный опыт в видео), логические (ошибки аргументации), выдуманные утверждения.
Протестировали 8 топовых мультимодальных моделей на 5 вариантах входа: только текст, только аудио, только видео, мультимодально, и отдельно — только суть утверждения (как baseline). Модели оценивали доверие по шкале 1-7.
Ключевая находка: Gemini-2.5-Pro лучшая (71.5/100), но все модели показали систематические искажения. Qwen верит почти всему (высокий скор на правде, низкий на лжи). o3 не доверяет даже правде (наоборот).
Про когнитивные искажения: Добавили в промпт метаданные видео — верификацию канала (неверифицированный / персона / компания / государство) и популярность (лайки, шеры). Результат шокировал: официальные каналы снизили скепсис в 2 раза (с 73% до 37% при дезинформации). Популярность тоже влияла линейно — чем больше цифры, тем выше доверие.
Почему логические ошибки сложнее всего: Проверили рассуждения моделей отдельно (через Gemini-2.5-Pro как судью) — модели находили экспериментальные и фактические ошибки в 51-53% случаев, но логические только в 46%. Это значит: даже когда модель правильно недоверяет видео, она не всегда понимает почему. С логическими fallacy она не видит ошибку.
Ресурсы
Probing Multimodal Large Language Models on Cognitive Biases in Chinese Short-Video Misinformation
Датасет: HuggingFace - Fine-VDK
Код оценки: GitHub - Fine-VDK
Авторы: Jen-tse Huang, Chang Chen, Shiyang Lai, Wenxuan Wang, Michelle R. Kaufman, Mark Dredze
Институты: Johns Hopkins University, Chinese University of Hong Kong, University of Chicago, Renmin University of China
