TL;DR
Модели систематически придают больше веса первому документу при суммаризации нескольких источников. Исследователи взяли 40 троек статей о абортах (за, нейтрально, против), перемешали каждую тройку в 6 разных порядков и попросили Gemini 2.5 Flash написать нейтральный обзор. Измерили семантическую похожесть саммари на каждую исходную статью через BERTScore (контекстные эмбеддинги).
Саммари оказались семантически ближе к статье на первой позиции — независимо от её позиции (за, против или нейтрально). Разница между первой и второй/третьей позициями статистически значима для всех трёх позиций. При этом вторая и третья позиции не отличаются друг от друга — это именно эффект первенства (primacy effect), а не постепенное угасание внимания. Модель не игнорирует остальные документы, но лексика, фрейминг и аргументативная структура первого источника доминируют в итоговом тексте.
Это важно для Google AI Overviews, агентных систем и любых сценариев, где LLM обрабатывает несколько документов. Порядок источников влияет на баланс итоговой картины — даже если модель получает инструкцию "будь нейтральным" и "учти все стороны равномерно".
Почему это происходит
LLM обрабатывают текст последовательно, слева направо. Когда модель начинает генерировать саммари, она уже сформировала внутреннее представление на основе увиденного. Первый документ задаёт фрейм — словарь, структуру аргументов, акценты. Последующие документы дополняют картину, но не переписывают базовый каркас.
Это проявляется на уровне семантики, а не буквальных слов. Модель не копирует предложения из первого источника (поэтому ROUGE-L и SummaC не показали эффекта), но усваивает его стиль, терминологию и фокус внимания. Контекстные эмбеддинги (BERTScore) улавливают эту близость — похожие концепции, синонимы, параллельные конструкции.
Нет разницы между второй и третьей позициями — это не "lost in the middle", это именно первенство. Модель читает все три статьи, но первая получает привилегию формировать нарратив.
Как использовать это знание
1. Управление весом источников
Если даёшь модели несколько документов, мнений или источников — порядок имеет значение.
Хочешь усилить конкретный источник: Ставь его первым. Модель естественным образом будет ближе к его формулировкам и акцентам.
Хочешь баланс: Либо явно инструктируй в промпте:
Прочитай три источника. Перед написанием саммари
проанализируй каждый отдельно, выдели ключевые
тезисы из каждого. Потом создай обзор, равномерно
представляющий все три позиции. Не давай преимущества
первому источнику из-за порядка.
Либо меняй порядок и генерируй несколько версий, потом синтезируй.
2. Проверка на bias
Если получил саммари от LLM на основе нескольких источников и чувствуешь перекос:
Ты сгенерировал саммари на основе трёх источников.
Проверь: не получила ли первая статья непропорционально
большой вес? Сравни, сколько идей/фактов/аргументов
из каждого источника попало в итоговый текст.
Если дисбаланс — перепиши с явным контролем равномерности.
3. Намеренное использование эффекта
Задача: Готовишь аналитику для клиента. У тебя есть отчёт аудитора (скучный, но точный), статья из СМИ (яркая, но поверхностная) и внутренняя записка (детальная, но специфичная). Нужен обзор для руководства — фактура важна, но текст должен быть живым.
Промпт:
Прочитай три материала и напиши executive summary
на 200 слов для CEO.
[Статья из СМИ — живой язык, хороший фрейминг]
[Отчёт аудитора — цифры и факты]
[Внутренняя записка — детали]
Сохрани яркость изложения, но опирайся на точные
данные из всех источников.
Ставишь статью первой → модель возьмёт её стиль и структуру, но вплетёт факты из остальных.
4. Дебаты и множественные перспективы
Задача: Принимаешь решение — запускать новый продукт или нет. Собрал три мнения: оптимистичное (отдел продаж), пессимистичное (финансы), нейтральное (продукт).
Промпт для сбалансированного анализа:
Прочитай три позиции о запуске продукта.
Не пиши саммари сразу.
Сначала: выпиши 3 ключевых аргумента из КАЖДОЙ позиции отдельно.
Потом: создай взвешенный анализ, где каждая позиция
представлена равномерно.
[Позиция 1]
[Позиция 2]
[Позиция 3]
Добавляешь шаг явного извлечения из каждого источника — это снижает primacy effect.
Ограничения
⚠️ Специфика исследования: Эффект измерили на новостных статьях о контроверсивной теме (аборты). На других типах контента (техническая документация, код, списки фактов) эффект может быть слабее или отсутствовать. Особенно заметен на текстах с выраженной позицией или фреймингом.
⚠️ Только Gemini 2.5 Flash: Исследовали одну модель. Другие модели (Claude, GPT-4) могут вести себя иначе. Но primacy effect — известный паттерн для многих LLM, так что вероятность применимости высока.
⚠️ Не буквальное копирование: Модель не копирует предложения из первого источника. Эффект проявляется в семантике и фрейминге — словарь, структура аргументов, акценты. Если ищешь дословные совпадения — их может не быть.
⚠️ Инструкции могут перевесить: Сильная явная инструкция ("взвесь все источники равномерно", "начни со второго документа") может снизить или устранить эффект. Это bias, но не непреодолимый.
Как исследовали
Исследователи собрали 120 новостных статей о абортах через LexisNexis (CNN, NYT, USA Today, The Hill, AP) и вручную разметили каждую как ЗА, ПРОТИВ или НЕЙТРАЛЬНО — чисто по тексту, без оглядки на репутацию издания. Статьи распределили в 40 троек, подбирая по длине (чтобы одна не доминировала за счёт объёма — от 300 до 1600 слов).
Каждую тройку перемешали в 6 возможных порядков (3! = 6). Для каждого порядка попросили Gemini 2.5 Flash написать нейтральный обзор 150-220 слов, который "справедливо представляет все стороны". Получили 240 саммари (40 троек × 6 порядков).
Потом измерили похожесть каждого саммари на каждую исходную статью тремя метриками: - ROUGE-L — лексическое совпадение (самая длинная общая подпоследовательность слов) - BERTScore — семантическая похожесть через контекстные эмбеддинги (RoBERTa-large) - SummaC — фактическая согласованность через NLI (поддерживает ли источник утверждения из саммари)
Ключевая находка: BERTScore показал статистически значимую разницу (one-way ANOVA, p < 0.001 для ЗА и НЕЙТРАЛЬНО, p = 0.03 для ПРОТИВ) — саммари семантически ближе к статье на первой позиции. Post-hoc тесты подтвердили: Позиция 1 значимо выше Позиций 2 и 3, но между 2 и 3 разницы нет — это именно primacy effect, не постепенное угасание.
ROUGE-L и SummaC не показали эффекта — потому что саммари абстрактные (не копируют слова) и короткие (220 слов vs 300-1600 в источниках). Но BERTScore уловил bias на уровне семантического фрейминга — модель использует словарь, концепции и структуру первого документа.
Почему результаты именно такие: Абсолютные значения метрик низкие (ROUGE-L ~0.08, BERTScore ~0.02) — это нормально, потому что сравнивали короткие саммари с длинными источниками. Но относительная разница между позициями показывает bias. Это не "плохое качество", это выявление структурного паттерна в работе модели.
Контекст применения
Google AI Overviews (где Gemini суммирует результаты поиска) может непропорционально усиливать голос первого документа в ранжировании. Если алгоритм сортировки поиска имеет bias → bias переносится в саммари → пользователь получает перекошенную картину, даже если поисковая выдача формально сбалансирована.
Агентные системы (autonomous AI agents), которые собирают информацию из нескольких источников и принимают решения — подвержены тому же эффекту. Если агент читает три отчёта перед действием, порядок чтения может тихо изменить результат, даже если все источники равнозначны.
RAG-системы (Retrieval-Augmented Generation) — когда LLM получает топ-5 документов из векторной базы. Если ранжирование неидеально (а оно всегда неидеально), первый документ получит бонус к влиянию просто из-за позиции.
Практический вывод: Если пользуешься LLM для работы с несколькими источниками (аналитика, исследование, синтез мнений) — порядок неочевиден, но важен. Либо контролируй его явно, либо инструктируй модель компенсировать bias, либо генерируй несколько версий с разными порядками.
Ресурсы
Input Order Shapes LLM Semantic Alignment in Multi-Document Summarization
Jing Ma, University of Zurich
Упоминаемые в исследовании: - Liu et al. (2023) — "Lost in the Middle" phenomenon - Santurkar et al. (2023) — идеологические bias в LLM - BERTScore (Zhang et al., 2019), SummaC (Laban et al., 2021) — метрики оценки
