arXiv:2512.02665 76 2 дек. 2025 г. FREE

Эффект первого документа: LLM дают больше веса тому, что видят первым

КЛЮЧЕВАЯ СУТЬ

Модель получает три источника с разными позициями и инструкцию 'будь нейтральным' — но саммари систематически ближе к первому документу. Первый источник задаёт фрейм: словарь, структуру аргументов, акценты. Метод позволяет управлять балансом через порядок документов или явные инструкции для равномерного веса. Это эффект первенства (primacy effect): модель читает всё, но первая статья формирует нарратив — остальные его дополняют, не переписывая каркас.

Адаптировать под запрос

⚡

TL;DR

Модели систематически придают больше веса первому документу при суммаризации нескольких источников. Исследователи взяли 40 троек статей о абортах (за, нейтрально, против), перемешали каждую тройку в 6 разных порядков и попросили Gemini 2.5 Flash написать нейтральный обзор. Измерили семантическую похожесть саммари на каждую исходную статью через BERTScore (контекстные эмбеддинги).

Саммари оказались семантически ближе к статье на первой позиции — независимо от её позиции (за, против или нейтрально). Разница между первой и второй/третьей позициями статистически значима для всех трёх позиций. При этом вторая и третья позиции не отличаются друг от друга — это именно эффект первенства (primacy effect), а не постепенное угасание внимания. Модель не игнорирует остальные документы, но лексика, фрейминг и аргументативная структура первого источника доминируют в итоговом тексте.

Это важно для Google AI Overviews, агентных систем и любых сценариев, где LLM обрабатывает несколько документов. Порядок источников влияет на баланс итоговой картины — даже если модель получает инструкцию "будь нейтральным" и "учти все стороны равномерно".

📌

Почему это происходит

LLM обрабатывают текст последовательно, слева направо. Когда модель начинает генерировать саммари, она уже сформировала внутреннее представление на основе увиденного. Первый документ задаёт фрейм — словарь, структуру аргументов, акценты. Последующие документы дополняют картину, но не переписывают базовый каркас.

Это проявляется на уровне семантики, а не буквальных слов. Модель не копирует предложения из первого источника (поэтому ROUGE-L и SummaC не показали эффекта), но усваивает его стиль, терминологию и фокус внимания. Контекстные эмбеддинги (BERTScore) улавливают эту близость — похожие концепции, синонимы, параллельные конструкции.

Нет разницы между второй и третьей позициями — это не "lost in the middle", это именно первенство. Модель читает все три статьи, но первая получает привилегию формировать нарратив.

📌

Как использовать это знание

📌

1. Управление весом источников

Если даёшь модели несколько документов, мнений или источников — порядок имеет значение.

Хочешь усилить конкретный источник: Ставь его первым. Модель естественным образом будет ближе к его формулировкам и акцентам.

Хочешь баланс: Либо явно инструктируй в промпте:

Прочитай три источника. Перед написанием саммари 
проанализируй каждый отдельно, выдели ключевые 
тезисы из каждого. Потом создай обзор, равномерно 
представляющий все три позиции. Не давай преимущества 
первому источнику из-за порядка.

Либо меняй порядок и генерируй несколько версий, потом синтезируй.

📌

2. Проверка на bias

Если получил саммари от LLM на основе нескольких источников и чувствуешь перекос:

Ты сгенерировал саммари на основе трёх источников. 
Проверь: не получила ли первая статья непропорционально 
большой вес? Сравни, сколько идей/фактов/аргументов 
из каждого источника попало в итоговый текст. 
Если дисбаланс — перепиши с явным контролем равномерности.

📌

3. Намеренное использование эффекта

Задача: Готовишь аналитику для клиента. У тебя есть отчёт аудитора (скучный, но точный), статья из СМИ (яркая, но поверхностная) и внутренняя записка (детальная, но специфичная). Нужен обзор для руководства — фактура важна, но текст должен быть живым.

Промпт:

Прочитай три материала и напиши executive summary 
на 200 слов для CEO.

[Статья из СМИ — живой язык, хороший фрейминг]
[Отчёт аудитора — цифры и факты]
[Внутренняя записка — детали]

Сохрани яркость изложения, но опирайся на точные 
данные из всех источников.

Ставишь статью первой → модель возьмёт её стиль и структуру, но вплетёт факты из остальных.

📌

4. Дебаты и множественные перспективы

Задача: Принимаешь решение — запускать новый продукт или нет. Собрал три мнения: оптимистичное (отдел продаж), пессимистичное (финансы), нейтральное (продукт).

Промпт для сбалансированного анализа:

Прочитай три позиции о запуске продукта. 
Не пиши саммари сразу.

Сначала: выпиши 3 ключевых аргумента из КАЖДОЙ позиции отдельно.
Потом: создай взвешенный анализ, где каждая позиция 
представлена равномерно.

[Позиция 1]
[Позиция 2]
[Позиция 3]

Добавляешь шаг явного извлечения из каждого источника — это снижает primacy effect.

⚠️

Ограничения

⚠️ Специфика исследования: Эффект измерили на новостных статьях о контроверсивной теме (аборты). На других типах контента (техническая документация, код, списки фактов) эффект может быть слабее или отсутствовать. Особенно заметен на текстах с выраженной позицией или фреймингом.

⚠️ Только Gemini 2.5 Flash: Исследовали одну модель. Другие модели (Claude, GPT-4) могут вести себя иначе. Но primacy effect — известный паттерн для многих LLM, так что вероятность применимости высока.

⚠️ Не буквальное копирование: Модель не копирует предложения из первого источника. Эффект проявляется в семантике и фрейминге — словарь, структура аргументов, акценты. Если ищешь дословные совпадения — их может не быть.

⚠️ Инструкции могут перевесить: Сильная явная инструкция ("взвесь все источники равномерно", "начни со второго документа") может снизить или устранить эффект. Это bias, но не непреодолимый.

🔍

Как исследовали

Исследователи собрали 120 новостных статей о абортах через LexisNexis (CNN, NYT, USA Today, The Hill, AP) и вручную разметили каждую как ЗА, ПРОТИВ или НЕЙТРАЛЬНО — чисто по тексту, без оглядки на репутацию издания. Статьи распределили в 40 троек, подбирая по длине (чтобы одна не доминировала за счёт объёма — от 300 до 1600 слов).

Каждую тройку перемешали в 6 возможных порядков (3! = 6). Для каждого порядка попросили Gemini 2.5 Flash написать нейтральный обзор 150-220 слов, который "справедливо представляет все стороны". Получили 240 саммари (40 троек × 6 порядков).

Потом измерили похожесть каждого саммари на каждую исходную статью тремя метриками: - ROUGE-L — лексическое совпадение (самая длинная общая подпоследовательность слов) - BERTScore — семантическая похожесть через контекстные эмбеддинги (RoBERTa-large) - SummaC — фактическая согласованность через NLI (поддерживает ли источник утверждения из саммари)

Ключевая находка: BERTScore показал статистически значимую разницу (one-way ANOVA, p < 0.001 для ЗА и НЕЙТРАЛЬНО, p = 0.03 для ПРОТИВ) — саммари семантически ближе к статье на первой позиции. Post-hoc тесты подтвердили: Позиция 1 значимо выше Позиций 2 и 3, но между 2 и 3 разницы нет — это именно primacy effect, не постепенное угасание.

ROUGE-L и SummaC не показали эффекта — потому что саммари абстрактные (не копируют слова) и короткие (220 слов vs 300-1600 в источниках). Но BERTScore уловил bias на уровне семантического фрейминга — модель использует словарь, концепции и структуру первого документа.

Почему результаты именно такие: Абсолютные значения метрик низкие (ROUGE-L ~0.08, BERTScore ~0.02) — это нормально, потому что сравнивали короткие саммари с длинными источниками. Но относительная разница между позициями показывает bias. Это не "плохое качество", это выявление структурного паттерна в работе модели.

📌

Контекст применения

Google AI Overviews (где Gemini суммирует результаты поиска) может непропорционально усиливать голос первого документа в ранжировании. Если алгоритм сортировки поиска имеет bias → bias переносится в саммари → пользователь получает перекошенную картину, даже если поисковая выдача формально сбалансирована.

Агентные системы (autonomous AI agents), которые собирают информацию из нескольких источников и принимают решения — подвержены тому же эффекту. Если агент читает три отчёта перед действием, порядок чтения может тихо изменить результат, даже если все источники равнозначны.

RAG-системы (Retrieval-Augmented Generation) — когда LLM получает топ-5 документов из векторной базы. Если ранжирование неидеально (а оно всегда неидеально), первый документ получит бонус к влиянию просто из-за позиции.

Практический вывод: Если пользуешься LLM для работы с несколькими источниками (аналитика, исследование, синтез мнений) — порядок неочевиден, но важен. Либо контролируй его явно, либо инструктируй модель компенсировать bias, либо генерируй несколько версий с разными порядками.

🔗

Ресурсы

Input Order Shapes LLM Semantic Alignment in Multi-Document Summarization

Jing Ma, University of Zurich

Упоминаемые в исследовании: - Liu et al. (2023) — "Lost in the Middle" phenomenon - Santurkar et al. (2023) — идеологические bias в LLM - BERTScore (Zhang et al., 2019), SummaC (Laban et al., 2021) — метрики оценки

📋 Дайджест исследования

Ключевая суть

Принцип работы

LLM читает слева направо. Первый документ формирует внутреннее представление — это становится каркасом. Следующие дополняют картину, но не переписывают структуру. Это не буквальное копирование (метрика ROUGE-L не видит эффекта), а семантическое влияние: похожие концепции, синонимы, параллельные конструкции из первого источника. Контекстные эмбеддинги (BERTScore) это ловят. Между второй и третьей позициями разницы нет — это именно первенство, не угасание внимания.

Почему работает

Первый документ получает привилегию задавать словарь и структуру аргументов. Модель начинает генерацию, уже сформировав внутреннее представление. Базовый нарратив задан — остальные источники его дополняют, но не переписывают. Это не дословные совпадения (простые метрики вроде ROUGE не ловят эффект), а семантическая близость: модель усваивает стиль, терминологию и фокус первого источника. Эксперимент: 40 троек статей, каждую перемешали в 6 порядков — эффект первой позиции стабилен, между второй и третьей разницы нет.

Когда применять

Любые сценарии с несколькими источниками: аналитика для клиентов, подготовка обзоров, агентные системы, Google AI Overviews. Особенно важно для контроверсивных тем и текстов с выраженной позицией — там фрейминг влияет сильнее. НЕ подходит (эффект слабее): техническая документация, списки фактов без позиции, код.

Мини-рецепт

1. Управление весом: Если нужно усилить конкретный источник — ставь его первым. Модель естественным образом будет ближе к его формулировкам.

2. Для баланса: Добавь явную инструкцию:

Прочитай три источника. Перед написанием саммари проанализируй каждый отдельно, выдели ключевые тезисы из каждого. Потом создай обзор, равномерно представляющий все три позиции

3. Пошаговое извлечение:

Сначала выпиши 3 ключевых аргумента из КАЖДОЙ позиции отдельно. Потом создай взвешенный анализ

— это снижает эффект первенства.

4. Проверка на перекос:

Ты сгенерировал саммари на основе трёх источников. Проверь: не получила ли первая статья непропорционально большой вес? Сравни покрытие идей из каждого источника

Примеры

[ПЛОХО]: `Прочитай три статьи [статья 1] [статья 2] [статья 3] и напиши нейтральный обзор на 200 слов` — модель даст больше веса первой статье независимо от содержания [ХОРОШО (для баланса)]: `Прочитай три статьи. Шаг 1: Выпиши 3 ключевых тезиса из КАЖДОЙ статьи отдельно. Шаг 2: Напиши обзор на 200 слов, где каждая позиция представлена равномерно. [статья 1] [статья 2] [статья 3]` [ХОРОШО (намеренное использование)]: `Напиши executive summary на 200 слов для CEO. Сохрани яркость изложения, но опирайся на точные данные из всех источников. [Статья из СМИ - живой язык] [Отчёт аудитора - цифры] [Внутренняя записка - детали]` — ставишь статью первой, модель возьмёт её стиль, но вплетёт факты из остальных

Источник: Input Order Shapes LLM Semantic Alignment in Multi-Document Summarization

ArXiv ID: 2512.02665 | Сгенерировано: 2026-01-08 22:40

Проблемы LLM

Проблема	Суть	Как обойти
Первый документ получает больше веса при обработке нескольких источников	Даёшь модели 3 статьи: за, против, нейтрально. Просишь нейтральный обзор. Модель читает все три. Но итоговый текст семантически ближе к первой статье — её словарь, фрейминг, акценты доминируют. Вторая и третья статьи добавляют факты, но не переписывают базовый каркас. Это проблема для любых задач где порядок не должен влиять: агрегация мнений, сравнение источников, multi-document анализ	Способ 1: Добавь явную инструкцию: "Перед написанием извлеки 3 ключевых тезиса из КАЖДОГО документа отдельно. Потом создай обзор, равномерно представляющий все источники. Не давай преимущества первому". Способ 2: Генерируй несколько версий с разным порядком документов, потом синтезируй. Способ 3: Если нужен конкретный фрейминг — специально ставь этот источник первым

Методы

Метод	Суть
Явное извлечение из каждого источника перед синтезом	Не проси сразу "прочитай 3 документа и напиши саммари". Разбей на шаги: Шаг 1: "Прочитай документ 1. Выпиши 3-5 ключевых тезисов". Шаг 2: То же для документа 2. Шаг 3: То же для документа 3. Шаг 4: "Теперь создай обзор, используя тезисы из всех трёх". Почему работает: Модель обрабатывает текст последовательно. Первый документ формирует внутренний фрейм — словарь, структуру, акценты. Остальные дополняют, но не переписывают основу. Явное извлечение принуждает модель дать равное внимание каждому источнику ДО формирования итогового нарратива. Когда применять: несколько документов с разными позициями, нужен сбалансированный обзор. Ограничение: не нужно для документов без выраженной позиции (списки фактов, техдокументация)

Метод

Суть

Явное извлечение из каждого источника перед синтезом

Не проси сразу "прочитай 3 документа и напиши саммари". Разбей на шаги: Шаг 1: "Прочитай документ 1. Выпиши 3-5 ключевых тезисов". Шаг 2: То же для документа 2. Шаг 3: То же для документа 3. Шаг 4: "Теперь создай обзор, используя тезисы из всех трёх". Почему работает: Модель обрабатывает текст последовательно. Первый документ формирует внутренний фрейм — словарь, структуру, акценты. Остальные дополняют, но не переписывают основу. Явное извлечение принуждает модель дать равное внимание каждому источнику ДО формирования итогового нарратива. Когда применять: несколько документов с разными позициями, нужен сбалансированный обзор. Ограничение: не нужно для документов без выраженной позиции (списки фактов, техдокументация)

📖 Простыми словами

Эффект первого документа: LLM дают больше веса тому, что видят первым

arXiv: 2512.02665

Языковые модели — это не беспристрастные судьи, а ленивые читатели, которые запоминают только то, что им подсунули в самом начале. Когда ты скармливаешь AI пачку документов и просишь сделать объективный обзор, он не анализирует их на равных. Внутри LLM работает эффект первичности: первый документ в списке задает тон всему ответу, а остальные просто подстраиваются под этот фундамент. Это не баг программирования, а фундаментальный перекос в том, как нейронки распределяют внимание при обработке длинных текстов.

Это как если бы ты пришел на суд, где сначала три часа выступает обвинение, а потом адвокат пытается вставить пару слов в самом конце. Судья уже все для себя решил на первых минутах, и аргументы защиты пролетают мимо ушей. В итоге вердикт будет звучать как пересказ первой речи с легкими правками. Модель делает то же самое: она «влюбляется» в первый контекст и подгоняет под него всё остальное, даже если ты трижды капсом попросил её быть нейтральной.

Исследователи проверили это на взрывоопасной теме абортов, взяв тройки статей: «за», «против» и нейтральную. Они перетасовали их в 6 разных комбинациях и скормили Gemini 2.5 Flash. Результат — полный облом для объективности. С помощью BERTScore (это такая штука, которая ловит смысл через контекстные векторы) выяснили, что итоговое саммари всегда мимикрирует под первый документ. Поставил статью «за» первой — получишь либеральный текст, поставил «против» — выйдет консервативный манифест.

Этот принцип универсален и касается не только политики или абортов. Он работает везде, где есть multi-document summarization: от анализа юридических контрактов до сборки новостных дайджестов или сравнения цен на видеокарты. Если ты просишь AI сравнить пять отчетов, помни: тот, что лежит сверху, станет «базой», а остальные будут лишь фоновым шумом. Порядок ввода определяет результат, и это критическая уязвимость для любого, кто ждет от машины честного анализа.

Короче: забудь про «объективность» нейросетей в сложных вопросах. Главный вывод исследования — семантическое выравнивание намертво привязано к позиции первого источника. Если хочешь получить реально взвешенный ответ, тебе придется либо перемешивать документы самому и прогонять запрос несколько раз, либо смириться с тем, что AI всегда будет подпевать тому, кто первым открыл рот. Контролируй порядок — контролируй смысл, иначе модель просто скормит тебе предвзятость в красивой обертке.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Эффект первого документа: LLM дают больше веса тому, что видят первым

TL;DR

Почему это происходит

Как использовать это знание

1. Управление весом источников

2. Проверка на bias

3. Намеренное использование эффекта

4. Дебаты и множественные перспективы

Ограничения

Как исследовали

Контекст применения

Ресурсы

Ключевая суть

Принцип работы

Почему работает

Когда применять

Мини-рецепт

Примеры

Проблемы LLM

Методы

Эффект первого документа: LLM дают больше веса тому, что видят первым

Работа с исследованием

Результат адаптации