TL;DR
LLMs оценивают документы неравномерно по позиции: одно и то же изменение в начале текста снижает оценку схожести сильнее, чем то же изменение в конце. Это не про длину контекста — эффект стабильно работает уже на 4–8 предложениях. Исследователи проверили это через тысячи пар документов: брали почти идентичные тексты, меняли одно предложение, и двигали его по документу.
Когда просишь LLM сравнить два текста или оценить, насколько изменилась версия, модель не читает равномерно. Ранние предложения "весят" больше. Если правка произошла в конце — модель её фактически простит. Если та же правка в начале — ударит по оценке в разы сильнее. Похожий эффект есть и у людей при чтении, но у разных LLM его величина кардинально различается.
Воздействовать на LLM-оценку можно двумя рычагами: позицией изменения (начало vs. конец) и связностью контекста вокруг него. Если изменённое предложение окружено нерелевантным контекстом, оценка становится хаотичной — модель уходит в полярности: либо «абсолютно одинаковые», либо «совершенно разные». Стабильных средних оценок почти не остаётся.
Схема метода
Это не техника-промпт, а карта слепых зон LLM при сравнении и оценке текстов. Четыре принципа, применимые в чате напрямую:
ПРИНЦИП 1: Позиция → Вес
Изменение в начале документа → модель заметит и накажет сильнее
Изменение в конце → модель простит или проигнорирует
ПРИНЦИП 2: Контекст → Стабильность оценки
Изменение в релевантном контексте → стабильная, предсказуемая оценка
Изменение в несвязном контексте → хаотичная оценка (0 или 100, ничего среднего)
ПРИНЦИП 3: Тип изменения → Иерархия жёсткости (одна для всех LLM)
"или" ↔ "и" (союзы) → карается сильнее всего
замена именованной сущности → карается средне
отрицание ("не") → карается мягче всего
ПРИНЦИП 4: Модель → Финегрпринт (у каждой свой стиль)
Claude → бинарные суждения (да/нет, no middle ground)
GPT-4o → градуированные оценки, замечает промежуточные различия
GPT-5 → аномалия: карает изменения в КОНЦЕ строже, чем в начале
Пример применения
Задача: Ты написал оферту на сайт. Юрист внёс правки. Просишь Claude проверить — не потеряли ли правки смысл оригинала. Важный момент: в конце документа юрист заменил «или» на «и» в пункте про ответственность.
Промпт:
Сравни два варианта договора оферты. Оцени по шкале от 0 до 100, насколько сохранён
смысл оригинала в новой версии. Выдели каждое изменение, которое ты нашёл,
и объясни — оно техническое (стиль, запятые) или смысловое (меняет суть обязательств).
ВАЖНО: Проверь особенно тщательно союзы «и» и «или» — они могут менять
юридический смысл кардинально.
ОРИГИНАЛ:
[вставь оригинал]
НОВАЯ ВЕРСИЯ:
[вставь правку]
Результат: Модель пройдётся по документу и выведет список изменений с разбивкой по типу. Без явного указания на союзы — изменение «или→и» в конце документа с высокой вероятностью останется незамеченным или получит минимальный вес. С указанием — модель переключит на него внимание принудительно.
Почему это работает
Слабость: LLM не читает текст как человек — последовательно и с равным вниманием. Модель строит оценку через обработку всей последовательности токенов, и ранние токены формируют контекст для интерпретации поздних. Начало документа как бы "устанавливает рамку" — всё дальнейшее интерпретируется через неё.
Что умеет модель хорошо: Когда контекст вокруг изменения тематически связан, модель умеет его использовать. Релевантный контекст помогает модели "взвесить" важность изменения: если речь про авиахаб, отрицание "не самый загруженный аэропорт" — очевидное противоречие. Это снижает оценку схожести последовательно и предсказуемо.
Парадокс несвязного контекста: Когда изменённое предложение окружено несвязным текстом, модель теряет якорь для интерпретации. Казалось бы — нейтральный контекст должен делать оценку стабильнее. Происходит обратное: модель уходит в биполярные суждения. Либо "0 — разные тексты", либо "100 — одинаковые". Исследователи объясняют это interpretive frame account: без тематического контекста модель не может "подавить" или "поместить в рамку" изменение, поэтому реагирует абсолютным суждением.
Рычаги управления: - Яви изменение явно → скажи "проверь союзы" или "обрати особое внимание на конец". Это компенсирует позиционный сдвиг. - Выбирай модель под задачу → Claude для бинарных суждений (есть ошибка / нет ошибки), GPT-4o для нюансированной оценки (насколько сильно изменился смысл). - Держи контекст релевантным → если просишь сравнить договор, не смешивай с несвязными документами в одном чате.
Шаблон промпта
Сравни два варианта {тип документа}: оригинал и правку.
Задача: найти все смысловые изменения — не стилистические и не орфографические,
а те, которые меняют суть, обязательства или значение.
Читай весь документ равномерно — уделяй особое внимание {где искать: концу /
середине / конкретным разделам}. Обрати внимание на:
- замену союзов «и» ↔ «или»
- добавление или удаление отрицаний («не», «без», «кроме»)
- замену имён, названий, цифр
Для каждого найденного изменения укажи:
1. Оригинальный фрагмент
2. Изменённый фрагмент
3. Смысловое последствие (одним предложением)
Итоговая оценка: сохранён ли исходный смысл? Да / Частично (что изменилось) / Нет
ОРИГИНАЛ:
{оригинальный текст}
ПРАВКА:
{изменённый текст}
Плейсхолдеры:
- {тип документа} — договор, статья, ТЗ, инструкция
- {где искать} — укажи раздел, если знаешь где была правка; если нет — напиши "весь документ целиком, включая финальные разделы"
- {оригинальный текст} и {изменённый текст} — вставь напрямую
🚀 Быстрый старт — вставь в чат:
Вот шаблон для сравнения документов с учётом позиционного bias LLM.
Адаптируй под мою задачу: {твоя задача}.
Задавай уточняющие вопросы.
[вставить шаблон выше]
LLM спросит тип документа и где ожидаются изменения — потому что от этого зависит какие разделы усилить в инструкции и где специально "разбудить" внимание модели.
Почему это работает: что выяснили
Позиционная слепота при оценке не нова для LLM — но раньше её изучали только в разрезе порядка кандидатов (какой ответ показать первым: А или Б). Это исследование обнаружило другой, не описанный ранее тип: within-document positional weighting — позиционное взвешивание внутри самого документа.
Найти его самостоятельно было бы невозможно — слепая зона потому и называется слепой. Исследование её оцифровало: по данным переноса земли (earth mover's distance) GPT-4o наказывает ранние изменения примерно в 8–10 раз сильнее, чем поздние, по сравнению с Claude. Claude тоже имеет этот bias, но значительно меньший. GPT-5 — единственная модель с обратным эффектом: она строже к изменениям в конце.
Иерархия типов изменений (союзы → сущности → отрицание) оказалась универсальной — она одинакова для всех пяти протестированных моделей, независимо от размера, производителя и настроек. Это существенно: раз паттерн воспроизводится везде, вероятно он связан с тем, как языковые модели в принципе обрабатывают семантику, а не с архитектурными деталями конкретной модели.
Ограничения
⚠️ Специфика задачи: Все выводы справедливы для сравнительной оценки двух документов. При других задачах (резюмирование, генерация) позиционные эффекты могут работать иначе.
⚠️ Синтетические изменения: Тестировались три конкретных типа правок — отрицания, союзы, имена. Более сложные или многослойные изменения могут вести себя иначе.
⚠️ GPT-5 — исключение: Почти для всех выводов GPT-5 ведёт себя противоположно остальным. Если работаешь с ним — позиционная логика может быть перевёрнута.
⚠️ Документы 4–8 предложений: Самые чёткие позиционные эффекты — на коротких документах. При очень длинных текстах паттерны размываются.
Как исследовали
Исследователи взяли 40 000 статей из Wikipedia и создали «иголку в стоге сена»: брали почти идентичные пары документов, где одно предложение было изменено одним из трёх способов — вставка отрицания ("не"), замена союза ("и"→"или"), замена именованной сущности (другой город/человек). Затем двигали это изменённое предложение по документу: в начало, середину, конец. И меняли окружающий контекст — либо оставляли оригинальный (связный), либо заменяли случайными предложениями из другой статьи.
Всё это дало 3000 комбинаций параметров и десятки тысяч оценочных запросов к пяти моделям: GPT-4o, GPT-5, Claude, Gemini, o4-mini. Каждая пара документов оценивалась по шкале 0–100 на семантическую схожесть. Результат: позиционный bias обнаружился абсолютно во всех моделях, во всех типах изменений — вопрос только в величине. Особенно удивило, что эффект работает уже на 4-предложенных документах: никакого "длинного контекста" не нужно.
Адаптации
📍 Техника: принудительное внимание к уязвимым позициям
Если знаешь, что важное изменение — в конце документа (или не знаешь где), явно скажи модели об этом:
🔧 Добавь в промпт:
Читай документ ВЕСЬ, включая финальные абзацы и разделы после основного текста. Изменения в конце документа не менее важны, чем в начале.
Это не обманет физику позиционного bias полностью, но активирует у модели дополнительную "осознанность" при обработке конца.
📍 Адаптация: контроль договорных союзов
Исследование обнаружило, что замена союза ("и"/"или") карается всеми моделями строже всего — очевидно потому, что это минимальное изменение с максимальным смысловым последствием. Прямое применение:
💡 Промпт для проверки договора или ТЗ:
Проверь этот документ на критические союзные конструкции. Найди все места где стоит «или» — и объясни, становится ли условие более или менее ограничивающим, если заменить на «и». Отметь риски для каждого такого места. {документ}
📍 Экстраполяция: выбор модели под задачу оценки
Данные исследования прямо говорят: Claude даёт бинарные суждения при неоднозначном контексте, GPT-4o — градуированные. Это значит:
- Если нужен чёткий ответ "ошибка есть / нет" → Claude
- Если нужна шкала "насколько сильно изменился смысл" → GPT-4o
- Если нужна проверка для коротких документов с изменениями в конце → избегай GPT-5, его позиционный bias обратный
Ресурсы
Semantic Needles in Document Haystacks: Sensitivity Testing of LLM-as-a-Judge Similarity Scoring
Авторы: Sinan G. Aksoy, Alexandra A. Sabrio, Erik VonKaenel, Lee Burke
Pacific Northwest National Laboratory, Washington University in St. Louis, Humana Inc.
Базовый датасет: Plain Text Wikipedia
Отсылки в работе: Liu et al. [2023] "Lost in the Middle"; Wang et al. [2024] о систематических bias в LLM-оценке; Cook et al. [2018] по семантическим иллюзиям у людей
