3,583 papers
arXiv:2604.18835 74 20 апр. 2026 г. FREE

LLM-Judge Sensitivity: почему модель замечает изменения в начале текста и игнорирует в конце

КЛЮЧЕВАЯ СУТЬ
Замена «или» на «и» в конце договора — и GPT-4o почти не заметит. Та же замена в первом абзаце — оценка схожести рухнет в 8–10 раз сильнее. Это исследование позволяет понять где LLM-оценщик слеп и как точечно компенсировать это при проверке и сравнении документов. Фишка: LLM назначает разный «вес» позиции в тексте — ранние предложения формируют рамку для интерпретации всего остального. Без явного указания места правки позиционный сдвиг делает сравнение документов ненадёжным — особенно для правок в конце текста.
Адаптировать под запрос

TL;DR

LLMs оценивают документы неравномерно по позиции: одно и то же изменение в начале текста снижает оценку схожести сильнее, чем то же изменение в конце. Это не про длину контекста — эффект стабильно работает уже на 4–8 предложениях. Исследователи проверили это через тысячи пар документов: брали почти идентичные тексты, меняли одно предложение, и двигали его по документу.

Когда просишь LLM сравнить два текста или оценить, насколько изменилась версия, модель не читает равномерно. Ранние предложения "весят" больше. Если правка произошла в конце — модель её фактически простит. Если та же правка в начале — ударит по оценке в разы сильнее. Похожий эффект есть и у людей при чтении, но у разных LLM его величина кардинально различается.

Воздействовать на LLM-оценку можно двумя рычагами: позицией изменения (начало vs. конец) и связностью контекста вокруг него. Если изменённое предложение окружено нерелевантным контекстом, оценка становится хаотичной — модель уходит в полярности: либо «абсолютно одинаковые», либо «совершенно разные». Стабильных средних оценок почти не остаётся.


🔬

Схема метода

Это не техника-промпт, а карта слепых зон LLM при сравнении и оценке текстов. Четыре принципа, применимые в чате напрямую:

ПРИНЦИП 1: Позиция → Вес
Изменение в начале документа → модель заметит и накажет сильнее
Изменение в конце → модель простит или проигнорирует

ПРИНЦИП 2: Контекст → Стабильность оценки
Изменение в релевантном контексте → стабильная, предсказуемая оценка
Изменение в несвязном контексте → хаотичная оценка (0 или 100, ничего среднего)

ПРИНЦИП 3: Тип изменения → Иерархия жёсткости (одна для всех LLM)
"или" ↔ "и" (союзы) → карается сильнее всего
замена именованной сущности → карается средне
отрицание ("не") → карается мягче всего

ПРИНЦИП 4: Модель → Финегрпринт (у каждой свой стиль)
Claude → бинарные суждения (да/нет, no middle ground)
GPT-4o → градуированные оценки, замечает промежуточные различия
GPT-5 → аномалия: карает изменения в КОНЦЕ строже, чем в начале

🚀

Пример применения

Задача: Ты написал оферту на сайт. Юрист внёс правки. Просишь Claude проверить — не потеряли ли правки смысл оригинала. Важный момент: в конце документа юрист заменил «или» на «и» в пункте про ответственность.

Промпт:

Сравни два варианта договора оферты. Оцени по шкале от 0 до 100, насколько сохранён 
смысл оригинала в новой версии. Выдели каждое изменение, которое ты нашёл, 
и объясни — оно техническое (стиль, запятые) или смысловое (меняет суть обязательств).

ВАЖНО: Проверь особенно тщательно союзы «и» и «или» — они могут менять 
юридический смысл кардинально.

ОРИГИНАЛ:
[вставь оригинал]

НОВАЯ ВЕРСИЯ:
[вставь правку]

Результат: Модель пройдётся по документу и выведет список изменений с разбивкой по типу. Без явного указания на союзы — изменение «или→и» в конце документа с высокой вероятностью останется незамеченным или получит минимальный вес. С указанием — модель переключит на него внимание принудительно.


🧠

Почему это работает

Слабость: LLM не читает текст как человек — последовательно и с равным вниманием. Модель строит оценку через обработку всей последовательности токенов, и ранние токены формируют контекст для интерпретации поздних. Начало документа как бы "устанавливает рамку" — всё дальнейшее интерпретируется через неё.

Что умеет модель хорошо: Когда контекст вокруг изменения тематически связан, модель умеет его использовать. Релевантный контекст помогает модели "взвесить" важность изменения: если речь про авиахаб, отрицание "не самый загруженный аэропорт" — очевидное противоречие. Это снижает оценку схожести последовательно и предсказуемо.

Парадокс несвязного контекста: Когда изменённое предложение окружено несвязным текстом, модель теряет якорь для интерпретации. Казалось бы — нейтральный контекст должен делать оценку стабильнее. Происходит обратное: модель уходит в биполярные суждения. Либо "0 — разные тексты", либо "100 — одинаковые". Исследователи объясняют это interpretive frame account: без тематического контекста модель не может "подавить" или "поместить в рамку" изменение, поэтому реагирует абсолютным суждением.

Рычаги управления: - Яви изменение явно → скажи "проверь союзы" или "обрати особое внимание на конец". Это компенсирует позиционный сдвиг. - Выбирай модель под задачу → Claude для бинарных суждений (есть ошибка / нет ошибки), GPT-4o для нюансированной оценки (насколько сильно изменился смысл). - Держи контекст релевантным → если просишь сравнить договор, не смешивай с несвязными документами в одном чате.


📋

Шаблон промпта

Сравни два варианта {тип документа}: оригинал и правку.

Задача: найти все смысловые изменения — не стилистические и не орфографические, 
а те, которые меняют суть, обязательства или значение.

Читай весь документ равномерно — уделяй особое внимание {где искать: концу / 
середине / конкретным разделам}. Обрати внимание на:
- замену союзов «и» ↔ «или»
- добавление или удаление отрицаний («не», «без», «кроме»)
- замену имён, названий, цифр

Для каждого найденного изменения укажи:
1. Оригинальный фрагмент
2. Изменённый фрагмент
3. Смысловое последствие (одним предложением)

Итоговая оценка: сохранён ли исходный смысл? Да / Частично (что изменилось) / Нет

ОРИГИНАЛ:
{оригинальный текст}

ПРАВКА:
{изменённый текст}

Плейсхолдеры: - {тип документа} — договор, статья, ТЗ, инструкция - {где искать} — укажи раздел, если знаешь где была правка; если нет — напиши "весь документ целиком, включая финальные разделы" - {оригинальный текст} и {изменённый текст} — вставь напрямую

🚀 Быстрый старт — вставь в чат:

Вот шаблон для сравнения документов с учётом позиционного bias LLM. 
Адаптируй под мою задачу: {твоя задача}.
Задавай уточняющие вопросы.

[вставить шаблон выше]

LLM спросит тип документа и где ожидаются изменения — потому что от этого зависит какие разделы усилить в инструкции и где специально "разбудить" внимание модели.


🧠

Почему это работает: что выяснили

Позиционная слепота при оценке не нова для LLM — но раньше её изучали только в разрезе порядка кандидатов (какой ответ показать первым: А или Б). Это исследование обнаружило другой, не описанный ранее тип: within-document positional weighting — позиционное взвешивание внутри самого документа.

Найти его самостоятельно было бы невозможно — слепая зона потому и называется слепой. Исследование её оцифровало: по данным переноса земли (earth mover's distance) GPT-4o наказывает ранние изменения примерно в 8–10 раз сильнее, чем поздние, по сравнению с Claude. Claude тоже имеет этот bias, но значительно меньший. GPT-5 — единственная модель с обратным эффектом: она строже к изменениям в конце.

Иерархия типов изменений (союзы → сущности → отрицание) оказалась универсальной — она одинакова для всех пяти протестированных моделей, независимо от размера, производителя и настроек. Это существенно: раз паттерн воспроизводится везде, вероятно он связан с тем, как языковые модели в принципе обрабатывают семантику, а не с архитектурными деталями конкретной модели.


⚠️

Ограничения

⚠️ Специфика задачи: Все выводы справедливы для сравнительной оценки двух документов. При других задачах (резюмирование, генерация) позиционные эффекты могут работать иначе.

⚠️ Синтетические изменения: Тестировались три конкретных типа правок — отрицания, союзы, имена. Более сложные или многослойные изменения могут вести себя иначе.

⚠️ GPT-5 — исключение: Почти для всех выводов GPT-5 ведёт себя противоположно остальным. Если работаешь с ним — позиционная логика может быть перевёрнута.

⚠️ Документы 4–8 предложений: Самые чёткие позиционные эффекты — на коротких документах. При очень длинных текстах паттерны размываются.


🔍

Как исследовали

Исследователи взяли 40 000 статей из Wikipedia и создали «иголку в стоге сена»: брали почти идентичные пары документов, где одно предложение было изменено одним из трёх способов — вставка отрицания ("не"), замена союза ("и"→"или"), замена именованной сущности (другой город/человек). Затем двигали это изменённое предложение по документу: в начало, середину, конец. И меняли окружающий контекст — либо оставляли оригинальный (связный), либо заменяли случайными предложениями из другой статьи.

Всё это дало 3000 комбинаций параметров и десятки тысяч оценочных запросов к пяти моделям: GPT-4o, GPT-5, Claude, Gemini, o4-mini. Каждая пара документов оценивалась по шкале 0–100 на семантическую схожесть. Результат: позиционный bias обнаружился абсолютно во всех моделях, во всех типах изменений — вопрос только в величине. Особенно удивило, что эффект работает уже на 4-предложенных документах: никакого "длинного контекста" не нужно.


📌

Адаптации

📌

📍 Техника: принудительное внимание к уязвимым позициям

Если знаешь, что важное изменение — в конце документа (или не знаешь где), явно скажи модели об этом:

🔧 Добавь в промпт:

Читай документ ВЕСЬ, включая финальные абзацы и разделы после основного текста. 
Изменения в конце документа не менее важны, чем в начале.

Это не обманет физику позиционного bias полностью, но активирует у модели дополнительную "осознанность" при обработке конца.


📌

📍 Адаптация: контроль договорных союзов

Исследование обнаружило, что замена союза ("и"/"или") карается всеми моделями строже всего — очевидно потому, что это минимальное изменение с максимальным смысловым последствием. Прямое применение:

💡 Промпт для проверки договора или ТЗ:

Проверь этот документ на критические союзные конструкции. 
Найди все места где стоит «или» — и объясни, становится ли условие 
более или менее ограничивающим, если заменить на «и». 
Отметь риски для каждого такого места.

{документ}

📌

📍 Экстраполяция: выбор модели под задачу оценки

Данные исследования прямо говорят: Claude даёт бинарные суждения при неоднозначном контексте, GPT-4o — градуированные. Это значит:

  • Если нужен чёткий ответ "ошибка есть / нет" → Claude
  • Если нужна шкала "насколько сильно изменился смысл" → GPT-4o
  • Если нужна проверка для коротких документов с изменениями в конце → избегай GPT-5, его позиционный bias обратный

🔗

Ресурсы

Semantic Needles in Document Haystacks: Sensitivity Testing of LLM-as-a-Judge Similarity Scoring

Авторы: Sinan G. Aksoy, Alexandra A. Sabrio, Erik VonKaenel, Lee Burke

Pacific Northwest National Laboratory, Washington University in St. Louis, Humana Inc.

Базовый датасет: Plain Text Wikipedia

Отсылки в работе: Liu et al. [2023] "Lost in the Middle"; Wang et al. [2024] о систематических bias в LLM-оценке; Cook et al. [2018] по семантическим иллюзиям у людей


📋 Дайджест исследования

Ключевая суть

Замена «или» на «и» в конце договора — и GPT-4o почти не заметит. Та же замена в первом абзаце — оценка схожести рухнет в 8–10 раз сильнее. Это исследование позволяет понять где LLM-оценщик слеп и как точечно компенсировать это при проверке и сравнении документов. Фишка: LLM назначает разный «вес» позиции в тексте — ранние предложения формируют рамку для интерпретации всего остального. Без явного указания места правки позиционный сдвиг делает сравнение документов ненадёжным — особенно для правок в конце текста.

Принцип работы

Позиционный сдвиг работает по четырём правилам. Первое: где изменение — там и вес. Начало документа — накажет жёстко. Конец — простит или вовсе пропустит. Второе: тип правки тоже важен — иерархия одинакова для всех пяти протестированных моделей. Союзы («или» → «и») — самая опасная замена. Имена и названия — средне. Отрицание («не») — легче всего. Третье: несвязный контекст вокруг изменения ломает оценку. Модель теряет «якорь» для интерпретации. Результат — только полярные суждения: либо «одинаковые», либо «совершенно разные». Стабильных середин почти нет. Четвёртое: у каждой модели свой почерк. Claude даёт бинарные суждения — есть разница или нет. GPT-4o различает градации. GPT-5 — аномалия: у неё позиционный эффект перевёрнут, она строже к концу документа.

Почему работает

LLM обрабатывает текст последовательно. Ранние токены буквально формируют контекстную рамку — все последующие токены читаются через неё. Начало документа — это не просто «первое что видит модель». Это линза, через которую она смотрит на всё остальное. Изменение в начале перекраивает всю рамку. Изменение в конце встраивается в уже готовую картину — и часто не меняет итоговую оценку. С несвязным контекстом история отдельная. Казалось бы — нейтральный контекст должен делать оценку стабильнее. Происходит обратное. Без тематических «якорей» рядом с правкой модель не может поместить изменение в рамку. Итог — суждения улетают в полюса: 0 или 100. Это как судить матч без знания правил игры: либо «всё нормально», либо «катастрофа».

Когда применять

Сравнение документов → для юридических текстов, технических заданий, инструкций, многоверсионных статей — когда важно найти все смысловые правки, а не пропустить незаметное «или»→«и» в конце. Особенно ценно при ревью договоров, где небольшое изменение союза меняет суть обязательств. НЕ подходит напрямую для суммаризации и генерации — там позиционные эффекты работают иначе и исследованием не охвачены.

Мини-рецепт

1. Скажи где искать: если знаешь что правка в конце — напиши явно: «уделяй особое внимание финальным разделам». Без этого указания модель туда просто не дойдёт с нужным вниманием.
2. Назови типы правок отдельно: попроси проверить союзы «и»/«или», отрицания «не»/«без»/«кроме» и замены имён и цифр — по каждому типу отдельно. Это ломает позиционную слепоту для конкретных изменений.
3. Выбери модель под задачу: нужен ответ «есть смысловая ошибка / нет» — бери Claude. Нужно «насколько сильно изменился смысл» — бери GPT-4o. Работаешь с GPT-5 — помни про обратный эффект.
4. Держи контекст чистым: не смешивай сравниваемые документы с несвязными материалами в одном чате. Несвязный контекст делает оценку непредсказуемой.

Примеры

[ПЛОХО] : Сравни два варианта договора и оцени насколько они похожи
[ХОРОШО] : Сравни два варианта договора. Читай весь документ целиком — уделяй особое внимание финальным разделам. Найди каждую замену союзов «и»/«или», добавление или удаление «не», «без», «кроме», а также замены имён, названий, цифр. Для каждого изменения укажи: оригинальный фрагмент, правку и одно предложение о смысловом последствии. Итог: смысл сохранён / частично изменён (что именно) / не сохранён. ОРИГИНАЛ: [текст] ПРАВКА: [текст]
Источник: Semantic Needles in Document Haystacks: Sensitivity Testing of LLM-as-a-Judge Similarity Scoring
ArXiv ID: 2604.18835 | Сгенерировано: 2026-04-22 06:30

Проблемы LLM

ПроблемаСутьКак обойти
Модель игнорирует изменения в конце текстаПросишь сравнить два документа. Правка в начале — модель замечает и снижает оценку. Та же правка в конце — модель прощает или пропускает. Это не зависит от длины текста. Работает уже на 4–8 предложениях. Везде где просишь модель сравнить или оценить два варианта — результат будет искажёнЯвно скажи где искать: "обрати особое внимание на финальные разделы" или "проверь весь документ целиком, включая конец". Это принудительно переключает внимание модели
Несвязный контекст вокруг правки ломает оценкуПросишь модель сравнить текст. Изменённое предложение окружено несвязным контентом. Стабильных средних оценок не будет. Модель уходит в крайности: "идентичны" или "совершенно разные". Ничего промежуточного. Проблема: опасна при сравнении смешанных документов или когда правка в тематически далёком разделеДержи контекст однородным. Не смешивай несвязные блоки в одном запросе на сравнение. Если контекст вынужденно смешанный — проси модель оценивать каждый раздел отдельно

Методы

МетодСуть
Явное указание типа и места правкиСкажи модели что и где искать. Пример: Читай весь документ равномерно. Обрати особое внимание на: замену «и» ↔ «или», добавление/удаление отрицаний, замену имён и цифр. Особенно тщательно проверь финальные разделы. Почему работает: модель не распределяет внимание равномерно по умолчанию. Явная инструкция компенсирует позиционный перекос — она принудительно поднимает вес нужного места. Когда применять: любое сравнение документов где важна полнота. Когда не работает: если сам не знаешь где правка — всё равно лучше перечислить типы изменений чем ничего

Тезисы

ТезисКомментарий
Замена союзов «и»/«или» — самое опасное изменение для моделиТри типа правок дают разный удар по оценке схожести. От сильного к слабому: замена союза ("и" "или") замена именованной сущности добавление отрицания ("не"). Эта иерархия одинакова для всех протестированных моделей. Механика вероятно связана с тем как модели обрабатывают логические связи — союзы меняют смысл резче чем детали. Применяй: если хочешь заставить модель заметить изменение — покажи замену союза первой. Если хочешь понять насколько серьёзна правка — смотри первым делом на союзы
Несвязный контекст вокруг правки убирает средние оценкиКогда изменённое предложение окружено тематически связным текстом — оценка стабильная и предсказуемая. Когда контекст несвязный — модель теряет "рамку" для интерпретации и даёт только крайние суждения. Это контрintuitively: нейтральный контекст не помогает, а мешает. Применяй: для надёжного сравнения держи документы тематически однородными. Смешанный контекст = ненадёжная оценка
📖 Простыми словами

Semantic Needles in Document Haystacks: Sensitivity Testing ofLLM-as-a-Judge Similarity Scoring

arXiv: 2604.18835

Когда ты просишь нейронку сравнить два текста, она ведет себя не как беспристрастный судья, а как уставший читатель с дефицитом внимания. Исследование Semantic Needles доказало: LLM придают критическое значение началу документа и почти игнорируют хвост. Если ты изменишь одно слово в первом абзаце, модель закричит, что тексты разные, но если перепишешь половину финала — она может и глазом не моргнуть. Это фундаментальный баг архитектуры: ранние токены формируют рамку, через которую нейронка смотрит на всё остальное.

Это как если бы ты пришел на свидание в грязных ботинках, а потом весь вечер цитировал Бродского и шутил как бог. Первое впечатление уже испорчено, и твои старания в конце никого не волнуют. В глазах нейронки «грязные ботинки» в начале текста определяют его суть, а всё, что идет следом, — лишь второстепенный шум, который слабо влияет на итоговый вердикт.

Исследователи прогнали тысячи пар документов через метод чувствительного тестирования и выяснили, что эффект «начала» срабатывает мгновенно. Даже в коротких текстах на 4–8 предложений позиционный сдвиг ломает логику оценки. Если ты хочешь, чтобы модель заметила правку, ее нужно выносить в топ. Метод LLM-as-a-Judge лажает именно здесь: он переоценивает важность вступления и недооценивает финал, превращая объективную проверку в лотерею.

Принцип универсален и касается не только длинных лонгридов, но и любых рабочих задач. Проверяешь ли ты юридический договор, код или рекламную подачу — помни, что Claude и GPT предвзяты. Если юрист поменял «или» на «и» в пункте про ответственность в самом конце документа, нейронка с высокой вероятностью скажет, что смысл не изменился. Она просто «проморгала» финал, потому что уже вынесла решение на основе первых абзацев.

Короче: никогда не доверяй нейронке проверку важных деталей, если они запрятаны в подвал текста. Чтобы получить адекватный результат, дроби текст на куски или принудительно заставляй модель анализировать блоки по отдельности. Иначе ты рискуешь пропустить критическую ошибку просто потому, что твоя LLM — это ленивый критик, который читает только заголовки и вступление. Позиция решает всё, и игнорировать этот перекос — значит подставлять самого себя.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с