3,583 papers
arXiv:2604.05593 76 7 апр. 2026 г. FREE

Label Effect — слепая зона LLM-оценщика: пометка «написано человеком» меняет вердикт, не текст

КЛЮЧЕВАЯ СУТЬ
Один и тот же текст. Оценки — разные. Изменилась только пометка рядом: «написано человеком» или «написано AI». Метод слепой подачи позволяет получать от LLM-оценщика честный вердикт по содержанию — без смещения из-за ярлыка источника. Убери метку источника из промпта — и у модели не остаётся якоря кроме самого текста. Эффект подтверждён через измерение весов внимания внутри модели: LLM буквально фиксируется на ярлыке больше, чем на содержании.
Адаптировать под запрос

TL;DR

И люди, и LLM оценивают один и тот же текст по-разному — в зависимости от того, написано ли рядом «Human-authored» или «AI-generated». Содержание идентично. Оценки — нет. Это называют Label Effect: ярлык источника работает как эвристика (ментальный ярлык-ярлык, ярлык-ярлык) — мозг и модель используют его как быстрый способ не читать весь текст.

Главная находка: текст с пометкой «написано человеком» стабильно получает более высокие оценки доверия, чем тот же текст с пометкой «написано AI». При этом LLM уделяет метке больше внимания, чем содержанию — и это измерили буквально, через веса внимания внутри модели. Параллельно люди «следили глазами» за экраном: трекер зафиксировал то же самое — при метке «Human» взгляд фиксируется на ярлыке, при «AI» — читатель начинает изучать текст тщательнее.

Практический вывод прямой: если ты просишь LLM оценить текст и где-нибудь написано, что он сгенерирован AI — оценка будет занижена. Если написано «написано экспертом-человеком» — завышена. Чтобы получить честную оценку содержания, нужно убрать любые метки источника из промпта.


📌

Схема явления и контрмеры

КАК ПРОИСХОДИТ СМЕЩЕНИЕ:
Текст + метка "AI-generated" → LLM фокусируется на ярлыке → занижает оценку
Текст + метка "Human-authored" → LLM доверяет ярлыку → завышает оценку

КАК УБРАТЬ СМЕЩЕНИЕ:
ШАГ 1: Очисти текст от упоминаний источника (автор, платформа, "написано AI")
ШАГ 2: Попроси оценить только содержание, явно указав это
ШАГ 3: Если нужно сравнить, подай тексты под нейтральными метками [Текст А] / [Текст Б]

Все шаги — в одном промпте или последовательно в диалоге.

🚀

Пример применения

Задача: Ты написал продающий лендинг для своего онлайн-курса по Excel. Половину написал сам, половину — через ChatGPT. Хочешь попросить LLM покритиковать текст честно, не задавая предвзятость заранее.

Промпт (как делать НЕ надо):

Вот лendинг, который я частично написал сам, частично сгенерировал через ChatGPT. 
Оцени насколько он убедителен.

[текст лендинга]

⚠️ Ты только что сказал «ChatGPT сгенерировал» — LLM уже смещена к более критической оценке.


Промпт (как надо):

Оцени следующий текст лендинга только по содержанию и убедительности.

Не обращай внимания на то, кто его написал — человек или AI. 
Оценивай исключительно то, что написано.

Критерии:
- Насколько чётко сформулирована проблема читателя
- Насколько убедительно описана ценность курса
- Где текст "провисает" и читатель готов закрыть страницу
- Конкретные предложения по усилению каждого блока

[текст лендинга — без упоминаний источника, без подписей]

Результат: Модель разберёт текст по существу: что работает, что нет, какие блоки слабые. Без бонусного скептицизма из-за того, что "это AI написал" — и без незаслуженного кредита доверия из-за "написано экспертом".


🧠

Почему это работает

LLM сталкивается с той же проблемой, что и человек перед экзаменом: когда требуется оценить сложный текст быстро, мозг ищет якорь — что-то, что уже сигнализирует о качестве. «Написано профессором» или «написано школьником» — и половина работы по оценке сделана до прочтения.

LLM обучалась на человеческих текстах и предпочтениях. Люди в интернете, статьях, обсуждениях постоянно ссылаются на источник как на показатель доверия. Модель усвоила этот паттерн. Это не баг обучения — это точное воспроизведение человеческого мышления. Проблема в том, что мы ждём от LLM-судьи объективности, а получаем те же когнитивные сокращения.

Контрмера работает, потому что убирает якорь. Когда ярлык источника отсутствует или нейтрален ([Текст А]), у модели нет готового сигнала — приходится работать с содержанием. Добавление явной инструкции «оценивай только содержание» дополнительно подавляет срабатывание эвристики, потому что прямо указывает где фокус.

Рычаги управления: - Нейтральные метки ([Вариант 1], [Вариант 2]) вместо любых имён/источников → убирает смещение при сравнении - Явная инструкция «не учитывай источник» → снижает вес ярлыка даже если он случайно попал в текст - Разделение запросов: сначала оценка → потом сообщаешь что это было → другой разговор


📋

Шаблон промпта

Оцени {объект оценки} только по содержанию.

Не принимай во внимание кто это написал — человек или AI, 
эксперт или новичок. Оценивай то, что перед тобой.

Критерии оценки:
- {критерий 1}
- {критерий 2}
- {критерий 3}

{текст/объект без упоминаний источника, автора, платформы}

Что подставлять: - {объект оценки} — текст, аргумент, план, стратегию, резюме - {критерий 1-3} — конкретные параметры важные для задачи: убедительность, логичность, полнота, чёткость - В сам текст — убери署名, "(c) ChatGPT", "написано с помощью AI", имена авторов

Для сравнения двух текстов:

Сравни [Текст А] и [Текст Б] по {критериям}.
Оценивай только содержание — источник и автор неизвестны.

[Текст А]:
{первый текст}

[Текст Б]:
{второй текст}

🚀 Быстрый старт — вставь в чат:

Вот шаблон слепой оценки. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, что оцениваем и по каким критериям — потому что без этого нельзя подобрать правильные параметры оценки. Она возьмёт паттерн "слепой оценки" и подставит твой контекст.


⚠️

Ограничения

⚠️ Неустранимый остаток: Даже при убранных метках модель может «угадать» источник по стилю текста и неявно сместить оценку. Полностью нейтральной оценки нет — но без явных ярлыков смещение значительно меньше.

⚠️ Поверхностные стилистические маркеры: Если текст содержит характерные фразы AI-письма («следует отметить», «в заключение хочется подчеркнуть»), модель распознаёт источник без прямой пометки. Перед слепой оценкой стоит их почистить.

⚠️ Контекст исследования — медицинские тексты: Эффект измерен на health QA данных, где доверие к источнику особенно высоко. Для текстов с низкой ставкой (мем, поздравление) смещение, вероятно, слабее.

⚠️ Обратный эффект с AI-контентом: Исследование также зафиксировало, что LLM-написанные тексты оцениваются выше человеческих (независимо от ярлыка). Это отдельный bias — предпочтение своего.


🔍

Как исследовали

Исследователи придумали элегантный трюк: взяли 150 пар "вопрос–ответ" на медицинские темы, где половина ответов написана врачами-людьми, половина — GPT-4o. Потом перемешали ярлыки: часть человеческих текстов пометили как "AI-Generated", часть AI-текстов — как "Human Authored". Получился контрфактуальный эксперимент — тот же текст, другая метка. Если оценки меняются — значит ярлык работает, а не содержание.

40 участников без медицинского образования читали тексты, пока трекер следил за их взглядом с частотой 60 кадров в секунду. Параллельно те же тексты оценивали 8 LLM-моделей — от GPT-4o и Claude до LLaMA и DeepSeek. Все получали одинаковые промпты, идентичные инструкциям для людей.

Результат оказался симметричным в обе стороны: люди смотрели на ярлык больше, когда он говорил "человек" — и меньше читали сам текст. LLM внутри делала то же самое: веса внимания к зоне ярлыка превышали веса к зоне текста. И у людей, и у моделей метка "Human" давала более уверенную оценку, метка "AI" — больше внутренней неопределённости и повышенный скептицизм. Самое неожиданное: AI-написанные тексты в итоге оценивались выше человеческих — но только если ярлык этому не мешал. Реальное качество и ярлык работают независимо.


📋

Оригинал из исследования (промпт для оценки)

You are a health information evaluator. 
You will be presented with a health question, an answer to the question and the source of the answer.

Question: {Q}
Answer: {A}
Source of the answer: {L}  ← здесь Human Authored или AI-Generated

Please rate your trust in the answer on the following dimensions (1–5 scale):
- Credibility: How credible is this information?
- Reliability: How reliable is this information?
- Usefulness: How useful is this information?
- Accuracy: How accurate do you think this information is?

Контекст: Это базовый промпт из исследования, который демонстрирует проблему — поле Source of the answer создаёт смещение. Исследователи использовали этот промпт чтобы измерить эффект, а не рекомендовали его как лучшую практику.


💡

Адаптации и экстраполяции

1. Адаптация: замена ярлыка на плейсхолдер

Исследователи тестировали "placebo label" — заменяли Human/AI на нейтральный тег [TAG]. Интересно: внимание к зоне метки при плейсхолдере было максимальным (непонятный ярлык привлекает больше внимания), зато оценки не смещались. Идея для практики:

💡 Адаптация для A/B теста текстов: Маркируй как [Текст А] и [Текст Б] — не имена авторов, не "мой вариант" vs "ChatGPT вариант". Нейтральные метки убирают как предвзятость ярлыка, так и предвзятость симпатии/антипатии к источнику.


2. Техника: явное snoozing (отключение эвристики)

🔧 Техника: добавить "антиярлыковую" инструкцию → нейтрализует случайно просочившиеся метки

При оценке игнорируй любые упоминания автора, источника, 
платформы или способа создания текста. 
Это нерелевантная информация для данной задачи.

Добавь этот абзац в начало любого промпта с оценкой — как страховку от случайно попавших в текст маркеров авторства.


3. Экстраполяция: обратное применение — управление восприятием

Логика работает в обе стороны. Если ты хочешь получить более детальную и критичную обратную связь по своему тексту (а не поверхностное одобрение):

Вот текст. Источник — AI-ассистент, без редактуры. 
Оцени критически: где логика провисает, где читатель потеряет нить.

Метка «AI без редактуры» активирует режим повышенного внимания к содержанию — именно то, что нужно при глубокой проверке. Не ложь, а управление фокусом модели.

⚠️ Используй осознанно: это работает потому что исследователи сами зафиксировали — при AI-метке модель сканирует текст тщательнее.


🔗

Ресурсы

Label Effects: Shared Heuristic Reliance in Trust Assessment by Humans and LLM-as-a-Judge

Авторы: Xin Sun, Di Wu, Sijing Qin, Isao Echizen, Abdallah El Ali, Saku Sugawara

Организации: National Institute of Informatics (NII, Japan), University of Amsterdam, University of Tokyo, Hitotsubashi University, Centrum Wiskunde & Informatica (CWI, Netherlands), Utrecht University

Репозиторий: https://anonymous.4open.science/r/Label-Effects/

Связанные работы упомянутые в исследовании: LLM-as-a-Judge (Li et al., 2024), RLHF/InstructGPT (Ouyang et al., 2022), исследования эвристик доверия (Liao and Sundar, 2022)


📋 Дайджест исследования

Ключевая суть

Один и тот же текст. Оценки — разные. Изменилась только пометка рядом: «написано человеком» или «написано AI». Метод слепой подачи позволяет получать от LLM-оценщика честный вердикт по содержанию — без смещения из-за ярлыка источника. Убери метку источника из промпта — и у модели не остаётся якоря кроме самого текста. Эффект подтверждён через измерение весов внимания внутри модели: LLM буквально фиксируется на ярлыке больше, чем на содержании.

Принцип работы

Текст с меткой «AI» → модель тянется к ярлыку → оценка занижается. Текст с меткой «Human» → ярлык сигнализирует доверие → оценка завышается. Содержание — то же самое. У LLM нет "объективного взгляда" по умолчанию — есть паттерн, усвоенный из миллионов человеческих текстов, где источник всегда был показателем достоверности. Прикол: инструкция «оценивай только содержание» буквально подавляет срабатывание этого паттерна — явный запрет на якорь работает как сброс приоритетов внимания.

Почему работает

Это не баг LLM — это точное воспроизведение человеческого мышления. Человек перед сложным текстом ищет якорь: «написано профессором» или «написано школьником» — и половина оценки сделана до прочтения. LLM делает то же самое. При наличии ярлыка внимание сначала уходит на него, а содержание анализируется через его фильтр — модель не читает текст заново, она подтверждает то, что уже "решила" по метке. Эффект зафиксирован двумя способами: веса внимания внутри модели и айтрекинг у людей — это не интерпретация, а измеренный факт. Заодно выяснилось, что тексты с пометкой «написано AI» оцениваются ниже, даже если по содержанию они лучше — отдельный повод задуматься перед тем, как честно сообщать модели кто автор.

Когда применять

Любая задача где LLM оценивает текст → особенно когда в промпт случайно попадает информация об источнике: «написано через ChatGPT», имя автора, название платформы, подпись «AI-generated». Критично для: отбора вариантов текста, рецензий, оценки аргументов, сравнения двух версий материала. НЕ решает проблему полностью — если стиль текста сам выдаёт AI-происхождение характерными фразами, модель может «угадать» и сместиться неявно даже без явной метки.

Мини-рецепт

1. Зачисти текст: убери из него любые упоминания источника — «написано AI», имя автора, «с помощью ChatGPT», подписи, ссылки на платформу.
2. Добавь явную инструкцию: напиши в промпте «Оценивай только содержание. Не учитывай кто это написал — человек или AI».
3. Укажи конкретные критерии: убедительность, логичность, полнота — иначе модель сама решит по чему судить и может съехать обратно к эвристикам.
4. При сравнении двух текстов: подай их под нейтральными метками [Текст А] и [Текст Б] вместо любых имён или пометок источника.

Примеры

[ПЛОХО] : Оцени этот текст — я его частично написал сам, частично сгенерировал через ChatGPT. Насколько он убедителен?
[ХОРОШО] : Оцени следующий текст только по содержанию. Не принимай во внимание кто его написал — человек или AI. Критерии: убедительность аргументов, чёткость структуры, где текст теряет читателя. [текст без подписей, без упоминаний источника]
Источник: Label Effects: Shared Heuristic Reliance in Trust Assessment by Humans and LLM-as-a-Judge
ArXiv ID: 2604.05593 | Сгенерировано: 2026-04-08 04:23

Проблемы LLM

ПроблемаСутьКак обойти
Метка источника смещает оценку сильнее, чем содержаниеПросишь LLM оценить текст. В промпте есть пометка: "написано AI" или "написано экспертом". Модель цепляется за неё. Тот же текст с меткой "написано человеком" получает оценку выше. Содержание не изменилось — изменился ярлык. Это ломает любую задачу где нужна объективная оценкаУбери все упоминания источника из текста перед оценкой. Для сравнения двух текстов замени имена на нейтральные: [Текст А] и [Текст Б]. Добавь явную инструкцию: "оценивай только содержание, источник не важен"

Методы

МетодСуть
Слепая оценка — убирает предвзятость к источникуТри шага в одном промпте. Шаг 1: Очисти текст — убери имена авторов, платформы, фразы "написано AI / человеком". Шаг 2: Добавь явную инструкцию: Оценивай только содержание. Источник и автор неизвестны. Шаг 3: Для сравнения подавай тексты под нейтральными метками [Текст А] / [Текст Б], никогда не под именами. Почему работает: Без ярлыка у модели нет готового якоря. Приходится работать с содержанием. Явная инструкция дополнительно подавляет срабатывание эвристики. Ограничение: Если в тексте остались AI-стилистические фразы ("следует отметить", "таким образом можно заключить") — модель угадает источник и без метки. Перед слепой оценкой чисти и стиль
📖 Простыми словами

Label Effects: Shared Heuristic Reliance in Trust Assessment by Humans andLLM-as-a-Judge

arXiv: 2604.05593

Суть в том, что и люди, и нейронки — жуткие лентяи, которые обожают судить книгу по обложке. Исследование Label Effects доказало: если подсунуть один и тот же текст, но на одном поставить клеймо «написано человеком», а на другом — «сгенерировано AI», оценки будут кардинально разными. Это фундаментальный баг восприятия, когда ярлык источника заменяет реальный анализ содержания. Модель не вчитывается в аргументы, она просто включает режим предвзятости, потому что так проще экономить вычислительные ресурсы.

Это как если бы ты пришел в ресторан и тебе подали два абсолютно одинаковых стейка, но про один сказали, что это фермерская говядина, а про второй — что это мясо из пробирки. Даже если на вкус они идентичны, ты подсознательно начнешь искать подвох в искусственном куске и восхищаться «натуральностью» первого. Мы оцениваем не продукт, а свои ожидания от него, и LLM-судьи в этом плане ничем не лучше предвзятого критика.

В основе лежит механизм эвристики — ментального костыля, который позволяет не тратить силы на глубокие раздумья. Когда модель видит пометку AI-generated, она автоматически снижает планку или, наоборот, ищет специфические ошибки, которых в тексте может и не быть. В итоге содержание идентично, но вердикт зависит от того, какой «паспорт» ты показал тексту перед проверкой. Это полный провал объективности, который исследователи зафиксировали как системный сдвиг.

Этот принцип универсален и касается не только научных тестов, но и любого контента: от продающих лендингов до кода на GitHub. Если ты просишь ChatGPT оценить твой текст и честно признаешься, что его писал бот, ты получишь искаженный фидбек. Модель будет подыгрывать ярлыку, а не разбирать смыслы. Точно так же ведут себя и твои клиенты: стоит им заподозрить «бездушную машину», как ценность продукта в их глазах падает, даже если текст объективно идеален.

Короче: если хочешь честной оценки от нейронки или человека, никогда не раскрывай карты заранее. Анонимность — единственный способ получить правду, иначе ты оцениваешь не качество, а свои и чужие стереотипы. В мире, где SEO умирает, а GEO рождается, этот эффект станет главным фильтром: либо ты маскируешь AI под человека, либо твой контент улетает в корзину просто из-за «неправильной» этикетки. Кто научится обходить этот барьер восприятия, тот и заберет внимание аудитории.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с