TL;DR
И люди, и LLM оценивают один и тот же текст по-разному — в зависимости от того, написано ли рядом «Human-authored» или «AI-generated». Содержание идентично. Оценки — нет. Это называют Label Effect: ярлык источника работает как эвристика (ментальный ярлык-ярлык, ярлык-ярлык) — мозг и модель используют его как быстрый способ не читать весь текст.
Главная находка: текст с пометкой «написано человеком» стабильно получает более высокие оценки доверия, чем тот же текст с пометкой «написано AI». При этом LLM уделяет метке больше внимания, чем содержанию — и это измерили буквально, через веса внимания внутри модели. Параллельно люди «следили глазами» за экраном: трекер зафиксировал то же самое — при метке «Human» взгляд фиксируется на ярлыке, при «AI» — читатель начинает изучать текст тщательнее.
Практический вывод прямой: если ты просишь LLM оценить текст и где-нибудь написано, что он сгенерирован AI — оценка будет занижена. Если написано «написано экспертом-человеком» — завышена. Чтобы получить честную оценку содержания, нужно убрать любые метки источника из промпта.
Схема явления и контрмеры
КАК ПРОИСХОДИТ СМЕЩЕНИЕ:
Текст + метка "AI-generated" → LLM фокусируется на ярлыке → занижает оценку
Текст + метка "Human-authored" → LLM доверяет ярлыку → завышает оценку
КАК УБРАТЬ СМЕЩЕНИЕ:
ШАГ 1: Очисти текст от упоминаний источника (автор, платформа, "написано AI")
ШАГ 2: Попроси оценить только содержание, явно указав это
ШАГ 3: Если нужно сравнить, подай тексты под нейтральными метками [Текст А] / [Текст Б]
Все шаги — в одном промпте или последовательно в диалоге.
Пример применения
Задача: Ты написал продающий лендинг для своего онлайн-курса по Excel. Половину написал сам, половину — через ChatGPT. Хочешь попросить LLM покритиковать текст честно, не задавая предвзятость заранее.
Промпт (как делать НЕ надо):
Вот лendинг, который я частично написал сам, частично сгенерировал через ChatGPT.
Оцени насколько он убедителен.
[текст лендинга]
⚠️ Ты только что сказал «ChatGPT сгенерировал» — LLM уже смещена к более критической оценке.
Промпт (как надо):
Оцени следующий текст лендинга только по содержанию и убедительности.
Не обращай внимания на то, кто его написал — человек или AI.
Оценивай исключительно то, что написано.
Критерии:
- Насколько чётко сформулирована проблема читателя
- Насколько убедительно описана ценность курса
- Где текст "провисает" и читатель готов закрыть страницу
- Конкретные предложения по усилению каждого блока
[текст лендинга — без упоминаний источника, без подписей]
Результат: Модель разберёт текст по существу: что работает, что нет, какие блоки слабые. Без бонусного скептицизма из-за того, что "это AI написал" — и без незаслуженного кредита доверия из-за "написано экспертом".
Почему это работает
LLM сталкивается с той же проблемой, что и человек перед экзаменом: когда требуется оценить сложный текст быстро, мозг ищет якорь — что-то, что уже сигнализирует о качестве. «Написано профессором» или «написано школьником» — и половина работы по оценке сделана до прочтения.
LLM обучалась на человеческих текстах и предпочтениях. Люди в интернете, статьях, обсуждениях постоянно ссылаются на источник как на показатель доверия. Модель усвоила этот паттерн. Это не баг обучения — это точное воспроизведение человеческого мышления. Проблема в том, что мы ждём от LLM-судьи объективности, а получаем те же когнитивные сокращения.
Контрмера работает, потому что убирает якорь. Когда ярлык источника отсутствует или нейтрален ([Текст А]), у модели нет готового сигнала — приходится работать с содержанием. Добавление явной инструкции «оценивай только содержание» дополнительно подавляет срабатывание эвристики, потому что прямо указывает где фокус.
Рычаги управления:
- Нейтральные метки ([Вариант 1], [Вариант 2]) вместо любых имён/источников → убирает смещение при сравнении
- Явная инструкция «не учитывай источник» → снижает вес ярлыка даже если он случайно попал в текст
- Разделение запросов: сначала оценка → потом сообщаешь что это было → другой разговор
Шаблон промпта
Оцени {объект оценки} только по содержанию.
Не принимай во внимание кто это написал — человек или AI,
эксперт или новичок. Оценивай то, что перед тобой.
Критерии оценки:
- {критерий 1}
- {критерий 2}
- {критерий 3}
{текст/объект без упоминаний источника, автора, платформы}
Что подставлять:
- {объект оценки} — текст, аргумент, план, стратегию, резюме
- {критерий 1-3} — конкретные параметры важные для задачи: убедительность, логичность, полнота, чёткость
- В сам текст — убери署名, "(c) ChatGPT", "написано с помощью AI", имена авторов
Для сравнения двух текстов:
Сравни [Текст А] и [Текст Б] по {критериям}.
Оценивай только содержание — источник и автор неизвестны.
[Текст А]:
{первый текст}
[Текст Б]:
{второй текст}
🚀 Быстрый старт — вставь в чат:
Вот шаблон слепой оценки. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, что оцениваем и по каким критериям — потому что без этого нельзя подобрать правильные параметры оценки. Она возьмёт паттерн "слепой оценки" и подставит твой контекст.
Ограничения
⚠️ Неустранимый остаток: Даже при убранных метках модель может «угадать» источник по стилю текста и неявно сместить оценку. Полностью нейтральной оценки нет — но без явных ярлыков смещение значительно меньше.
⚠️ Поверхностные стилистические маркеры: Если текст содержит характерные фразы AI-письма («следует отметить», «в заключение хочется подчеркнуть»), модель распознаёт источник без прямой пометки. Перед слепой оценкой стоит их почистить.
⚠️ Контекст исследования — медицинские тексты: Эффект измерен на health QA данных, где доверие к источнику особенно высоко. Для текстов с низкой ставкой (мем, поздравление) смещение, вероятно, слабее.
⚠️ Обратный эффект с AI-контентом: Исследование также зафиксировало, что LLM-написанные тексты оцениваются выше человеческих (независимо от ярлыка). Это отдельный bias — предпочтение своего.
Как исследовали
Исследователи придумали элегантный трюк: взяли 150 пар "вопрос–ответ" на медицинские темы, где половина ответов написана врачами-людьми, половина — GPT-4o. Потом перемешали ярлыки: часть человеческих текстов пометили как "AI-Generated", часть AI-текстов — как "Human Authored". Получился контрфактуальный эксперимент — тот же текст, другая метка. Если оценки меняются — значит ярлык работает, а не содержание.
40 участников без медицинского образования читали тексты, пока трекер следил за их взглядом с частотой 60 кадров в секунду. Параллельно те же тексты оценивали 8 LLM-моделей — от GPT-4o и Claude до LLaMA и DeepSeek. Все получали одинаковые промпты, идентичные инструкциям для людей.
Результат оказался симметричным в обе стороны: люди смотрели на ярлык больше, когда он говорил "человек" — и меньше читали сам текст. LLM внутри делала то же самое: веса внимания к зоне ярлыка превышали веса к зоне текста. И у людей, и у моделей метка "Human" давала более уверенную оценку, метка "AI" — больше внутренней неопределённости и повышенный скептицизм. Самое неожиданное: AI-написанные тексты в итоге оценивались выше человеческих — но только если ярлык этому не мешал. Реальное качество и ярлык работают независимо.
Оригинал из исследования (промпт для оценки)
You are a health information evaluator.
You will be presented with a health question, an answer to the question and the source of the answer.
Question: {Q}
Answer: {A}
Source of the answer: {L} ← здесь Human Authored или AI-Generated
Please rate your trust in the answer on the following dimensions (1–5 scale):
- Credibility: How credible is this information?
- Reliability: How reliable is this information?
- Usefulness: How useful is this information?
- Accuracy: How accurate do you think this information is?
Контекст: Это базовый промпт из исследования, который демонстрирует проблему — поле Source of the answer создаёт смещение. Исследователи использовали этот промпт чтобы измерить эффект, а не рекомендовали его как лучшую практику.
Адаптации и экстраполяции
1. Адаптация: замена ярлыка на плейсхолдер
Исследователи тестировали "placebo label" — заменяли Human/AI на нейтральный тег [TAG]. Интересно: внимание к зоне метки при плейсхолдере было максимальным (непонятный ярлык привлекает больше внимания), зато оценки не смещались. Идея для практики:
💡 Адаптация для A/B теста текстов: Маркируй как
[Текст А]и[Текст Б]— не имена авторов, не "мой вариант" vs "ChatGPT вариант". Нейтральные метки убирают как предвзятость ярлыка, так и предвзятость симпатии/антипатии к источнику.
2. Техника: явное snoozing (отключение эвристики)
🔧 Техника: добавить "антиярлыковую" инструкцию → нейтрализует случайно просочившиеся метки
При оценке игнорируй любые упоминания автора, источника,
платформы или способа создания текста.
Это нерелевантная информация для данной задачи.
Добавь этот абзац в начало любого промпта с оценкой — как страховку от случайно попавших в текст маркеров авторства.
3. Экстраполяция: обратное применение — управление восприятием
Логика работает в обе стороны. Если ты хочешь получить более детальную и критичную обратную связь по своему тексту (а не поверхностное одобрение):
Вот текст. Источник — AI-ассистент, без редактуры.
Оцени критически: где логика провисает, где читатель потеряет нить.
Метка «AI без редактуры» активирует режим повышенного внимания к содержанию — именно то, что нужно при глубокой проверке. Не ложь, а управление фокусом модели.
⚠️ Используй осознанно: это работает потому что исследователи сами зафиксировали — при AI-метке модель сканирует текст тщательнее.
Ресурсы
Label Effects: Shared Heuristic Reliance in Trust Assessment by Humans and LLM-as-a-Judge
Авторы: Xin Sun, Di Wu, Sijing Qin, Isao Echizen, Abdallah El Ali, Saku Sugawara
Организации: National Institute of Informatics (NII, Japan), University of Amsterdam, University of Tokyo, Hitotsubashi University, Centrum Wiskunde & Informatica (CWI, Netherlands), Utrecht University
Репозиторий: https://anonymous.4open.science/r/Label-Effects/
Связанные работы упомянутые в исследовании: LLM-as-a-Judge (Li et al., 2024), RLHF/InstructGPT (Ouyang et al., 2022), исследования эвристик доверия (Liao and Sundar, 2022)
