TL;DR
LREAD — рубрика для детекции AI-текста, основанная на национальных стандартах письма. Вместо интуитивной оценки "похоже на AI" она раскладывает текст на конкретные критерии: структура, пунктуация, лексика, креативность, регистр. Исследователи проверили на корейских текстах, но принципы универсальны: полированность ≠ человечность, AI выдаёт специфичные микро-паттерны, которые ловятся только при структурированной оценке.
Люди попадают в ловушку беглости: гладкий, грамотный текст воспринимается как человеческий, даже если это GPT. Студенты-лингвисты без рубрики различают AI vs человека с точностью 60% — хуже, чем GPT-детекторы (97%). Причина: они доверяют поверхностной правильности и не видят системных артефактов вроде однообразной пунктуации, шаблонных структур, избыточной Sino-Korean лексики (аналог канцелярита в русском).
После калибровки с рубрикой точность выросла до 100%. Рубрика работает как когнитивный каркас: вместо "кажется странным" эксперт отвечает на 10 конкретных вопросов с доказательствами. Калиброванные люди замечают микро-признаки, которые пропускают даже сильные LLM-детекторы: необязательные запятые в одних и тех же местах, spacing-паттерны, translationese (английский порядок слов в корейском тексте), шаблонные концовки.
Схема калибровки (3 фазы)
Исследование — это не техника промптинга, а метод обучения различению. Но извлекаемый принцип — структурированная оценка через рубрику:
ФАЗА 1: Интуитивная оценка
→ "Это AI или человек?" без критериев
→ Результат: 60% точность, -0.09 согласованность (люди противоречат друг другу)
ФАЗА 2: Оценка по рубрике LREAD
→ 10 критериев × баллы + обоснование каждого
→ Результат: 90% точность, 0.24 согласованность (начинают видеть одни и те же паттерны)
ФАЗА 3: Калиброванная экспертиза
→ Самые сложные тексты (детские эссе — AI не умеет писать как дети)
→ Результат: 100% точность, 0.82 согласованность (эксперты сходятся в оценках)
Между фазами — раскрытие правильных ответов. Не просто feedback, а ретроспективная калибровка: "Вот что ты пропустил, вот где был паттерн".
Извлекаемые принципы
Хотя исследование про детекцию, принципы применимы обратно — для создания более человечного AI-текста:
1. Рубрика структурированной оценки
Вместо "текст слишком идеальный" — 10 конкретных вопросов:
Содержание (40 баллов): - Тезис чёткий? - Аргументы достаточны? - Контраргументы учтены? - Креативность (нестандартные метафоры, личный опыт)
Организация (10 баллов): - Связность между абзацами - Связность между предложениями
Выражение (50 баллов): - Лексика (разнообразие, уместность) - Конструкции предложений - Пунктуация и грамматика - Креативность (стилистические отклонения, риск) - Соблюдение конвенций письма
Креативность оценивается дважды — в содержании (необычные аргументы) и в стиле (необычные формулировки).
2. Чеклист AI-признаков (что выдаёт GPT)
Калиброванные эксперты нашли паттерны, которые GPT-детекторы пропускают:
Структурные шаблоны: - "Во-первых... Во-вторых... В-третьих" — нумерация аргументов - Механическая трёхчастная структура (тезис → аргументы → вывод) - Слишком идеальная сбалансированность (всегда есть контраргумент, всегда есть синтез) - Повторяющиеся конструкции открытия абзацев
Микро-признаки (язык-специфичные): - Опциональная пунктуация в одних и тех же местах (запятые после вводных слов — всегда или никогда, нет вариации) - Spacing-артефакты (пробелы в составных словах) - Переизбыток формальной лексики (Sino-Korean в корейском ≈ канцелярит в русском) - Translationese — порядок слов и конструкции из другого языка (английские прилагательное+существительное вместо корейских)
Содержание: - Универсально-безопасные решения ("нужно улучшить образование", "важна ответственность общества") - Общие примеры без личного опыта - Избегание риска — никаких острых углов, всегда консенсус
Финал: - Шаблонные концовки: forward-looking (смотрим в будущее), коллективная ответственность
Человеческие признаки (что AI НЕ делает): - Орфографические ошибки, грамматические шероховатости - Идиосинкратичные метафоры (странные, но выразительные) - Эмоциональные апелляции и личные истории - Непредсказуемые переходы между мыслями - Стилистическая неоднородность внутри текста
3. Принцип калибровки через итерации
Эксперты улучшились с 60% до 100% не за счёт "больше опыта", а за счёт структурированного feedback:
- Попытка → ошибка
- Раскрытие правильного ответа + паттернов
- Ретроспективный анализ: "Где был сигнал?"
- Следующая попытка с новым знанием
Это применимо к работе с LLM: вместо "переделай лучше" → "вот 10 критериев, оцени по каждому, покажи где не дотягиваешь, исправь конкретно эти места".
Пример применения (обратная задача)
Контекст: Этот метод про детекцию, но признаки можно использовать обратно — чтобы GPT писал менее узнаваемо.
Задача: Написать пост про выгорание фрилансера для Telegram-канала. Обычный GPT выдаст гладкий текст с универсальными советами ("планируйте отдых", "найдите баланс"). Мы хотим живой текст с шероховатостями.
Промпт:
Напиши пост про выгорание фрилансера (800 знаков). Но избегай AI-паттернов:
СТРУКТУРА:
- Не используй нумерацию (Во-первых, Во-вторых)
- Не балансируй идеально (можно резко начать, резко закончить)
- Не делай трёхчастную структуру тезис→аргументы→вывод
СОДЕРЖАНИЕ:
- Конкретика вместо универсальных советов ("научитесь говорить нет" → "в среду отменил созвон в 23:00 и не умер")
- Личный опыт, не общие места
- Можно без решения — просто констатация проблемы
СТИЛЬ:
- Варьируй длину предложений (от 3 слов до 30)
- Не ставь запятые систематично — где-то поставь, где-то пропусти
- Можно разговорные конструкции и обрывы мысли
- Можно одно-два слова с орфографической "опечаткой" (но читаемо)
Дай 2 варианта: один "обычный GPT", второй "с человеческими шероховатостями".
Результат:
Модель выдаст два текста: первый — гладкий, структурированный, с советами; второй — с неровностями, личным опытом, без универсальных решений. Ты увидишь контраст и поймёшь какие именно элементы делают текст "AI-шным" или "человечным".
Почему это работает
Проблема: LLM обучены на усреднённом интернете. Они максимизируют правдоподобие — выдают текст, который с наибольшей вероятностью встречается в обучающих данных. Результат: статистически наиболее ожидаемые конструкции, избегание риска, универсальные решения, механическая сбалансированность. Текст грамматически идеален, но предсказуем.
Сильная сторона LLM: Они умеют распознавать паттерны — в том числе паттерны своих же артефактов. GPT знает, как пишет GPT. Если указать конкретные признаки ("не делай X, не используй Y, добавь Z") — модель может их контролировать.
Как метод использует это: Рубрика LREAD превращает размытое "слишком гладко" в 10 конкретных измерений. Калиброванные эксперты не говорят "кажется AI", они говорят "три абзаца подряд начинаются с 'Во-первых/Во-вторых/В-третьих' + все запятые после вводных слов + финал про 'коллективную ответственность' = GPT-4o".
Обратное применение: Взять эти же критерии и дать LLM инструкцию нарушить их избирательно: - Убрать механическую структуру - Варьировать пунктуацию - Добавить личный опыт - Не балансировать идеально
Рычаги управления: - Уровень шероховатости: "одна опечатка" vs "5% предложений с грамматическими шероховатостями" - Тип креативности: "личный опыт" vs "необычная метафора" vs "резкий поворот мысли" - Структурная неровность: "можно без вывода" vs "можно начать с середины" vs "можно повторить мысль дважды"
Шаблон промпта для "очеловечивания"
Напиши {тип_текста} на тему {тема} ({длина}).
Избегай AI-паттернов:
СТРУКТУРА:
- Не используй нумерацию аргументов (Во-первых, Во-вторых)
- Не делай механическую трёхчастность (тезис → аргументы → решение)
- Можно начать резко, закончить без "выводов на будущее"
СОДЕРЖАНИЕ:
- Конкретика вместо универсальных советов: {пример_конкретики}
- Личный опыт или наблюдаемые детали, не общие места
- Можно оставить проблему нерешённой
СТИЛЬ:
- Варьируй длину предложений: от 3-5 слов до 25-30
- Пунктуация — не систематично (где-то запятая, где-то её не хватает)
- Разговорные конструкции, можно обрыв мысли
- Лексика — не идеально подобранная, можно повторить слово
Дай 2 варианта: "обычный" и "с человеческими шероховатостями".
Заполни:
- {тип_текста} — пост / статья / письмо / эссе
- {тема} — о чём писать
- {длина} — 500 знаков / 3 абзаца / 10 предложений
- {пример_конкретики} — "не 'найдите баланс', а 'в среду отменил созвон в 23:00'"
Почему два варианта: Контраст покажет КАК именно работают AI-паттерны. Ты увидишь разницу и научишься их замечать.
Ограничения
⚠️ Язык-специфичность: Микро-признаки (пунктуация, spacing, translationese) уникальны для каждого языка. Корейский ≠ русский ≠ английский. Универсальны только макро-паттерны (структура, безопасность содержания).
⚠️ Субъективные критерии: "Креативность" сложно формализовать. Даже калиброванные эксперты могут расходиться в оценке метафор или новизны аргументов.
⚠️ Трудозатраты: Рубричная оценка требует 10+ критериев с обоснованиями. Это не быстрая интуитивная проверка, а структурированный анализ. Для разовой задачи — избыточно, для высоких ставок (публикации, экзамены) — оправдано.
⚠️ Обратное применение не гарантировано: Знание признаков AI-текста не означает, что GPT идеально научится их избегать. Модель может переборщить с "человечностью" или создать неестественные артефакты.
⚠️ Эволюция моделей: Признаки зафиксированы для GPT-4o, Solar, Qwen2, Llama3.1. Новые модели (o1, o3) могут иметь другие паттерны.
Как исследовали
Команда из Yonsei University (Сеул) поставила эксперимент: могут ли лингвисты научиться различать AI-текст через структурированную калибровку?
Взяли трёх студентов-корееведов (высокая языковая чувствительность, но нет опыта с разными LLM) и 30 аргументативных эссе на корейском: 6 человеческих, 24 от четырёх моделей (GPT-4o, Solar-10.7B, Qwen2-72B, Llama3.1-70B) — по 10 эссе на каждый уровень (начальная школа, средняя, старшая). Baseline — три сильных LLM-детектора: GPT-5.2 Thinking, Gemini 3 Flash, Claude Sonnet 4.5 (те же эссе, те же инструкции).
Фаза 1 (интуиция): Студенты оценивают "AI или человек?" без критериев. Результат — 60% точность против 97% у LLM-детекторов. Согласованность между людьми отрицательная (κ = -0.09) — противоречат друг другу. Ошибки однонаправленные: 0 false positives (человек → AI), 12 false negatives (AI → человек). Вывод: полированный текст систематически принимается за человеческий.
Между фазами: Раскрыли правильные ответы + какая модель что написала. Студенты ретроспективно проанализировали где ошиблись, какие паттерны пропустили.
Фаза 2 (рубрика): Студенты вместе с исследователями создали рубрику LREAD на базе национальных стандартов письма + добавили детекторы креативности и микро-паттернов. Новый набор из 30 эссе (та же структура, но другие тексты). Оценка по 10 критериям с обоснованиями. Результат — 90% точность, согласованность 0.24 (начали видеть одни и те же сигналы). Ошибки сбалансировались: 5 true positives, 1 false positive, 22 true negatives, 2 false negatives.
Фаза 3 (калиброванная экспертиза): Самая сложная задача — детские эссе (начальная школа). Почему сложно: другие исследования показали, что GPT не умеет писать "по-детски" — лексика взрослее, структура сложнее, стиль формальнее. 10 эссе, та же пропорция. Результат — 100% точность, согласованность 0.82 (эксперты конвергировали).
Неожиданность: Калиброванные люди после трёх фаз превзошли LLM-детекторы по точности (100% vs 97%) и нашли микро-признаки, которые LLM пропустили: необязательная пунктуация (всегда запятая после вводного слова — AI, иногда есть/иногда нет — человек), spacing в составных словах, два типа translationese (Qwen2 = китайский порядок слов, GPT-4o = английский), модель-специфичные шаблоны заключений.
Почему это важно: LLM-детекторы опираются на дискурсные признаки (структура, тема, безопасность решений) — универсальные, но грубые. Калиброванные люди видят язык-специфичные микро-диагностики — тонкие, но стабильные. Вывод: структурированная экспертиза дополняет автоматические детекторы, особенно для неанглийских языков.
Адаптации
Для оценки своих промптов
Создай checklist на основе LREAD для проверки собственных текстов от GPT:
🔧 Анти-AI чеклист (перед публикацией):
Прогони текст через чеклист:
СТРУКТУРА:
☐ Есть нумерация аргументов? (убрать или разорвать последовательность)
☐ Все абзацы начинаются одинаково? (варьировать)
☐ Идеальная трёхчастность? (можно убрать "вывод")
ПУНКТУАЦИЯ:
☐ Запятые после вводных слов всегда/никогда? (варьировать)
☐ Все предложения одной длины? (добавить короткие 3-5 слов и длинные 25-30)
СОДЕРЖАНИЕ:
☐ Универсальные советы? (заменить на конкретику с цифрами/именами/датами)
☐ Безопасное решение? (можно оставить вопрос открытым)
☐ Финал про "будущее/ответственность"? (заменить на личное наблюдение)
ЛЕКСИКА:
☐ Все слова идеально подобраны? (можно повторить слово или использовать разговорное)
Если 3+ пункта "да" → переписать проблемные места.
Дай GPT свой текст + этот чеклист → она укажет где AI-паттерны → переделай.
Для создания персональных паттернов
Обучи GPT твоим "шероховатостям":
Проанализируй мои 5 текстов (прикрепляю). Найди мои паттерны:
- Как я начинаю абзацы (вариативность или шаблоны?)
- Как использую пунктуацию (систематично или нет?)
- Какие слова повторяю
- Какие конструкции избегаю
- Где обрываю мысли
Создай "профиль моего стиля" с примерами.
Когда буду просить написать текст — имитируй этот профиль, не стандартный GPT-стиль.
Загрузи 5 своих постов/писем/статей → GPT выведет паттерны → сохрани как Custom Instruction или в начало нового чата при написании текстов.
Комбинация: Детекция + Переписывание
Двухшаговый workflow для критичных текстов:
ШАГ 1: Напиши черновик текста на тему {тема}.
ШАГ 2: Теперь сыграй детектора AI-текста. Оцени черновик по LREAD-критериям:
- Структура: есть механические паттерны?
- Пунктуация: систематичная или варьируется?
- Содержание: конкретика или общие места?
- Креативность: есть неожиданные ходы?
ШАГ 3: Перепиши слабые места. Покажи ДО и ПОСЛЕ каждого исправления.
GPT сначала пишет как обычно, потом критикует САМА СЕБЯ по рубрике, потом исправляет. Ты получаешь два варианта с объяснением разницы — видишь какие элементы делают текст "AI-шным".
Ресурсы
From Intuition to Expertise: Rubric-Based Cognitive Calibration for Human Detection of LLM-Generated Korean Text Исследование основано на корпусе KatFish (Park et al., 2025) — первый бенчмарк для детекции корейских AI-текстов. Авторы: Shinwoo Park, Yo-Sub Han Yonsei University, Сеул, Республика Корея
