arXiv:2601.19913 72 6 янв. 2026 г. FREE

LREAD: Как учиться различать AI и человека через структурированную рубрику

КЛЮЧЕВАЯ СУТЬ

Студенты-лингвисты различают AI и человека с точностью 60% — хуже чем GPT-детекторы с 97%. Причина: люди попадают в ловушку беглости и доверяют гладкому тексту. Метод LREAD позволяет научиться различать AI через структурированную рубрику вместо интуитивной оценки. Рубрика работает как когнитивный каркас: вместо размытого "кажется AI" эксперт отвечает на 10 конкретных вопросов с доказательствами — структура, пунктуация, лексика, креативность, регистр. После калибровки точность выросла с 60% до 100%.

Адаптировать под запрос

⚡

TL;DR

LREAD — рубрика для детекции AI-текста, основанная на национальных стандартах письма. Вместо интуитивной оценки "похоже на AI" она раскладывает текст на конкретные критерии: структура, пунктуация, лексика, креативность, регистр. Исследователи проверили на корейских текстах, но принципы универсальны: полированность ≠ человечность, AI выдаёт специфичные микро-паттерны, которые ловятся только при структурированной оценке.

Люди попадают в ловушку беглости: гладкий, грамотный текст воспринимается как человеческий, даже если это GPT. Студенты-лингвисты без рубрики различают AI vs человека с точностью 60% — хуже, чем GPT-детекторы (97%). Причина: они доверяют поверхностной правильности и не видят системных артефактов вроде однообразной пунктуации, шаблонных структур, избыточной Sino-Korean лексики (аналог канцелярита в русском).

После калибровки с рубрикой точность выросла до 100%. Рубрика работает как когнитивный каркас: вместо "кажется странным" эксперт отвечает на 10 конкретных вопросов с доказательствами. Калиброванные люди замечают микро-признаки, которые пропускают даже сильные LLM-детекторы: необязательные запятые в одних и тех же местах, spacing-паттерны, translationese (английский порядок слов в корейском тексте), шаблонные концовки.

📌

Схема калибровки (3 фазы)

Исследование — это не техника промптинга, а метод обучения различению. Но извлекаемый принцип — структурированная оценка через рубрику:

ФАЗА 1: Интуитивная оценка
→ "Это AI или человек?" без критериев
→ Результат: 60% точность, -0.09 согласованность (люди противоречат друг другу)

ФАЗА 2: Оценка по рубрике LREAD
→ 10 критериев × баллы + обоснование каждого
→ Результат: 90% точность, 0.24 согласованность (начинают видеть одни и те же паттерны)

ФАЗА 3: Калиброванная экспертиза
→ Самые сложные тексты (детские эссе — AI не умеет писать как дети)
→ Результат: 100% точность, 0.82 согласованность (эксперты сходятся в оценках)

Между фазами — раскрытие правильных ответов. Не просто feedback, а ретроспективная калибровка: "Вот что ты пропустил, вот где был паттерн".

📌

Извлекаемые принципы

Хотя исследование про детекцию, принципы применимы обратно — для создания более человечного AI-текста:

📌

1. Рубрика структурированной оценки

Вместо "текст слишком идеальный" — 10 конкретных вопросов:

Содержание (40 баллов): - Тезис чёткий? - Аргументы достаточны? - Контраргументы учтены? - Креативность (нестандартные метафоры, личный опыт)

Организация (10 баллов): - Связность между абзацами - Связность между предложениями

Выражение (50 баллов): - Лексика (разнообразие, уместность) - Конструкции предложений - Пунктуация и грамматика - Креативность (стилистические отклонения, риск) - Соблюдение конвенций письма

Креативность оценивается дважды — в содержании (необычные аргументы) и в стиле (необычные формулировки).

📌

2. Чеклист AI-признаков (что выдаёт GPT)

Калиброванные эксперты нашли паттерны, которые GPT-детекторы пропускают:

Структурные шаблоны: - "Во-первых... Во-вторых... В-третьих" — нумерация аргументов - Механическая трёхчастная структура (тезис → аргументы → вывод) - Слишком идеальная сбалансированность (всегда есть контраргумент, всегда есть синтез) - Повторяющиеся конструкции открытия абзацев

Микро-признаки (язык-специфичные): - Опциональная пунктуация в одних и тех же местах (запятые после вводных слов — всегда или никогда, нет вариации) - Spacing-артефакты (пробелы в составных словах) - Переизбыток формальной лексики (Sino-Korean в корейском ≈ канцелярит в русском) - Translationese — порядок слов и конструкции из другого языка (английские прилагательное+существительное вместо корейских)

Содержание: - Универсально-безопасные решения ("нужно улучшить образование", "важна ответственность общества") - Общие примеры без личного опыта - Избегание риска — никаких острых углов, всегда консенсус

Финал: - Шаблонные концовки: forward-looking (смотрим в будущее), коллективная ответственность

Человеческие признаки (что AI НЕ делает): - Орфографические ошибки, грамматические шероховатости - Идиосинкратичные метафоры (странные, но выразительные) - Эмоциональные апелляции и личные истории - Непредсказуемые переходы между мыслями - Стилистическая неоднородность внутри текста

📌

3. Принцип калибровки через итерации

Эксперты улучшились с 60% до 100% не за счёт "больше опыта", а за счёт структурированного feedback:

Попытка → ошибка
Раскрытие правильного ответа + паттернов
Ретроспективный анализ: "Где был сигнал?"
Следующая попытка с новым знанием

Это применимо к работе с LLM: вместо "переделай лучше" → "вот 10 критериев, оцени по каждому, покажи где не дотягиваешь, исправь конкретно эти места".

🚀

Пример применения (обратная задача)

Контекст: Этот метод про детекцию, но признаки можно использовать обратно — чтобы GPT писал менее узнаваемо.

Задача: Написать пост про выгорание фрилансера для Telegram-канала. Обычный GPT выдаст гладкий текст с универсальными советами ("планируйте отдых", "найдите баланс"). Мы хотим живой текст с шероховатостями.

Промпт:

Напиши пост про выгорание фрилансера (800 знаков). Но избегай AI-паттернов:

СТРУКТУРА:
- Не используй нумерацию (Во-первых, Во-вторых)
- Не балансируй идеально (можно резко начать, резко закончить)
- Не делай трёхчастную структуру тезис→аргументы→вывод

СОДЕРЖАНИЕ:
- Конкретика вместо универсальных советов ("научитесь говорить нет" → "в среду отменил созвон в 23:00 и не умер")
- Личный опыт, не общие места
- Можно без решения — просто констатация проблемы

СТИЛЬ:
- Варьируй длину предложений (от 3 слов до 30)
- Не ставь запятые систематично — где-то поставь, где-то пропусти
- Можно разговорные конструкции и обрывы мысли
- Можно одно-два слова с орфографической "опечаткой" (но читаемо)

Дай 2 варианта: один "обычный GPT", второй "с человеческими шероховатостями".

Результат:

Модель выдаст два текста: первый — гладкий, структурированный, с советами; второй — с неровностями, личным опытом, без универсальных решений. Ты увидишь контраст и поймёшь какие именно элементы делают текст "AI-шным" или "человечным".

🧠

Почему это работает

Проблема: LLM обучены на усреднённом интернете. Они максимизируют правдоподобие — выдают текст, который с наибольшей вероятностью встречается в обучающих данных. Результат: статистически наиболее ожидаемые конструкции, избегание риска, универсальные решения, механическая сбалансированность. Текст грамматически идеален, но предсказуем.

Сильная сторона LLM: Они умеют распознавать паттерны — в том числе паттерны своих же артефактов. GPT знает, как пишет GPT. Если указать конкретные признаки ("не делай X, не используй Y, добавь Z") — модель может их контролировать.

Как метод использует это: Рубрика LREAD превращает размытое "слишком гладко" в 10 конкретных измерений. Калиброванные эксперты не говорят "кажется AI", они говорят "три абзаца подряд начинаются с 'Во-первых/Во-вторых/В-третьих' + все запятые после вводных слов + финал про 'коллективную ответственность' = GPT-4o".

Обратное применение: Взять эти же критерии и дать LLM инструкцию нарушить их избирательно: - Убрать механическую структуру - Варьировать пунктуацию - Добавить личный опыт - Не балансировать идеально

Рычаги управления: - Уровень шероховатости: "одна опечатка" vs "5% предложений с грамматическими шероховатостями" - Тип креативности: "личный опыт" vs "необычная метафора" vs "резкий поворот мысли" - Структурная неровность: "можно без вывода" vs "можно начать с середины" vs "можно повторить мысль дважды"

📋

Шаблон промпта для "очеловечивания"

Напиши {тип_текста} на тему {тема} ({длина}).

Избегай AI-паттернов:

СТРУКТУРА:
- Не используй нумерацию аргументов (Во-первых, Во-вторых)
- Не делай механическую трёхчастность (тезис → аргументы → решение)
- Можно начать резко, закончить без "выводов на будущее"

СОДЕРЖАНИЕ:
- Конкретика вместо универсальных советов: {пример_конкретики}
- Личный опыт или наблюдаемые детали, не общие места
- Можно оставить проблему нерешённой

СТИЛЬ:
- Варьируй длину предложений: от 3-5 слов до 25-30
- Пунктуация — не систематично (где-то запятая, где-то её не хватает)
- Разговорные конструкции, можно обрыв мысли
- Лексика — не идеально подобранная, можно повторить слово

Дай 2 варианта: "обычный" и "с человеческими шероховатостями".

Заполни: - {тип_текста} — пост / статья / письмо / эссе - {тема} — о чём писать - {длина} — 500 знаков / 3 абзаца / 10 предложений - {пример_конкретики} — "не 'найдите баланс', а 'в среду отменил созвон в 23:00'"

Почему два варианта: Контраст покажет КАК именно работают AI-паттерны. Ты увидишь разницу и научишься их замечать.

⚠️

Ограничения

⚠️ Язык-специфичность: Микро-признаки (пунктуация, spacing, translationese) уникальны для каждого языка. Корейский ≠ русский ≠ английский. Универсальны только макро-паттерны (структура, безопасность содержания).

⚠️ Субъективные критерии: "Креативность" сложно формализовать. Даже калиброванные эксперты могут расходиться в оценке метафор или новизны аргументов.

⚠️ Трудозатраты: Рубричная оценка требует 10+ критериев с обоснованиями. Это не быстрая интуитивная проверка, а структурированный анализ. Для разовой задачи — избыточно, для высоких ставок (публикации, экзамены) — оправдано.

⚠️ Обратное применение не гарантировано: Знание признаков AI-текста не означает, что GPT идеально научится их избегать. Модель может переборщить с "человечностью" или создать неестественные артефакты.

⚠️ Эволюция моделей: Признаки зафиксированы для GPT-4o, Solar, Qwen2, Llama3.1. Новые модели (o1, o3) могут иметь другие паттерны.

🔍

Как исследовали

Команда из Yonsei University (Сеул) поставила эксперимент: могут ли лингвисты научиться различать AI-текст через структурированную калибровку?

Взяли трёх студентов-корееведов (высокая языковая чувствительность, но нет опыта с разными LLM) и 30 аргументативных эссе на корейском: 6 человеческих, 24 от четырёх моделей (GPT-4o, Solar-10.7B, Qwen2-72B, Llama3.1-70B) — по 10 эссе на каждый уровень (начальная школа, средняя, старшая). Baseline — три сильных LLM-детектора: GPT-5.2 Thinking, Gemini 3 Flash, Claude Sonnet 4.5 (те же эссе, те же инструкции).

Фаза 1 (интуиция): Студенты оценивают "AI или человек?" без критериев. Результат — 60% точность против 97% у LLM-детекторов. Согласованность между людьми отрицательная (κ = -0.09) — противоречат друг другу. Ошибки однонаправленные: 0 false positives (человек → AI), 12 false negatives (AI → человек). Вывод: полированный текст систематически принимается за человеческий.

Между фазами: Раскрыли правильные ответы + какая модель что написала. Студенты ретроспективно проанализировали где ошиблись, какие паттерны пропустили.

Фаза 2 (рубрика): Студенты вместе с исследователями создали рубрику LREAD на базе национальных стандартов письма + добавили детекторы креативности и микро-паттернов. Новый набор из 30 эссе (та же структура, но другие тексты). Оценка по 10 критериям с обоснованиями. Результат — 90% точность, согласованность 0.24 (начали видеть одни и те же сигналы). Ошибки сбалансировались: 5 true positives, 1 false positive, 22 true negatives, 2 false negatives.

Фаза 3 (калиброванная экспертиза): Самая сложная задача — детские эссе (начальная школа). Почему сложно: другие исследования показали, что GPT не умеет писать "по-детски" — лексика взрослее, структура сложнее, стиль формальнее. 10 эссе, та же пропорция. Результат — 100% точность, согласованность 0.82 (эксперты конвергировали).

Неожиданность: Калиброванные люди после трёх фаз превзошли LLM-детекторы по точности (100% vs 97%) и нашли микро-признаки, которые LLM пропустили: необязательная пунктуация (всегда запятая после вводного слова — AI, иногда есть/иногда нет — человек), spacing в составных словах, два типа translationese (Qwen2 = китайский порядок слов, GPT-4o = английский), модель-специфичные шаблоны заключений.

Почему это важно: LLM-детекторы опираются на дискурсные признаки (структура, тема, безопасность решений) — универсальные, но грубые. Калиброванные люди видят язык-специфичные микро-диагностики — тонкие, но стабильные. Вывод: структурированная экспертиза дополняет автоматические детекторы, особенно для неанглийских языков.

📌

Адаптации

📋

Для оценки своих промптов

Создай checklist на основе LREAD для проверки собственных текстов от GPT:

🔧 Анти-AI чеклист (перед публикацией):

Прогони текст через чеклист:

СТРУКТУРА:
☐ Есть нумерация аргументов? (убрать или разорвать последовательность)
☐ Все абзацы начинаются одинаково? (варьировать)
☐ Идеальная трёхчастность? (можно убрать "вывод")

ПУНКТУАЦИЯ:
☐ Запятые после вводных слов всегда/никогда? (варьировать)
☐ Все предложения одной длины? (добавить короткие 3-5 слов и длинные 25-30)

СОДЕРЖАНИЕ:
☐ Универсальные советы? (заменить на конкретику с цифрами/именами/датами)
☐ Безопасное решение? (можно оставить вопрос открытым)
☐ Финал про "будущее/ответственность"? (заменить на личное наблюдение)

ЛЕКСИКА:
☐ Все слова идеально подобраны? (можно повторить слово или использовать разговорное)

Если 3+ пункта "да" → переписать проблемные места.

Дай GPT свой текст + этот чеклист → она укажет где AI-паттерны → переделай.

📌

Для создания персональных паттернов

Обучи GPT твоим "шероховатостям":

Проанализируй мои 5 текстов (прикрепляю). Найди мои паттерны:
- Как я начинаю абзацы (вариативность или шаблоны?)
- Как использую пунктуацию (систематично или нет?)
- Какие слова повторяю
- Какие конструкции избегаю
- Где обрываю мысли

Создай "профиль моего стиля" с примерами. 
Когда буду просить написать текст — имитируй этот профиль, не стандартный GPT-стиль.

Загрузи 5 своих постов/писем/статей → GPT выведет паттерны → сохрани как Custom Instruction или в начало нового чата при написании текстов.

📌

Комбинация: Детекция + Переписывание

Двухшаговый workflow для критичных текстов:

ШАГ 1: Напиши черновик текста на тему {тема}.

ШАГ 2: Теперь сыграй детектора AI-текста. Оцени черновик по LREAD-критериям:
- Структура: есть механические паттерны?
- Пунктуация: систематичная или варьируется?
- Содержание: конкретика или общие места?
- Креативность: есть неожиданные ходы?

ШАГ 3: Перепиши слабые места. Покажи ДО и ПОСЛЕ каждого исправления.

GPT сначала пишет как обычно, потом критикует САМА СЕБЯ по рубрике, потом исправляет. Ты получаешь два варианта с объяснением разницы — видишь какие элементы делают текст "AI-шным".

🔗

Ресурсы

From Intuition to Expertise: Rubric-Based Cognitive Calibration for Human Detection of LLM-Generated Korean Text Исследование основано на корпусе KatFish (Park et al., 2025) — первый бенчмарк для детекции корейских AI-текстов. Авторы: Shinwoo Park, Yo-Sub Han Yonsei University, Сеул, Республика Корея

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не полагайся на ощущение "слишком гладко" — раскладывай текст на измеримые критерии. Оценка идёт по 10 параметрам: содержание (тезис, аргументы, креативность идей), организация (связность), выражение (лексика, конструкции, пунктуация, стилистический риск). Каждый критерий требует обоснования с примерами из текста. Креативность оценивается дважды — в содержании (необычные аргументы, личный опыт) и в стиле (идиосинкратичные метафоры, отклонения от нормы). AI выдаёт себя микро-паттернами: механическая нумерация ("Во-первых... Во-вторых..."), опциональная пунктуация в одних и тех же местах, переизбыток формальной лексики, шаблонные концовки про "коллективную ответственность". Человеческие признаки: орфографические шероховатости, непредсказуемые переходы, эмоциональные апелляции, стилистическая неоднородность.

Почему работает

LLM обучены максимизировать правдоподобие — выдавать статистически ожидаемые конструкции. Результат: предсказуемые структуры, избегание риска, универсальные решения, механическая сбалансированность. Текст грамматически идеален, но однообразен на микроуровне. Жесть в том, что люди без структуры проигрывают машинам (60% vs 97%) — доверяют поверхностной правильности и пропускают системные артефакты. Рубрика превращает размытое ощущение в конкретные измерения. Обученные эксперты не говорят "кажется AI", они видят: три абзаца подряд начинаются с нумерации + все запятые после вводных слов + финал про будущее = GPT-4o. Калибровка через итерации: попытка → раскрытие ответа → анализ пропущенных паттернов → новая попытка. После трёх раундов согласованность экспертов выросла с −0.09 до 0.82 (они начали видеть одни и те же признаки).

Когда применять

Детекция AI-текста в образовании (проверка эссе студентов), издательском деле (выявление сгенерированного контента), журналистике. Особенно когда GPT-детекторы дают противоречивые результаты или текст находится в "серой зоне". Обратное применение: инструкции для LLM чтобы избегать узнаваемых AI-паттернов — дать модели конкретный список "не делай X" (не нумеруй аргументы, не балансируй идеально, варьируй пунктуацию, добавь личный опыт). НЕ подходит для быстрой проверки — рубричная оценка требует 10+ критериев с обоснованиями, это структурированный анализ на 15-20 минут.

Мини-рецепт

1. Откажись от интуиции: Не оценивай "похоже на AI", оцени по 10 конкретным параметрам
2. Задай вопросы с доказательствами: Структура механическая? Пунктуация систематична в одних местах? Лексика избыточно формальная? Есть личный опыт или только общие места? Финал шаблонный?
3. Ищи микро-паттерны: Нумерация аргументов, запятые всегда/никогда после вводных, повторяющиеся конструкции открытия абзацев, концовки про "коллективную ответственность" или "будущее"
4. Фиксируй человеческие признаки: Орфографические шероховатости, необычные метафоры (странные, но выразительные), эмоциональные апелляции, непредсказуемые переходы
5. Калибруйся через обратную связь: Сравни свою оценку с правильным ответом, найди где пропустил паттерн, примени это знание на следующем тексте

Для обратного применения (очеловечивание AI-текста):
1. Дай LLM список анти-паттернов: Не используй нумерацию, не делай трёхчастную структуру тезис→аргументы→вывод, не ставь запятые систематично
2. Запроси два варианта: Обычный и с человеческими шероховатостями — контраст покажет какие элементы делают текст узнаваемым
3. Добавь конкретики: Не универсальные советы ("найдите баланс"), а личный опыт ("в среду отменил созвон в 23:00 и не умер")

Примеры

[ПЛОХО]: `Прочитай текст и скажи: это AI или человек?` (Интуитивная оценка без критериев — точность 60%, люди противоречат друг другу) [ХОРОШО]: `Оцени текст по рубрике LREAD: 1. Структура: есть механическая нумерация (Во-первых, Во-вторых)? Приведи примеры 2. Пунктуация: запятые ставятся систематично в одних местах (всегда после вводных или всегда пропускаются)? Покажи паттерн 3. Лексика: переизбыток формальных слов? Выпиши подозрительные 4. Креативность содержания: есть личный опыт или только общие места? Процитируй 5. Креативность стиля: есть необычные метафоры или всё предсказуемо? 6. Финал: шаблонная концовка про "будущее" или "коллективную ответственность"? Дай оценку по каждому пункту с доказательствами из текста. Итоговый вывод: AI или человек?` (Структурированная оценка — точность до 100%, эксперты видят одни и те же паттерны) Обратное применение: [ПЛОХО]: `Напиши пост про выгорание фрилансера` (Получишь гладкий текст с универсальными советами и шаблонной структурой) [ХОРОШО]: `Напиши пост про выгорание фрилансера (800 знаков). Избегай AI-паттернов: СТРУКТУРА: Не используй нумерацию аргументов, не делай трёхчастность тезис→аргументы→вывод, можно начать резко и закончить без "выводов на будущее" СОДЕРЖАНИЕ: Конкретика вместо универсальных советов (не "планируйте отдых", а "в среду отменил созвон в 23:00"), личный опыт, можно оставить проблему нерешённой СТИЛЬ: Варьируй длину предложений от 3 до 30 слов, пунктуацию не систематично (где-то запятая, где-то пропусти), разговорные конструкции Дай 2 варианта: обычный и с человеческими шероховатостями` (Контраст покажет КАК работают AI-паттерны — увидишь разницу между предсказуемым и живым текстом)

Источник: From Intuition to Expertise: Rubric-Based Cognitive Calibration for Human Detection of LLM-Generated Korean Text

ArXiv ID: 2601.19913 | Сгенерировано: 2026-01-29 05:43

Концепты не выделены.

📖 Простыми словами

From Intuition to Expertise: Rubric-Based Cognitive Calibration for Human Detection ofLLM-Generated Korean Text

arXiv: 2601.19913

Проблема в том, что мы пытаемся вычислить нейросеть интуицией, а она нас обманывает своей вежливостью. LLM обучены быть максимально усредненными: они выбирают слова, которые статистически чаще всего встречаются в интернете. В итоге получается текст-отличник — грамматически идеальный, но стерильный и предсказуемый до тошноты. AI просто максимизирует правдоподобие, избегая любых рисков, странных оборотов или авторской дерзости, которые и делают человека человеком.

Это как пытаться отличить настоящую фермерскую морковку от пластикового муляжа в супермаркете. На первый взгляд муляж выглядит даже лучше — он яркий, ровный и без комочков грязи. Но если начать ковырять его по четкому списку признаков, окажется, что у него нет запаха, он подозрительно симметричен и внутри у него пустота. Исследователи создали LREAD — ту самую методичку для проверки, которая заставляет тебя перестать смотреть на «красоту» текста и начать искать микро-паттерны подделки.

Вместо гадания на кофейной гуще метод предлагает разложить текст на атомы: структуру, пунктуацию и лексику. Что реально выдает машину? Во-первых, механическая сбалансированность — когда абзацы одинаковой длины, а предложения строятся по одной схеме. Во-вторых, стерильный регистр — AI боится обидеть или показаться странным, поэтому всегда звучит как брошюра из отеля. Если текст выглядит слишком полированным, в 9 из 10 случаев это работа алгоритма, потому что живой человек всегда где-то лажает, шутит невпопад или меняет ритм.

Хотя эксперимент ставили на корейском языке, принцип универсален для любого текста, будь то русский, английский или суахили. Это работает для постов в соцсетях, рабочих отчетов и даже личных писем. Мы переходим из эпохи «мне так кажется» в эру когнитивной калибровки. Теперь, чтобы не дать себя обмануть, нужно смотреть не на смысл, а на то, насколько текст «удобен» и предсказуем. Полированность больше не знак качества, теперь это главный маркер подделки.

Короче, пора признать: наша интуиция против нейросетей больше не тянет, они научились мимикрировать под «норму» лучше нас самих. Чтобы выжить в этом потоке контента, нужно использовать структурированные рубрики и искать отсутствие ошибок там, где они обязаны быть. Если текст кажется тебе слишком идеальным и правильным — поздравляю, тебя пытается развести кусок кода. Ищи изъяны, потому что именно в них сегодня прячется человечность.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню