TL;DR
LLMs оставляют в тексте статистически измеримые стилистические следы — и теперь это доказано на 70 000 научных статей. Самый показательный маркер — длинное тире (—, ем-тире). Не потому что оно «красиво», а потому что для модели это просто токен: она ставит его так же легко, как запятую. Человеку — нужно жать Ctrl+Alt+минус или лезть в меню.
Главная находка: до выхода ChatGPT ем-тире встречалось примерно в 4% научных статей. К 2025 году — уже в каждой пятой. Рост не был мгновенным скачком на следующий день после релиза ChatGPT — наоборот, весь 2023 год почти ничего не менялось. Потом — резкий взлёт в 2024–2025. Это паттерн социального принятия инструмента, не хайп одного дня.
Что это значит для практики: LLMs имеют стилистические дефолты — устойчивые привычки, которые отличают их текст от человеческого. Зная их, ты можешь явно запретить эти паттерны в промпте — и получить текст, который не «фонит» как ИИ. Или наоборот: использовать как быструю проверку чужого текста на AI-участие.
Схема: от находки к применению
ФАКТ: LLM ставит ем-тире (—) в ~3x чаще, чем человек
+ использует словарные маркеры: "nuanced", "delve", "comprehensive" и их переводы
ПРИНЦИП: У LLM есть стилистические дефолты
→ они предсказуемы
→ их можно явно запретить в промпте
ПРИМЕНЕНИЕ (два направления):
├── ГЕНЕРАЦИЯ: добавь в промпт запрет на маркеры → текст звучит человечнее
└── РЕДАКТУРА: попроси LLM найти и убрать маркеры из готового текста
Оба направления работают в обычном чате, без кода и настроек.
Пример применения
Задача: Илья Красильщик пишет колонку для VC.ru о продуктовом мышлении. Использовал Claude для черновика — текст хороший, но «фонит» как ИИ. Редактор уже спросил: «Ты это сам писал?»
Промпт:
Перед тобой черновик колонки. Отредактируй его так, чтобы он звучал как живой
авторский текст, а не как сгенерированный ИИ.
Что убрать:
— Все длинные тире (—). Замени на запятые, скобки или точки — по смыслу
— Слова-маркеры ИИ: "нюансированный", "комплексный подход", "углубимся",
"многогранный", "важно отметить", "не менее важно", "в конечном счёте"
— Конструкции вида "[тезис] — [пояснение]" через длинное тире
Что добавить:
— Короткие предложения. Авторский голос. Можно неформально
— Там где уместно — конкретные примеры, не абстракции
Текст: {вставь черновик}
Результат: Модель пройдётся по тексту и заменит характерные паттерны. Ем-тире уйдут первыми — их легче всего найти. Потом уйдёт «жаргон ИИ»: слова-пустышки, которые звучат умно, но ничего не значат. Финальный текст будет короче и острее — это хороший побочный эффект, потому что LLM часто раздувает предложения именно через эти конструкции.
Почему это работает
Слабость LLM — у модели нет «клавиатуры». Для неё ем-тире — просто ещё один токен, такой же лёгкий в производстве, как пробел. Человек ставит его редко, потому что это неудобно физически. Модель ставит его часто, потому что видела много отредактированной профессиональной прозы — там ем-тире встречается чаще, чем в случайном тексте. Модель усвоила этот паттерн как признак «хорошего письма».
Сильная сторона LLM — модель отлично выполняет явные стилистические запреты. Если написать «не используй ем-тире» — она не будет их использовать. Проблема в том, что большинство пользователей об этом не думают и не пишут. В итоге получают текст с дефолтными привычками модели.
Как это использовать как рычаг: - Запрети конкретные маркеры — не «пиши по-человечески», а «не используй —, не пиши "нюансированный"». Конкретные запреты работают надёжнее абстрактных инструкций - Объедини со стилем — «пиши как Каганов/Лебедев/Горный» + список запрещённых маркеров = двойной контроль над тоном - Используй для аудита — попроси LLM найти все эти паттерны в тексте и выдать список, прежде чем редактировать
Шаблон промпта
Вариант 1 — Генерация без AI-отпечатков
Напиши {тип текста} на тему {тема}.
Стилистические ограничения — строго:
— Никаких длинных тире (—). Совсем
— Не использовать слова: нюансированный, комплексный, углуби(мся/ться),
многогранный, важно отметить, не менее важно, в конечном счёте,
всесторонний, оптимальный (если нет реальной оптимизации)
— Не строить предложения по схеме "[утверждение] — [объяснение]" через тире
Тон: {короткие предложения / разговорный / деловой — выбери нужное}
Объём: {число слов или абзацев}
Вариант 2 — Аудит и редактура готового текста
Проведи стилистический аудит текста на AI-маркеры.
Шаг 1 — Найди и перечисли:
- Все длинные тире (—) с контекстом (5 слов до и после)
- Все слова-маркеры: нюансированный, комплексный, углубиться, многогранный,
важно отметить, в конечном счёте, всесторонний
- Предложения длиннее 30 слов
Шаг 2 — Предложи замену для каждого найденного элемента
Шаг 3 — Выдай отредактированную версию
Текст: {вставь текст}
Что подставлять:
- {тип текста} — колонка, письмо клиенту, пост, питч, комментарий
- {тема} — конкретная тема
- {текст} — черновик или готовый текст для аудита
🚀 Быстрый старт — вставь в чат:
Вот шаблон для удаления AI-маркеров из текста. Адаптируй под мою задачу:
{опиши что нужно — написать с нуля или отредактировать готовое}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит тип текста, тему и желаемый тон — чтобы настроить ограничения под конкретную задачу.
Почему ем-тире — это только верхушка
Исследователи параллельно проверили 8 лексических маркеров из работы Kobak et al. — слов, которые LLM использует значительно чаще человека. В абстрактах научных статей они выросли с тем же паттерном, что и ем-тире. Это значит: отпечаток не один знак препинания, а целый стилистический профиль.
Русскоязычные аналоги маркеров из Kobak: углубиться, нюансированный, комплексный подход, неотъемлемый, всестороннее рассмотрение, важно отметить, не менее важно, свидетельствует о и конструкции вида «В заключение следует отметить, что...»
Это расширяет шаблон: можно составить персональный список нежелательных маркеров под свой стиль и добавить его в системный промпт или кастомные инструкции.
Ограничения
⚠️ Это не детектор, а популяционный маркер: ем-тире в конкретной статье ничего не доказывает. Один человек любит этот знак, одна модель может получить инструкцию его не использовать. Маркер работает на уровне тысяч текстов — не как судья конкретного документа.
⚠️ Запрет работает, но не абсолютно: хорошо обученная LLM при явном запрете уберёт ем-тире. Но другие стилистические паттерны останутся — структура аргументов, предсказуемые переходы, характерные зачины абзацев. Список маркеров неполный.
⚠️ Рынок меняется быстро: исследование фиксирует момент времени. Следующие версии моделей могут уже получить иные стилистические дефолты — или научиться лучше имитировать человека без дополнительных инструкций.
Как исследовали
Исследователь взял всё что было на medRxiv — 69 632 первых версии научных препринтов за 2020–2025 год — и просто посчитал, в скольких статьях раздел «Обсуждение» содержит хотя бы одно ем-тире (символ U+2014). Потом сравнил: до 30 ноября 2022 года (день выхода ChatGPT) против после.
Хитрость была техническая, но важная: PubMed вырезает ем-тире при обработке текстов — там они не выживают. MedRxiv хранит оригинальные XML-файлы, где символ сохраняется дословно. Это сделало исследование вообще возможным.
Чтобы исключить случайности, команда провела два «контрольных выстрела»: разбила дочатGPT-эпоху пополам и проверила — не росло ли тире и там тоже? Нет, +0.13 п.п., статистически ноль. Потом посмотрела на раздел «Благодарности» — авторы туда редко зовут ИИ. Там тоже почти ничего не изменилось. Это хорошая наука: искать объяснения, которые разрушили бы находку, — и не найти их.
Интересно, что рост был не мгновенным: весь 2023 год ем-тире держалось на уровне 4%, потом взлетело в 2024–2025. Это похоже не на хайп, а на то, как инструмент постепенно становится рабочим — сначала пробуют энтузиасты, потом подключаются все.
Оригинал из исследования (лексические маркеры)
Список слов из Kobak et al., которые росли параллельно с ем-тире в абстрактах:
"commendable", "meticulous", "meticulously", "intricate", "pivotal",
"notable", "noteworthy", "innovative", "crucial"
Контекст: Kobak и соавторы выявили слова, статистически «любимые» LLM в научной прозе. Czuma проверил, растут ли они так же, как ем-тире — и подтвердил: odds ratio 4.05, тот же временной паттерн. Независимый маркер, та же история.
В русскоязычных текстах точные переводы варьируются, но принцип работает так же.
Адаптации
💡 Адаптация: Персональный анти-AI список в кастомных инструкциях
Вместо того чтобы каждый раз вставлять список маркеров в промпт — добавь его в системные инструкции ChatGPT или «Memory» Claude:
При любом написании текстов:
— Никогда не используй длинное тире (—)
— Запрещённые слова: [твой список под твой стиль]
— Предложения короче 25 слов по умолчанию
Один раз настроил — работает во всех чатах автоматически.
🔧 Адаптация: Составить свой список маркеров
Логика Kobak применима к любому языку и стилю:
Проанализируй этот текст, написанный с помощью ИИ. Выдели слова и конструкции,
которые звучат «не по-человечески» или нетипично для разговорного русского.
Составь список из 15-20 таких маркеров — от самых частых к редким.
Текст: {вставь несколько своих AI-черновиков}
LLM проанализирует твои конкретные тексты и составит персонализированный список — точнее общего, потому что учитывает твой стиль и домен.
Ресурсы
Основное исследование: Czuma, P. (2026). Em-ergence of the em-dash: a population-level rise in em-dash frequency in medRxiv preprints at the dawn of the large-language-model era. Polish Association for Artificial Intelligence in Medicine. Pre-registered: OSF doi:10.17605/OSF.IO/HFT8C. Data: Zenodo doi:10.5281/zenodo.20557419
Связанные работы: - Kobak et al. — лексические маркеры LLM в научной прозе (список слов) - Keck (2025) — удвоение ем-тире в экологических абстрактах OpenAlex - Liang et al. (2024) — следы LLM в рецензиях конференций
