3,583 papers
arXiv:2606.29540 70 28 июня 2026 г. FREE

Стилистические отпечатки LLM: ем-тире как доказанный маркер ИИ-текста

КЛЮЧЕВАЯ СУТЬ
LLMs оставляют в тексте статистически измеримые стилистические следы — и теперь это доказано на 70 000 научных статей. Самый показательный маркер — длинное тире (—, ем-тире). Не потому что оно «красиво», а потому что для модели это просто токен: она ставит его так же легко, как запятую. Человеку — нужно жать Ctrl+Alt+минус или лезть в меню.
Адаптировать под запрос

TL;DR

LLMs оставляют в тексте статистически измеримые стилистические следы — и теперь это доказано на 70 000 научных статей. Самый показательный маркер — длинное тире (—, ем-тире). Не потому что оно «красиво», а потому что для модели это просто токен: она ставит его так же легко, как запятую. Человеку — нужно жать Ctrl+Alt+минус или лезть в меню.

Главная находка: до выхода ChatGPT ем-тире встречалось примерно в 4% научных статей. К 2025 году — уже в каждой пятой. Рост не был мгновенным скачком на следующий день после релиза ChatGPT — наоборот, весь 2023 год почти ничего не менялось. Потом — резкий взлёт в 2024–2025. Это паттерн социального принятия инструмента, не хайп одного дня.

Что это значит для практики: LLMs имеют стилистические дефолты — устойчивые привычки, которые отличают их текст от человеческого. Зная их, ты можешь явно запретить эти паттерны в промпте — и получить текст, который не «фонит» как ИИ. Или наоборот: использовать как быструю проверку чужого текста на AI-участие.


📌

Схема: от находки к применению

ФАКТ: LLM ставит ем-тире (—) в ~3x чаще, чем человек
       + использует словарные маркеры: "nuanced", "delve", "comprehensive" и их переводы

ПРИНЦИП: У LLM есть стилистические дефолты
         → они предсказуемы
         → их можно явно запретить в промпте

ПРИМЕНЕНИЕ (два направления):
  ├── ГЕНЕРАЦИЯ: добавь в промпт запрет на маркеры → текст звучит человечнее
  └── РЕДАКТУРА: попроси LLM найти и убрать маркеры из готового текста

Оба направления работают в обычном чате, без кода и настроек.


🚀

Пример применения

Задача: Илья Красильщик пишет колонку для VC.ru о продуктовом мышлении. Использовал Claude для черновика — текст хороший, но «фонит» как ИИ. Редактор уже спросил: «Ты это сам писал?»

Промпт:

Перед тобой черновик колонки. Отредактируй его так, чтобы он звучал как живой 
авторский текст, а не как сгенерированный ИИ.

Что убрать:
— Все длинные тире (—). Замени на запятые, скобки или точки — по смыслу
— Слова-маркеры ИИ: "нюансированный", "комплексный подход", "углубимся", 
  "многогранный", "важно отметить", "не менее важно", "в конечном счёте"
— Конструкции вида "[тезис] — [пояснение]" через длинное тире

Что добавить:
— Короткие предложения. Авторский голос. Можно неформально
— Там где уместно — конкретные примеры, не абстракции

Текст: {вставь черновик}

Результат: Модель пройдётся по тексту и заменит характерные паттерны. Ем-тире уйдут первыми — их легче всего найти. Потом уйдёт «жаргон ИИ»: слова-пустышки, которые звучат умно, но ничего не значат. Финальный текст будет короче и острее — это хороший побочный эффект, потому что LLM часто раздувает предложения именно через эти конструкции.


🧠

Почему это работает

Слабость LLM — у модели нет «клавиатуры». Для неё ем-тире — просто ещё один токен, такой же лёгкий в производстве, как пробел. Человек ставит его редко, потому что это неудобно физически. Модель ставит его часто, потому что видела много отредактированной профессиональной прозы — там ем-тире встречается чаще, чем в случайном тексте. Модель усвоила этот паттерн как признак «хорошего письма».

Сильная сторона LLM — модель отлично выполняет явные стилистические запреты. Если написать «не используй ем-тире» — она не будет их использовать. Проблема в том, что большинство пользователей об этом не думают и не пишут. В итоге получают текст с дефолтными привычками модели.

Как это использовать как рычаг: - Запрети конкретные маркеры — не «пиши по-человечески», а «не используй —, не пиши "нюансированный"». Конкретные запреты работают надёжнее абстрактных инструкций - Объедини со стилем — «пиши как Каганов/Лебедев/Горный» + список запрещённых маркеров = двойной контроль над тоном - Используй для аудита — попроси LLM найти все эти паттерны в тексте и выдать список, прежде чем редактировать


📋

Шаблон промпта

📌

Вариант 1 — Генерация без AI-отпечатков

Напиши {тип текста} на тему {тема}.

Стилистические ограничения — строго:
— Никаких длинных тире (—). Совсем
— Не использовать слова: нюансированный, комплексный, углуби(мся/ться), 
  многогранный, важно отметить, не менее важно, в конечном счёте, 
  всесторонний, оптимальный (если нет реальной оптимизации)
— Не строить предложения по схеме "[утверждение] — [объяснение]" через тире

Тон: {короткие предложения / разговорный / деловой — выбери нужное}
Объём: {число слов или абзацев}
📌

Вариант 2 — Аудит и редактура готового текста

Проведи стилистический аудит текста на AI-маркеры.

Шаг 1 — Найди и перечисли:
- Все длинные тире (—) с контекстом (5 слов до и после)
- Все слова-маркеры: нюансированный, комплексный, углубиться, многогранный, 
  важно отметить, в конечном счёте, всесторонний
- Предложения длиннее 30 слов

Шаг 2 — Предложи замену для каждого найденного элемента

Шаг 3 — Выдай отредактированную версию

Текст: {вставь текст}

Что подставлять: - {тип текста} — колонка, письмо клиенту, пост, питч, комментарий - {тема} — конкретная тема - {текст} — черновик или готовый текст для аудита

🚀 Быстрый старт — вставь в чат:

Вот шаблон для удаления AI-маркеров из текста. Адаптируй под мою задачу: 
{опиши что нужно — написать с нуля или отредактировать готовое}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит тип текста, тему и желаемый тон — чтобы настроить ограничения под конкретную задачу.


📌

Почему ем-тире — это только верхушка

Исследователи параллельно проверили 8 лексических маркеров из работы Kobak et al. — слов, которые LLM использует значительно чаще человека. В абстрактах научных статей они выросли с тем же паттерном, что и ем-тире. Это значит: отпечаток не один знак препинания, а целый стилистический профиль.

Русскоязычные аналоги маркеров из Kobak: углубиться, нюансированный, комплексный подход, неотъемлемый, всестороннее рассмотрение, важно отметить, не менее важно, свидетельствует о и конструкции вида «В заключение следует отметить, что...»

Это расширяет шаблон: можно составить персональный список нежелательных маркеров под свой стиль и добавить его в системный промпт или кастомные инструкции.


⚠️

Ограничения

⚠️ Это не детектор, а популяционный маркер: ем-тире в конкретной статье ничего не доказывает. Один человек любит этот знак, одна модель может получить инструкцию его не использовать. Маркер работает на уровне тысяч текстов — не как судья конкретного документа.

⚠️ Запрет работает, но не абсолютно: хорошо обученная LLM при явном запрете уберёт ем-тире. Но другие стилистические паттерны останутся — структура аргументов, предсказуемые переходы, характерные зачины абзацев. Список маркеров неполный.

⚠️ Рынок меняется быстро: исследование фиксирует момент времени. Следующие версии моделей могут уже получить иные стилистические дефолты — или научиться лучше имитировать человека без дополнительных инструкций.


🔍

Как исследовали

Исследователь взял всё что было на medRxiv — 69 632 первых версии научных препринтов за 2020–2025 год — и просто посчитал, в скольких статьях раздел «Обсуждение» содержит хотя бы одно ем-тире (символ U+2014). Потом сравнил: до 30 ноября 2022 года (день выхода ChatGPT) против после.

Хитрость была техническая, но важная: PubMed вырезает ем-тире при обработке текстов — там они не выживают. MedRxiv хранит оригинальные XML-файлы, где символ сохраняется дословно. Это сделало исследование вообще возможным.

Чтобы исключить случайности, команда провела два «контрольных выстрела»: разбила дочатGPT-эпоху пополам и проверила — не росло ли тире и там тоже? Нет, +0.13 п.п., статистически ноль. Потом посмотрела на раздел «Благодарности» — авторы туда редко зовут ИИ. Там тоже почти ничего не изменилось. Это хорошая наука: искать объяснения, которые разрушили бы находку, — и не найти их.

Интересно, что рост был не мгновенным: весь 2023 год ем-тире держалось на уровне 4%, потом взлетело в 2024–2025. Это похоже не на хайп, а на то, как инструмент постепенно становится рабочим — сначала пробуют энтузиасты, потом подключаются все.


📄

Оригинал из исследования (лексические маркеры)

Список слов из Kobak et al., которые росли параллельно с ем-тире в абстрактах:

"commendable", "meticulous", "meticulously", "intricate", "pivotal", 
"notable", "noteworthy", "innovative", "crucial"

Контекст: Kobak и соавторы выявили слова, статистически «любимые» LLM в научной прозе. Czuma проверил, растут ли они так же, как ем-тире — и подтвердил: odds ratio 4.05, тот же временной паттерн. Независимый маркер, та же история.

В русскоязычных текстах точные переводы варьируются, но принцип работает так же.


📌

Адаптации

📌

💡 Адаптация: Персональный анти-AI список в кастомных инструкциях

Вместо того чтобы каждый раз вставлять список маркеров в промпт — добавь его в системные инструкции ChatGPT или «Memory» Claude:

При любом написании текстов:
— Никогда не используй длинное тире (—)
— Запрещённые слова: [твой список под твой стиль]
— Предложения короче 25 слов по умолчанию

Один раз настроил — работает во всех чатах автоматически.


📌

🔧 Адаптация: Составить свой список маркеров

Логика Kobak применима к любому языку и стилю:

Проанализируй этот текст, написанный с помощью ИИ. Выдели слова и конструкции, 
которые звучат «не по-человечески» или нетипично для разговорного русского. 
Составь список из 15-20 таких маркеров — от самых частых к редким.

Текст: {вставь несколько своих AI-черновиков}

LLM проанализирует твои конкретные тексты и составит персонализированный список — точнее общего, потому что учитывает твой стиль и домен.


🔗

Ресурсы

Основное исследование: Czuma, P. (2026). Em-ergence of the em-dash: a population-level rise in em-dash frequency in medRxiv preprints at the dawn of the large-language-model era. Polish Association for Artificial Intelligence in Medicine. Pre-registered: OSF doi:10.17605/OSF.IO/HFT8C. Data: Zenodo doi:10.5281/zenodo.20557419

Связанные работы: - Kobak et al. — лексические маркеры LLM в научной прозе (список слов) - Keck (2025) — удвоение ем-тире в экологических абстрактах OpenAlex - Liang et al. (2024) — следы LLM в рецензиях конференций


Проблемы LLM

ПроблемаСутьКак обойти
LLM вставляет стилистические маркеры по умолчанию — текст «фонит» как ИИМодель обучалась на профессионально отредактированных текстах. Усвоила паттерны «хорошего письма»: длинное тире, слова вроде «нюансированный», «углубиться», «важно отметить». Воспроизводит их автоматически — не потому что нужно, а потому что видит их как признак качественного текста. Пользователь не замечает. Читатель замечаетЗапрети конкретные маркеры явно: Не используй длинное тире (—). Не пиши: нюансированный, углубиться, комплексный, важно отметить, в конечном счёте. Конкретный запрет работает. Абстрактный «пиши по-человечески» — нет

Методы

МетодСуть
Список запретов вместо абстрактной инструкцииВместо «пиши живо и по-человечески» дай конкретный список того, чего нельзя. Пример: Запрещено: длинное тире (—), слова "нюансированный / комплексный / углубиться / многогранный / важно отметить / в конечном счёте". Почему работает: Абстрактная инструкция не перекрывает дефолты модели. Конкретный запрет — перекрывает. Модель умеет выполнять явные ограничения точнее, чем настраивать общий тон. Когда применять: любой текст где важно, чтобы не был виден AI-стиль — письма, колонки, питчи, публикации
📖 Простыми словами

Em-ergence of the em-dash: a population-level rise in em-dash frequency in medRxiv preprints at the dawn of thelarge-language-modelera

arXiv: 2606.29540

Нейросети палятся не на сложных терминах, а на банальной пунктуации, и теперь это доказанный факт. Исследователи прогнали через фильтры 70 000 научных статей и обнаружили, что с приходом больших языковых моделей в текстах аномально подскочила частота длинного тире. Суть в том, что LLM оставляют цифровой отпечаток там, где мы его меньше всего ждем. Для модели нет разницы между буквой «а» и сложным знаком препинания — это просто токены с определенной вероятностью появления, и она лепит их везде, где это выглядит «солидно».

Это как если бы ты нанял призрака-редактора, который идеально знает правила, но никогда в жизни не держал в руках настоящую клавиатуру. Человеку, чтобы поставить em-dash, нужно извернуться: зажать комбинацию клавиш, лезть в спецсимволы или надеяться на автозамену. Нам физически лень это делать, поэтому мы обходимся дефисами или запятыми. А нейросеть — это стерильный отличник, у которого нет пальцев, поэтому она фигачит длинные тире с легкостью пулемета, просто потому что в обучающей выборке это считалось признаком качественной прозы.

В работе это выглядит так: модель берет статистический паттерн и выкручивает его на максимум. Если в хороших книгах длинное тире встречается часто, значит, надо вставлять его в каждое второе предложение для «интеллектуального» вида. В итоге получается текст, который формально безупречен, но по плотности спецсимволов превращается в статистическую аномалию. Исследование на medRxiv четко показало: как только ChatGPT пошел в массы, графики использования тире улетели в космос — люди просто перестали переписывать за нейросетью эти мелкие детали.

Принцип работает не только в медицине, он универсален для любого контента. Будь то пост в телеграме, колонка на VC или отчет для босса — избыточная пунктуация выдает использование AI мгновенно. Мы привыкли искать галлюцинации или странные факты, но палево зарыто на уровне верстки. Это новый вид цифровой криминалистики: теперь не нужно быть экспертом в теме, чтобы понять, что текст сгенерирован, достаточно просто посчитать тире на абзац.

Короче, если хочешь, чтобы твой текст не выглядел как продукт жизнедеятельности алгоритма — чисти пунктуацию. Нейросети слишком любят казаться умными и перебарщивают с оформлением, создавая эффект зловещей долины в типографике. Либо ты тратишь время на ручную правку и убираешь эти «дизайнерские» тире, либо любой мало-мальски обученный фильтр пометит твой опус как AI-generated. В эпоху GEO и борьбы за охваты такая мелочь может стоить тебе всей дистрибуции контента.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с