3,583 papers
arXiv:2606.12073 74 10 июня 2026 г. FREE

«AI Slop»-эффект: как отличить реальные маркеры AI-текста от социального клейма

КЛЮЧЕВАЯ СУТЬ
Парадокс: читатели массово обвиняют тексты в «AI slop» — но обвинения почти не попадают в реальные AI-маркеры. Это не ощущение — это измерили. Исследование нашло конкретные лингвистические признаки, которые статистически отличают AI-текст от человеческого. Оказалось: это не то, за что людей реально ругают. Метод позволяет убрать объективные AI-маркеры одним промптом. Реальные маркеры: равномерная длина предложений, формальные наречия («безусловно», «несомненно»), мало сокращений, слова-триггеры — em-dash и «погрузиться». Запрети их явно в промпте — текст объективно меньше похож на машинный.
Адаптировать под запрос

TL;DR

Читатели в интернете стали массово обвинять тексты в «AI slop» — но обвинения не попадают в реальные маркеры AI-текста. Это главный сюрприз исследования: есть конкретные, статистически доказанные лингвистические признаки AI-текста, и есть то, за что людей реально обвиняют — и это разные вещи. Первое измеримо и поддаётся управлению. Второе — социальный ритуал.

Реальные маркеры AI-текста — меньше сокращений («не» вместо «нету», «это» вместо «это ж»), больше формальных наречий («безусловно», «действительно», «несомненно»), выше плотность предлогов, более однородная длина предложений. Плюс триггерные слова: em-dash, «delve» («погрузиться»), стандартные зачины вроде «в быстро меняющемся мире», «богатая палитра», «стоит отметить». Это можно убрать промптом.

Но обвинения в «AI slop» сорно не отслеживают эти маркеры — они стали социальным инструментом отбора «своих» в онлайн-сообществах. Понимание этого разрыва даёт два типа пользы: знаешь, что реально делает текст похожим на AI — и можешь это контролировать.


📌

Схема инсайта

СЛОЙ 1: Реальные AI-маркеры (измеримые, управляемые)
  - Низкий процент сокращений → добавь разговорность
  - Высокая плотность формальных наречий → убирай «безусловно», «несомненно»
  - Равномерная длина предложений → варьируй ритм
  - Триггерные слова → прямой запрет в промпте

СЛОЙ 2: Социальные триггеры обвинений (не предсказывают реальный AI)
  - «AI slop» = сигнал принадлежности к группе
  - Обвинение функционирует как контроль доступа, не детекция
  - Даже человеческий текст обвиняют — если он «подозрительный»

Оба слоя работают в одном промпте — не нужны отдельные запросы.


🚀

Пример применения

Задача: Ты ведёшь Telegram-канал про инвестиции в российский рынок. Пишешь разборы с помощью AI — но хочешь, чтобы посты не выглядели как «ChatGPT-на-минималках» и не собирали комменты «очередной бот, ай слоп».

Промпт:

Напиши пост для Telegram-канала про инвестиции на тему: 
[тема — например: «почему Сбер сейчас интереснее, чем кажется»]

Требования к стилю — строго:
— Используй сокращения и разговорные обороты: «нет смысла», «ну и», «короче», «это ж очевидно»
— НЕ используй: em-dash (—), слово «погрузиться», «стоит отметить», «в современном мире», «богатый», «ключевой» без необходимости
— Варьируй длину предложений: короткие (3–6 слов) и длинные (15–20 слов) — вперемешку
— Избегай формальных наречий: «безусловно», «несомненно», «действительно» — режь их
— Пиши как человек, который разбирается в теме и объясняет другу, а не составляет отчёт
— Один конкретный тезис — не три «с одной стороны... с другой стороны»

Целевая аудитория: частные инвесторы 28–40 лет, Москва и крупные города, следят за РБК и Коммерсантом.

Результат: Модель выдаст текст заметно плотнее и «голосистее» обычного AI-вывода. Формальные связки исчезнут — появится ритм с перебивками. Сравни с тем же заданием без инструкций по стилю — разница будет слышна сразу.


🧠

Почему это работает

Почему AI-текст вообще звучит «как AI»? Модели обучались на огромных массивах формального текста — статьи, документы, энциклопедии. Поэтому они по умолчанию генерируют формальный регистр: ровные предложения, много предлогов, мало сокращений, высокая «плотность» наречий. Это не баг — это паттерн обучения.

Что умеет LLM хорошо? Следить за явными инструкциями в промпте. Если ты конкретно прописал «не используй em-dash», «добавь короткие предложения», «убери формальные наречия» — модель выполнит. Это не сложно, если знаешь, что именно запрещать.

Главный рычаг: Список запретных паттернов + требование варьировать длину предложений. Именно однородность длины предложений — один из самых сильных статистических маркеров AI-текста по данным исследования. Добавь в промпт: «короткие и длинные предложения вперемешку» — и результат уже ощутимо другой.

Рычаги управления: - Список запретных слов → расширяй под свою нишу (у юридических текстов свои триггеры, у маркетинга — свои) - Аудитория + контекст → чем конкретнее описан читатель, тем точнее модель попадает в тон - Пример «голоса» → вставь в промпт 2-3 предложения в нужном тоне: модель подстроится


📋

Шаблон промпта

Напиши {тип текста} на тему: {тема}

Стилевые ограничения — обязательно:
— Добавь разговорные сокращения и живые обороты
— НЕ используй: em-dash (—), «погрузиться», «стоит отметить», «в современном мире», «ключевой», «безусловно», «несомненно», «действительно»
— Варьируй длину предложений: чередуй очень короткие (3–7 слов) с длинными (15–25 слов)
— Избегай структуры «с одной стороны... с другой стороны» — один конкретный угол
— Пиши как {голос: эксперт-практик / скептик / энтузиаст} объясняет {аудитория} без снисхождения

Аудитория: {описание читателя}
Длина: {количество слов или знаков}

Что подставлять: - {тип текста} — пост, письмо, статья, описание продукта, скрипт - {голос} — скептик, практик, инсайдер, критик — чем конкретнее, тем лучше - {аудитория} — не «широкая аудитория», а «стартапер 30 лет, который уже пробовал AI-инструменты»

🚀 Быстрый старт — вставь в чат:

Вот шаблон для написания текста без AI-маркеров. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип текста, аудиторию и нужный тон — потому что без этого невозможно правильно настроить стилевые ограничения под конкретный контекст.


⚠️

Ограничения

⚠️ Социальные обвинения не победить стилем: Исследование показало — обвинения в «AI slop» не отслеживают реальные маркеры. Значит, даже идеально написанный текст может получить ярлык. Управление маркерами снижает объективный «AI-сигнал», но не гарантирует защиты от социального клейма.

⚠️ Триггерные слова — живые: Список «палевных» слов меняется. «Delve» и em-dash — 2024 год. Через год будут другие. Шаблон нужно периодически обновлять.

⚠️ Работает для написания, не для детекции: Эти маркеры помогают производить менее детектируемый текст. Они не дают надёжного способа определить, написан ли чужой текст AI — исследование это прямо доказало.

⚠️ Контекст важен: В технических и академических сообществах (Stack Overflow, Хабр) обвинения чаще попадают в цель, чем в развлекательных. В профессиональных сообществах аудитория острее чувствует паттерны.


🔍

Как исследовали

Идея была простой и масштабной: взять 25 миллионов комментариев с Hacker News и Reddit за три с лишним года (2023–2026) и посмотреть, как менялись обвинения в AI-авторстве. Исследователи составили 137-паттерный словарь — от прямых обвинений («ChatGPT это написал») до пейоративов («AI slop», «GPT-мусор»), стилевых триггеров (em-dash, «delve») и пародий («дорогие соплеменники-люди»).

Чтобы проверить, не просто ли люди стали подозрительнее в целом, добавили контрольную группу — словарь старого языка недоверия: «астротёрфинг», «шилл», «купленный». Если бы росло общее недоверие, оба словаря росли бы вместе. Но «шиллы» остались плоскими или упали — значит, рост AI-обвинений специфический, не общий тренд паранойи.

Самый неожиданный эксперимент — matched-control test. Взяли 421 комментарий, который реально получил обвинение в AI, нашли сопоставимые комментарии из тех же тредов и того же объёма, которые обвинений не получили. Затем измерили шесть лингвистических маркеров, которые статистически хорошо отличают AI-текст от человеческого. Результат: ни один маркер не предсказывал, кого обвинят. Люди обвиняют не текст — они обвиняют подозрительность. Это перевернуло исходную гипотезу исследования.


💡

Адаптации и экстраполяции

🔧 Техника: «голосовой якорь» в промпте

Добавь 2-3 предложения в нужном тоне прямо в промпт как пример. Модель подстраивается под ритм и лексику образца быстрее, чем под любые абстрактные инструкции «пиши живо». Это работает потому что few-shot (показ примеров) — один из самых надёжных механизмов управления выводом.

Пиши в таком тоне: «Сбер торгуется по 270 — ну и что? Все ждут 300. Я бы не ждал.
Вот почему.» Сохрани эту плотность и короткость.

🔧 Техника: итерация через «сделай более человеческим»

Напиши текст обычным промптом → затем отдельным запросом: «Прочитай этот текст и убери все признаки AI: добавь сокращения, разбей монотонные предложения, вырежи формальные наречия, замени em-dash на тире или точку». Двухшаговый процесс часто даёт лучший результат, чем один сложный промпт.


🔗

Ресурсы

«That's AI Slop, You Bot!": Studying Accusations, Evidence, and Credibility in Online Discourse Towards LLM-Generated Comments

Авторы: Jason Miklian (University of Oslo), John E. Katsos (American University of Sharjah)

Данные: Hacker News (Algolia archive), Reddit (Arctic Shift archive), 25 млн комментариев, январь 2023 — май 2026

Смежные работы упомянутые в статье: Jakesch et al. (2023) — про систематически неверные человеческие эвристики определения AI-текста; Akerlof (1970) — рынок «лимонов»; теория энрегистрации Agha (2003, 2007)


📋 Дайджест исследования

Ключевая суть

Парадокс: читатели массово обвиняют тексты в «AI slop» — но обвинения почти не попадают в реальные AI-маркеры. Это не ощущение — это измерили. Исследование нашло конкретные лингвистические признаки, которые статистически отличают AI-текст от человеческого. Оказалось: это не то, за что людей реально ругают. Метод позволяет убрать объективные AI-маркеры одним промптом. Реальные маркеры: равномерная длина предложений, формальные наречия («безусловно», «несомненно»), мало сокращений, слова-триггеры — em-dash и «погрузиться». Запрети их явно в промпте — текст объективно меньше похож на машинный.

Принцип работы

Интуиция людей насчёт «как звучит AI» ненадёжна. Исследование это доказало: обвинения не предсказывают реальный AI-текст. Нужен конкретный список, а не ощущения. Два слоя: социальные обвинения («AI slop» как сигнал «свой/чужой») и измеримые паттерны — и это разные вещи. Управлять можно только вторым. Однородная длина предложений — самый сильный статистический маркер по данным исследования. Добавь в промпт «чередуй короткие и длинные» — разница слышна сразу.

Почему работает

Модели обучались на формальном тексте — статьи, документы, энциклопедии. По умолчанию выдают формальный регистр. Ровные предложения, редкие сокращения, много наречий — это паттерн обучения, не баг. Но LLM хорошо следит за явными ограничениями в промпте. Написал «не используй em-dash» — не использует. Написал «чередуй короткие и длинные» — чередует. Не магия — просто инструкция. Главное: знать, что именно запрещать.

Когда применять

Публичный контент с AI → посты в Telegram, статьи, письма, описания продуктов — когда важно звучать как живой голос, а не машинный отчёт. Особенно в насмотренных сообществах: Хабр, профессиональные блоги, Telegram-каналы с технической аудиторией. НЕ подходит: если хочешь определить, написан ли чужой текст AI. Маркеры помогают производить менее детектируемый текст — но надёжно детектировать чужой не дают. Исследование это прямо показало.

Мини-рецепт

1. Запрети триггерные слова: em-dash (—), «погрузиться», «стоит отметить», «в современном мире», «безусловно», «несомненно», «действительно» — список можно расширять под свою нишу
2. Потребуй варьирование длины: добавь строго — «чередуй очень короткие предложения (3–6 слов) с длинными (15–20 слов)». Это самый сильный рычаг
3. Включи разговорность: «используй живые обороты и сокращения — «ну и», «короче», «это ж», «нет смысла»
4. Опиши голос конкретно: не «дружелюбный тон», а «скептик-практик объясняет коллеге без снисхождения» — чем точнее, тем лучше попадание
5. Дай аудиторию с деталями: не «широкая аудитория», а «контент-менеджер 28 лет, который уже пробовал AI-инструменты и устал от шаблонов»

Примеры

[ПЛОХО] : Напиши пост для Telegram-канала про выход нового обновления продукта
[ХОРОШО] : Напиши пост для Telegram-канала про обновление продукта. Стиль — строго: — Чередуй короткие предложения (3–5 слов) с длинными (15–20 слов) — вперемешку — НЕ используй: em-dash (—), «безусловно», «несомненно», «стоит отметить», «погрузиться», «ключевой» без нужды — Добавь разговорные обороты: «ну и», «короче», «это ж понятно», «нет смысла» — Один угол зрения — без «с одной стороны... с другой стороны» — Пиши как практик объясняет коллеге — без отчётного тона Аудитория: разработчики 25–35 лет, следят за продуктом давно, не любят маркетинговую воду.
Источник: "That's AI Slop, You Bot!" Studying Accusations, Evidence, and Credibility in Online Discourse Towards LLM-Generated Comments
ArXiv ID: 2606.12073 | Сгенерировано: 2026-06-11 04:23

Проблемы LLM

ПроблемаСутьКак обойти
Модель по умолчанию пишет в формальном регистреМодели обучены на формальных текстах: статьях, документах, энциклопедиях. Поэтому вывод всегда получается ровным и официальным. Мало сокращений. Много дежурных наречий. Все предложения похожей длины. Это не баг — это паттерн, зашитый через обучение. Убрать его без инструкции нельзяЯвно запрети формальные паттерны в запросе. Список слов: «безусловно», «несомненно», «стоит отметить», «погрузиться», em-dash (—). Плюс потребуй чередовать короткие и длинные предложения

Методы

МетодСуть
Список запретов + ритм — убираем AI-регистрДобавь в запрос два блока. Первый — запрещённые паттерны: НЕ используй: em-dash (—), «погрузиться», «стоит отметить», «безусловно», «несомненно», «действительно», «в современном мире». Второй — ритм: Чередуй очень короткие предложения (3–7 слов) с длинными (15–25 слов). Почему работает: оба блока дают модели явный критерий. Модель умеет соблюдать конкретные ограничения. Не умеет «писать живо» без них. Усили: добавь 2–3 предложения нужного голоса — модель подстроится под образец. Когда не работает: технические тексты, где формальный регистр уместен
📖 Простыми словами

"That'sAISlop, You Bot!" Studying Accusations, Evidence, and Credibility in Online Discourse TowardsLLM-Generated Comments

arXiv: 2606.12073

Люди в интернете начали охоту на ведьм, называя любой подозрительный пост AI slop — то есть «нейросетевой помойкой». Суть в том, что между реальным текстом от нейросети и тем, что люди считают нейросетевым, лежит огромная пропасть. Исследователи выяснили: наши обвинения в ботоводстве — это не детективная работа, а социальный ритуал. Мы кидаемся обвинениями, когда нам не нравится мнение или тон, а не когда мы реально распознали алгоритм. В итоге получается абсурд: настоящие маркеры AI-текста (статистические аномалии) остаются незамеченными, а живых людей «отменяют» просто за излишнюю вежливость или грамотность.

Это как если бы ты пришел в бар, а на тебя начали орать, что ты робот, только потому, что ты не материшься и аккуратно держишь бокал. Формально ты ведешь себя слишком правильно, и это бесит окружающих, которые привыкли к хаосу. В сети происходит то же самое: если ты пишешь без ошибок и структурировано, ты автоматически попадаешь под подозрение, даже если писал всё сам от руки. Это тупо, но такова новая реальность — нормальность стала подозрительной.

Что реально выдает нейросеть, так это формальный регистр и специфическая лингвистическая «плотность». Модели перекормлены энциклопедиями, поэтому они обожают ровные предложения, кучу предлогов и почти никогда не используют сокращения. Если в тексте зашкаливает количество наречий и всё звучит как стерильный отчет — это статистический след. Но ирония в том, что обычный пользователь этого не видит. Он триггерится на банальные фразы типа «важно отметить» или «в заключение», хотя это просто плохой стиль письма, а не подпись ChatGPT.

Этот принцип работает везде: от комментариев под постами об инвестициях до отзывов на маркетплейсах. Если ты хочешь, чтобы твой контент не заклеймили как AI slop, тебе нужно намеренно ломать структуру. Добавляй разговорный мусор, используй сокращения, делай предложения разной длины. Тестировали это на комментариях, но правило универсально: чем «чище» и правильнее твой текст, тем больше шансов, что тебя назовут ботом. Идеальность — это новый маркер подделки.

Короче: хватит пытаться писать «качественно» в классическом понимании, если не хочешь быть обвиненным в использовании нейросетей. Главный вывод исследования — люди лажают в 10 из 15 случаев, когда пытаются угадать автора текста. Чтобы выжить в эпоху GEO и тотального недоверия, нужно добавлять в контент «человеческие ошибки» и личный стиль. Либо ты звучишь как живой человек с его странностями, либо тебя спишут в утиль как очередной бот, даже если ты не открывал ChatGPT.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с