3,583 papers
arXiv:2606.04177 70 2 июня 2026 г. FREE

Лексическая бедность: единственный надёжный признак AI-текста во всех моделях и темах

КЛЮЧЕВАЯ СУТЬ
Из 284 лингвистических признаков AI-текста только один работает стабильно — через 27 моделей и 10 разных тематических областей. Не синтаксис, не 'правильный тон', не длина предложений — всё это ломается при смене темы или модели. Только словарная монотонность: одни и те же слова по кругу, минимум синонимов, повторяющиеся конструкции. Метод позволяет убрать этот единственный надёжный сигнал AI-авторства — через конкретные инструкции прямо в промпте. Фишка: не 'пиши как человек' — а конкретные структурные правила: не повторяй слово в одном абзаце, чередуй длину предложений, меняй начала. Это единственное, что меняет результат — и при написании, и при проверке чужого текста на AI-происхождение.
Адаптировать под запрос

TL;DR

AI-текст надёжно отличается от человеческого по одному признаку — лексической бедности. LLM повторяет слова чаще, использует меньше синонимов, возвращается к одним и тем же лексическим единицам снова и снова. Исследователи проверили 284 лингвистических признака на текстах 27 моделей в 10 тематических доменах — и только словарное разнообразие оказалось стабильным сигналом, который работает везде.

Почему так происходит. Человек пишет, вытаскивая слова из разных ящиков памяти — опыт, ассоциации, контекст тянут к разным формулировкам. LLM генерирует следующий токен по вероятности: "выгодные" слова побеждают снова и снова. Текст выходит связным и грамотным, но монотонным по словарю — как будто один и тот же набор слов крутится по кругу. Все остальные "AI-признаки" — синтаксис, эмоциональная окраска, читаемость, длина предложений — оказались ненадёжными: они работают в одном домене, но ломаются в другом.

Из этого два практических вывода. Хочешь, чтобы AI-текст звучал человечнее — явно проси разнообразить лексику и избегать повторений: это единственное, что резко улучшает "человечность" текста. Хочешь быстро проверить текст на AI-шность — ищи не "слишком правильный синтаксис" или "нейтральный тон", а именно словарную монотонность: одни и те же слова, минимум синонимов, повторяющиеся конструкции.


🔬

Схема метода

Метод — не пошаговый алгоритм, а принцип, который добавляется к любому промпту на написание текста.

БАЗОВЫЙ ПРОМПТ: [задача на написание текста]
         +
НАДСТРОЙКА: [инструкция на лексическое разнообразие]
         ↓
РЕЗУЛЬТАТ: текст, который сложнее детектировать как AI

Надстройка работает в одном запросе — отдельных шагов не нужно.


🚀

Пример применения

Задача: Написать отзыв на языковые курсы для Яндекс.Карт — так, чтобы он не звучал как ChatGPT.

Промпт:

Напиши отзыв на языковые курсы английского в Москве для Яндекс.Карт. 
Я занимался 4 месяца, цель была — выйти на B2, удалось.

Требования к тексту:
— Не повторяй одно и то же слово дважды в одном абзаце
— Используй синонимы там, где это органично
— Чередуй длину предложений: короткие и длинные вперемешку
— Разные начала предложений — не все с "Я" или с "Курсы"
— Пиши как человек, который немного устал после работы, но доволен результатом

Объём: 5-7 предложений.

Результат: Модель выдаст текст с заметно большим словарным разнообразием: меньше повторов, разные союзы и вводные конструкции, смена ритма предложений. Это не гарантирует, что детектор не распознает текст, но убирает самый сильный сигнал — лексическую монотонность.


🧠

Почему это работает

LLM — вероятностная машина, а не писатель. Когда нужно сказать "хороший результат", модель с высокой вероятностью выберет слово результат снова, потому что оно только что было в контексте. Человек бы написал итог, достижение, то, чего добился — интуитивно уходя от повторов. LLM этого не делает без явной инструкции.

Почему остальные "AI-признаки" ненадёжны. Синтаксис, длина предложений, эмоциональность — всё это сильно зависит от темы и модели. Новостной текст от GPT выглядит иначе, чем рецензия от LLaMA. Но лексическая бедность встречается у всех и везде — потому что это следствие самого механизма генерации, а не стиля конкретной модели.

Рычаг: Явная инструкция на разнообразие лексики работает лучше, чем абстрактное "пиши как человек". Лучше дать конкретные правила — не повторять слово в одном абзаце, чередовать длину предложений, менять начала. Модель следует структурированным инструкциям точнее, чем размытым пожеланиям.


📋

Шаблон промпта

{задача на написание текста}

Требования к лексике и ритму:
— Не повторяй одно и то же слово в одном абзаце — используй синонимы
— Чередуй длину предложений: короткие и развёрнутые вперемешку  
— Разные конструкции в начале предложений — не все с "{повторяющееся слово}"
— Избегай канцелярских клише: "{клише_1}", "{клише_2}"
— Стиль: {описание тона — усталый, живой, ироничный, деловой}

Объём: {количество} предложений / слов.

Что подставлять: - {задача} — что нужно написать: отзыв, пост, письмо, описание товара - {повторяющееся слово} — то, с чего модель обычно начинает всё подряд: "Я", "Это", "Данный" - {клише} — типичные AI-обороты для вашей темы: "в заключение следует отметить", "немаловажно подчеркнуть" - {тон} — эмоциональный регистр, который нужен


📌

🚀 Быстрый старт — вставь в чат:

Вот шаблон для написания текста с человеческой лексикой. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы уточнить детали.

[вставить шаблон выше]

LLM спросит про тему, тон, объём и типичные клише вашей области — потому что без этого она не сможет настроить правила разнообразия конкретно под вашу задачу.


⚠️

Ограничения

⚠️ Не панацея от детекторов: Современные детекторы AI-текста используют не только лингвистические признаки, но и статистику вероятностей токенов. Лексическое разнообразие убирает самый надёжный сигнал, но не делает текст невидимым для всех систем детектирования.

⚠️ Зависимость от домена: Исследование показало, что разные текстовые домены реагируют по-разному. Научный текст (SciGen) детектировался стабильно даже из домена, которого не было в обучении. Для разговорных форматов (DialogSum) точность падала резко — вероятно, там сам жанр требует характерной лексики.

⚠️ Неработает для простых моделей: Более старые и простые LLM (OPT, Eleuther) оставляют настолько явные лингвистические следы, что один признак лексической бедности погоды не делает — там детектируется буквально всё.

⚠️ Инструкция не гарантирует исполнение: Модель может следовать правилу неравномерно — в начале текста аккуратнее, к концу забывает. Для длинных текстов стоит делать несколько запросов или проверять вручную.


🔍

Как исследовали

Команда из Университета Штутгарта и института GESIS взяла датасет MAGE — большой бенчмарк, где человеческие тексты из 10 источников (новости, рецензии, научные статьи, истории, вопрос-ответ и другие) спарены с продолжениями от 27 LLM семи семейств: от GPT до LLaMA и устаревших OPT. Итого — сотни тысяч текстовых пар.

Идея была простая: вместо чёрного ящика (нейросети-детектора) натренировать классический классификатор на 284 интерпретируемых лингвистических признаках — чтобы можно было сказать почему текст выглядит машинным, а не просто "нейросеть так решила". Потом методично убирали группы признаков и смотрели, что ломается.

Главный сюрприз: когда убирали лексическое разнообразие — точность падала на 13%. Когда убирали всё остальное по одному — падение было меньше 0,5%. В режиме "невиданных доменов" (тексты из областей, которых не было при обучении) убирание почти всех признаков, кроме лексических, повышало точность — шум уходил, сигнал оставался. Это нетривиально: исследователи ожидали, что чем больше признаков, тем лучше. Оказалось — большинство признаков добавляют шум, а не сигнал.


💡

Адаптации и экстраполяции

🔧 Техника: явный запрет повторов на уровне абзаца → точечный контроль

Вместо общей инструкции "используй разнообразные слова" — дай модели конкретное правило с единицей измерения:

Правило: ни одно существительное и глагол не должны 
встречаться в одном абзаце дважды в той же форме. 
Исключения — служебные слова (и, но, в, на, это).

Конкретное ограничение с единицей ("абзац", "дважды") работает точнее, чем абстрактное пожелание.


🔧 Техника: режим аудита → найти AI-шные места в готовом тексте

Принцип исследования можно перевернуть — не "пиши разнообразнее", а "найди где ты повторяешься":

Прочитай текст ниже и найди:
1. Слова, которые встречаются чаще 3 раз — предложи синонимы
2. Предложения, которые начинаются одинаково — переформулируй
3. Абзацы с одинаковой длиной предложений подряд — разбей ритм

[текст]

Модель вернёт конкретные места и варианты замены — быстрая редактура под человеческий стиль.


🔗

Ресурсы

Название работы: A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Авторы: Yassir El Attar, Esra Dönmez, Maximilian Maurer, Agnieszka Falenska

Организации: Institute for Natural Language Processing, University of Stuttgart; Interchange Forum for Reflecting on Intelligent Systems, University of Stuttgart; GESIS Leibniz Institute for the Social Sciences; Heinrich-Heine University Düsseldorf

Датасет: MAGE benchmark (Li et al., 2024)

Инструмент извлечения признаков: elfen Python package (Maurer, 2026)


📋 Дайджест исследования

Ключевая суть

Из 284 лингвистических признаков AI-текста только один работает стабильно — через 27 моделей и 10 разных тематических областей. Не синтаксис, не 'правильный тон', не длина предложений — всё это ломается при смене темы или модели. Только словарная монотонность: одни и те же слова по кругу, минимум синонимов, повторяющиеся конструкции. Метод позволяет убрать этот единственный надёжный сигнал AI-авторства — через конкретные инструкции прямо в промпте. Фишка: не 'пиши как человек' — а конкретные структурные правила: не повторяй слово в одном абзаце, чередуй длину предложений, меняй начала. Это единственное, что меняет результат — и при написании, и при проверке чужого текста на AI-происхождение.

Принцип работы

Не проси модель 'звучать естественно' — это размытое пожелание без конкретного действия. Давай явные структурные ограничения: не повторять одно слово в одном абзаце, чередовать короткие и длинные предложения, менять начала — не всё с 'Я' или 'Это'. Модель следует конкретным правилам точнее, чем туманным пожеланиям. Проверяешь текст на AI-шность — ищи не 'слишком правильный синтаксис', а словарную петлю: одно и то же слово через предложение, никаких синонимов, одинаковые зачины абзацев.

Почему работает

LLM — не писатель, а машина вероятностей. Слово 'результат' только что было в контексте — значит, оно снова вероятный кандидат. Человек интуитивно уходит от повтора. LLM без явного запрета — нет. Все остальные 283 признака зависят от темы и конкретной модели. Научный текст от GPT выглядит иначе, чем рецензия от LLaMA — а словарная бедность есть у обоих. Это не стиль конкретной модели, это следствие самого механизма генерации следующего токена. Поэтому искать AI по синтаксису — гадать на кофейной гуще. Искать по лексике — работает.

Когда применять

Написание текстов, которые должны звучать как человеческие — отзывы, посты, письма, карточки товаров, комментарии — особенно когда важно не выглядеть роботом или пройти автоматическую проверку. Быстрая проверка чужого текста на AI-происхождение — без сложных детекторов. НЕ подходит для: очень старых и слабых моделей вроде OPT или Eleuther — там детектируется буквально всё и словарными правилами не выедешь. Длинные научные тексты — там жанр сам по себе требует повторяющейся терминологии, и лексическая монотонность частично норма.

Мини-рецепт

1. Определи главную улику: прочитай черновик AI-текста и найди слова, которые встречаются больше двух раз в одном абзаце — это и есть сигнал, который ловят детекторы.
2. Добавь блок правил в промпт: не просто 'разнообразь лексику', а конкретно — не повторять одно слово в одном абзаце, чередовать длину предложений, менять начала (не всё с 'Я' или с названия темы).
3. Укажи клише под запретом: пропиши типичные AI-обороты для твоей области — 'в заключение следует отметить', 'немаловажно подчеркнуть', 'данный аспект' — и явно попроси их избегать.
4. Задай эмоциональный регистр конкретно: не 'пиши живо', а 'пиши как человек, который немного устал после работы, но доволен итогом' — чем точнее тон, тем меньше модель уходит в нейтральный канцелярит.
5. Для длинных текстов — дели на части: к концу длинного запроса модель начинает забывать правила и снова скатывается к повторам. Разбей на абзацы отдельными запросами или перечитай результат сам.

Примеры

[ПЛОХО] : Напиши отзыв на языковые курсы в Москве. Я занимался 4 месяца, дошёл до B2.
[ХОРОШО] : Напиши отзыв на языковые курсы английского в Москве для Яндекс.Карт. Я занимался 4 месяца, цель была — выйти на B2, удалось. Требования: — Не повторяй одно и то же слово в одном абзаце — используй синонимы — Чередуй длину предложений: короткие и длинные вперемешку — Разные начала предложений — не все с 'Я' или 'Курсы' — Избегай оборотов: 'хочу отметить', 'несомненно', 'данное заведение' — Стиль: человек немного устал после рабочего дня, но доволен результатом Объём: 5-7 предложений. Результат второго варианта — заметно больше синонимов, разный ритм, нет повторяющихся зачинов. Словарная петля пропадает — главная улика снята.
Источник: A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models
ArXiv ID: 2606.04177 | Сгенерировано: 2026-06-04 07:47

Проблемы LLM

ПроблемаСутьКак обойти
Модель повторяет слова — это главный сигнал AI-текстаLLM выбирает следующее слово по вероятности. Слово из недавнего контекста уже "горячее" — модель возвращается к нему снова. Получается связный, грамотный текст. Но одни и те же слова крутятся по кругу. Человек интуитивно уходит от повторов. Модель без явной инструкции — нетДай конкретные правила прямо в запросе: "не повторяй слово в одном абзаце", "используй синонимы", "чередуй длину предложений". Расплывчатое "пиши как человек" работает плохо. Конкретное правило — работает

Методы

МетодСуть
Правила разнообразия — снимают главный AI-сигналДобавь к любому запросу на написание текста блок правил. — Не повторяй слово в одном абзаце — используй синонимы — Чередуй длину предложений: короткие и длинные вперемешку — Разные начала предложений — не все с "Я" или "Это". Почему работает: модель следует структурированным правилам точнее, чем размытым пожеланиям. Конкретный запрет ("не повторяй") лучше абстрактного ("звучи живее"). Когда применять: любой текст где важна естественность — отзывы, посты, письма. Ограничение: для длинных текстов модель к концу "забывает" правила — проверяй вручную
📖 Простыми словами

A Systematic Analysis of Linguistic Features inAI-Generated Text Detection Across Domains andModels

arXiv: 2606.04177

Нейросети палятся не на странных мыслях, а на банальной лексической нищете. Фундаментально любая LLM — это статистический попугай, который выбирает самое вероятное следующее слово. Из-за этого модель постоянно ходит по кругу: если она один раз использовала слово результат, шанс, что она выберет его снова через пару предложений, зашкаливает. Человек интуитивно избегает повторов, подбирая синонимы или меняя структуру, а машина просто экономит на словах, превращая текст в предсказуемую жвачку.

Это как если бы ты пришел на вечеринку, где все говорят на разные темы, но один гость в каждом рассказе использует одни и те же пять прилагательных. Вроде всё правильно, грамматика на месте, смысл понятен, но через минуту ты понимаешь — с собеседником что-то не так, он звучит как зацикленный робот. Исследователи прогнали 284 признака через 27 разных моделей, и пока все остальные маркеры ломались, словарное разнообразие осталось единственным надежным способом вычислить синтетику.

Чтобы текст не вонял нейросетью, нужно внедрять лексическую вариативность. Если пишешь отзыв на курсы, забудь про повторение ключевых слов. Вместо того чтобы трижды впихнуть обучение, используй процесс, прокачку скиллов или погружение в среду. Модель сама так не сделает, потому что для неё «обучение» — самый безопасный и вероятный вариант. Суть метода проста: бей по синонимам и принудительно расширяй словарный запас в каждом абзаце, иначе любой детектор или внимательный читатель сразу поймет, кто тут автор.

Принцип универсален: он работает и для отзывов на картах, и для научных статей, и для постов в соцсетях. Тестирование на 10 разных темах доказало, что бедность языка — это родовая травма всех современных LLM, от ChatGPT до Gemini. Пока разработчики не научат модели рисковать и выбирать менее вероятные слова, этот маркер будет работать. SEO-тексты умирают, потому что они перегружены повторами, а в эпоху AI выживет только тот контент, который звучит живо и разнообразно.

Короче: если хочешь сойти за человека, перестань быть предсказуемым. Главный вывод исследования в том, что словарное разнообразие — это паспорт человека. Хочешь обмануть систему или просто писать качественнее — следи за тем, чтобы не повторяться. Либо ты используешь богатый язык, либо твой текст улетает в корзину с пометкой AI-generated. Третьего не дано, потому что цифры не врут: роботы — лексические бедняки, и это их главная уязвимость.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с