3,583 papers
arXiv:2606.02184 76 1 июня 2026 г. FREE

Ghost Names: у каждой LLM есть «актёры по умолчанию» — и по ним видно, что текст написан ИИ

КЛЮЧЕВАЯ СУТЬ
Попроси Claude придумать эксперта без указания имени — в 67% случаев появится «Елена Васкес». Почти всегда рядом окажется «Маркус Чен». Это не случайность — это поведенческий отпечаток конкретной модели, который читается в чужом тексте за секунды. Знание «призрачных имён» даёт сразу два инструмента: детектор AI-контента без специальных сервисов и простой способ защитить собственные тексты от мгновенного распознавания. Фишка: модель генерирует не отдельные имена, а кастинговые ансамбли — Elena тянет за собой Marcus так же неизбежно, как один актёр в сиквеле тянет другого. 23% пар-запросов в Claude выдают оба имени вместе — в 5–10 раз чаще случайного. При этом решение банальное: укажи имена в промпте явно — дефолт отключается мгновенно.
Адаптировать под запрос

TL;DR

Когда просишь Claude, ChatGPT или Gemini придумать эксперта, исследователя или персонажа — не указывая имя — модель не придумывает случайное имя. Она тянется к одному и тому же крошечному словарю «призрачных имён»: Claude почти всегда выдаёт Elena Vasquez + Marcus Chen, Gemini — Aris Thorne + Lena Petrova, GPT — Elara Voss. Эти имена появляются на сотнях независимо созданных страниц — блоги, коммерческие сайты, академические статьи — потому что авторы просто не переопределили дефолт.

Главный инсайт: LLM не просто предпочитает отдельные имена — она генерирует скоординированные ансамбли. Claude не просто «любит» Елену Васкес — она почти всегда ставит рядом с ней Маркуса Чена. Это работает как актёрский кастинг: одна роль тянет за собой другую. В 23% пар-запросов в claude-sonnet-4 оба имени появлялись вместе — в 5–10 раз чаще, чем ожидается при случайном выборе.

Из этого вытекают два практических следствия. Первое: если в тексте, присланном тебе подрядчиком, встречается Elena Vasquez или Aris Thorne — это сигнал. Второе: если хочешь, чтобы твой AI-контент выглядел оригинально и не был мгновенно узнаваем как машинный — всегда задавай имена явно, не оставляй модели выбирать.


🔬

Схема метода

Это не техника со шагами, а знание, которое меняет два паттерна работы:

ПАТТЕРН 1 — Детектор AI-контента:
Видишь чужой текст → ищешь ghost names → находишь = высокая вероятность AI

Ghost names по моделям:
Claude  → Elena Vasquez + Marcus Chen (+ Amara Okafor в тройках)
Gemini  → Aris Thorne + Lena Petrova
GPT     → Elara Voss (без стабильного партнёра)

ПАТТЕРН 2 — Защита своего контента:
Генерируешь персонажей / экспертов → задаёшь имена явно в промпте
→ модель НЕ уходит в дефолт → контент уникален

Оба паттерна работают в обычном чате, ничего не нужно настраивать.


🚀

Пример применения

Задача: Маша — контент-менеджер в московском EdTech-стартапе. Наняла фрилансера написать серию статей про карьеру в IT. Тот утверждает, что всё написано «своими руками». Маша хочет проверить.

Промпт для проверки:

Вот текст статьи:

[вставить текст]

Найди в тексте все имена персонажей, экспертов, спикеров, 
упомянутых как реальные или вымышленные люди.
Выпиши список имён.
Отдельно — если встретятся имена из этого списка, 
отметь их явно: Elena Vasquez, Marcus Chen, Amara Okafor, 
Aris Thorne, Lena Petrova, Elara Voss.
Это «призрачные имена» — характерные дефолты LLM.

Что получит Маша:

Модель выпишет все имена из текста и подсветит совпадения с ghost names. Если в статье «эксперт по UX Елена Васкес из MIT» — это не случайность, это дефолтный персонаж Claude без переопределения.


🧠

Почему это работает

LLM не генерирует имена случайно. Во время обучения на огромных корпусах текста определённые комбинации имён встречались непропорционально часто — в фантастике, учебных материалах, синтетических датасетах. Модель усвоила: «когда нужен эксперт — подходит это имя». Это работает как автозаполнение поля «Имя» в браузере: не случайность, а самое вероятное продолжение по контексту.

Почему пары, а не случайные наборы? Модель училась на текстах, где персонажи появляются вместе — в соавторстве, в диалоге, в команде. Поэтому у неё сформировались не отдельные «любимые имена», а словари персонажных ансамблей. Elena + Marcus — это пара, которую модель «видела» вместе достаточно часто, чтобы одно имя начало притягивать другое.

Рычаги управления для тебя: - Просто добавь имена в промпт — "Назови эксперта Вася Пупкин" — и дефолт немедленно отключается. Модель не будет «спорить». - Если нужна уникальность — проси имена из конкретной культуры: "придумай трёх корейских исследователей". Вероятность ghost names падает до нуля. - Можешь использовать ghost names как кастинг: если хочешь, чтобы читатель узнал паттерн AI-контента — оставь дефолт.


📋

Шаблон промпта

📌

Шаблон 1 — Убрать дефолт при генерации контента

Напиши {что нужно: статью / кейс / биографию / презентацию}.

Используй конкретные имена персонажей: {имя 1}, {имя 2}.
Не выбирай имена самостоятельно — только те, что я указал.

{остальные детали задачи}

Что подставлять: - {что нужно} — статья с экспертами, учебный кейс, список спикеров - {имя 1}, {имя 2} — любые имена, которые ты хочешь. Можно реальных людей, можно выдуманных, главное — задать явно - {остальные детали} — тема, тон, объём


📌

Шаблон 2 — Проверить чужой текст на AI-происхождение по ghost names

Проверь текст на наличие «призрачных имён» — дефолтных персонажей LLM.

Текст:
{вставить текст}

1. Выпиши ВСЕ имена собственных людей из текста (персонажи, 
   эксперты, авторы, спикеры, иллюстративные примеры).
2. Сравни с этим списком ghost names:
   - Claude-призраки: Elena Vasquez, Marcus Chen, Amara Okafor
   - Gemini-призраки: Aris Thorne, Lena Petrova
   - GPT-призраки: Elara Voss
3. Если находишь совпадение — укажи: какое имя, в каком контексте, 
   какой модели соответствует.
4. Итог: вероятность что текст написан AI без переопределения имён — 
   высокая / средняя / низкая.

Шаблон 2 не даёт 100% гарантию — отсутствие ghost names не значит, что текст написан человеком. Но наличие — сильный сигнал.


🚀 Быстрый старт — вставь в чат:

Вот шаблон для проверки текста на ghost names LLM. 
Адаптируй под мою задачу: [опиши задачу].

[вставить шаблон выше]

LLM спросит: какой текст проверять, нужно ли добавить контекст — потому что для корректной проверки нужно понять, ищешь ли ты конкретную модель-автора или просто хочешь флаг «это AI».


🧠

Почему это работает (углублённо)

Откуда берутся именно эти имена? Исследователи нашли несколько гипотез. Для GPT задокументирован конкретный след: Elara Voss — вероятно, слияние «Lilian Voss» из World of Warcraft и «Elara Dorne» из Star Wars: The Old Republic. Персонажи с такими именами были переразмножены в фанфикшн-корпусах, из которых обучались модели. Gemini's Aris Thorne встречается 204 раза в одном Kaggle-датасете с описаниями фантастических книг.

Почему разные модели — разные ансамбли? Claude, GPT и Gemini обучались на разных данных и проходили разную дообучку (RLHF — метод выравнивания модели по предпочтениям людей). Claude кристаллизовал пару, Gemini — пару с почти монополией одного имени (93% Aris Thorne — это почти полный дефолт), GPT создал соло-призрака без стабильного партнёра. Степень «слипания» имён, видимо, отражает разный объём нарративных обучающих данных.

Почему это важно для работы с LLM? Это один из редких случаев, когда у нас есть измеримый поведенческий отпечаток конкретной модели и даже конкретной версии. Elena Vasquez появляется в 67% single-промптов у claude-sonnet-4-20250514 и падает до 6% у claude-sonnet-4-6. Деградация — прямое свидетельство того, что Anthropic активно подавляет дефолт при релизах. Это значит: ghost names — это не баг, который никто не замечал. Это задокументированное поведение, которое разработчики отслеживают и пытаются исправить.


⚠️

Ограничения

⚠️ Ghost names — сигнал, не приговор: Отсутствие этих имён в тексте не означает, что он написан человеком. Автор мог просто указать другие имена в промпте — и дефолт ушёл.

⚠️ Реальные люди с этими именами существуют: Elena Vasquez и Marcus Chen — распространённые имена. Исследование показывает комбинацию «имя + область + аффилиация» без следов реального человека, не просто имя само по себе.

⚠️ Ghost names меняются с каждой версией модели: То, что актуально сегодня, может устареть через год. Claude уже активно подавляет Elena Vasquez в новых версиях.

⚠️ Проверка работает только для текстов с вымышленными экспертами: Если AI-текст про реальных людей (обзор конкурентов, новостная сводка) — ghost names там не появятся в принципе.


🔍

Как исследовали

Исследователи начали не с веб-поиска, а с аномалии в весах модели: Brzozowski с командой разрабатывали метод «Contrastive Decoding Diffing» для извлечения данных из дообученных моделей — и наткнулись на то, что Claude раз за разом генерировал Dr. Elena Rodriguez как дефолтного персонажа в пяти семантически несвязанных областях. Поиск этого имени в интернете открыл масштаб явления.

Дальше они систематически прозондировали девять версий Claude, десять версий GPT и Gemini 2.5 Flash через публичные API: 30 промптов каждого типа (соло, пара, тройка) при температуре 1.0 — чтобы исключить детерминизм и поймать статистику. Имена извлекались автоматически паттерном заглавных биграмм, затем считались частоты и совместная встречаемость.

Веб-валидация шла через Serper.dev (Google Search API): поиск ghost names — Elena+Marcus, Aris+Lena, Elara Voss — по всему вебу. 515–816 URL на ансамбль, совпадаемость 62–100%.

Самая неожиданная находка — академическая инфраструктура. Используя названия несуществующих журналов из ghost-корпуса, они нашли на Zenodo 1 655 записей с реальными DOIs, зарегистрированными в DataCite: заявленные даты публикации 2020–2023, реальная регистрация — март–апрель 2026. 991 запись загружена за один месяц. Это не граффити на заборе — это сфабрикованные научные записи с настоящими идентификаторами, которые могут быть проиндексированы любым агрегатором.


📄

Оригинал из исследования

Ключевая таблица — частота ghost names по версиям Claude:

Checkpoint              E.V.  M.C.  Pair
sonnet-4-20250514       60%   30%   23%
opus-4-20250514         37%   27%   20%
opus-4-1-20250805       23%   20%   13%
sonnet-4-5-20250929     20%   10%   10%
haiku-4-5-20251001      27%   23%   10%
opus-4-5-20251101       13%   10%    3%
opus-4-6                13%    3%    3%
sonnet-4-6               7%    0%    0%
opus-4-7                 7%    3%    3%

E.V. = Elena Vasquez, M.C. = Marcus Chen, 
Pair = оба имени в одном ответе

Ансамбли по семействам моделей:

Claude  → Elena Vasquez + Marcus Chen (+ Amara Okafor)  67% solo, 23% pair
Gemini  → Aris Thorne + Lena Petrova                    93% solo, 37% pair
GPT     → Elara Voss (solo only)                         23% solo, — pair

Контекст: Это результаты систематического зондирования публичных API, март 2026 года, 30 промптов на условие, температура 1.0.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: «Обратный кастинг» — используй ghost names намеренно

Если хочешь написать пародию на AI-контент или показать клиенту, как выглядит «дешёвый ИИ-текст»:

Напиши короткое описание вебинара про {тему}.
Включи двух вымышленных экспертов.
Варианты имён: Elena Vasquez (нейросети, MIT), Marcus Chen (системное мышление).
Стиль: типичный AI-маркетинговый текст.

Получишь идеальный «образцовый плохой контент» для объяснения клиенту, зачем платить за качество.


📋

🔧 Адаптация: Проверка собственных промптов на «призрачность»

Если регулярно генерируешь контент с экспертами — добавь в конец любого промпта:

После ответа выпиши отдельным блоком: 
какие имена ты использовал и почему именно их.
Если использовал Elena Vasquez, Marcus Chen, Aris Thorne, 
Lena Petrova или Elara Voss — предложи замену.

Модель начнёт замечать собственные дефолты и предлагать более уникальные варианты.


📌

🔧 Экстраполяция: Принцип «призрачных дефолтов» шире имён

Та же логика работает для других элементов контента. LLM имеет дефолты не только по именам:

  • Дефолтные города: «Сан-Франциско» как место действия стартапа
  • Дефолтные компании: «TechCorp» или «Acme Inc» как названия вымышленных бизнесов
  • Дефолтные числа: 42, 100, 1000 как «круглые» примеры

Принцип тот же: если явно не задал — модель тянется к самому вероятному по обучению.

Напиши кейс о {тема}.
Используй конкретно: 
- Компания: {название}
- Город: {город}  
- Имя героя: {имя}
- Сумма: {число}
Не выбирай эти параметры самостоятельно.

🔗

Ресурсы

The Ghost Couple: Correlated LLM Name Priors and Their Haunting of the Web and Academic Publishing

Авторы: Michał Brzozowski, Neo Christopher Chung — Samsung AI Center, Варшава; Варшавский университет

Связанная работа того же авторского коллектива: Reading the finetuning prior: Verbatim content recovery via contrastive decoding diffing — arXiv:2605.25902

Zenodo (репозиторий CERN с реальными DOIs): zenodo.org | DataCite: datacite.org


📋 Дайджест исследования

Ключевая суть

Попроси Claude придумать эксперта без указания имени — в 67% случаев появится «Елена Васкес». Почти всегда рядом окажется «Маркус Чен». Это не случайность — это поведенческий отпечаток конкретной модели, который читается в чужом тексте за секунды. Знание «призрачных имён» даёт сразу два инструмента: детектор AI-контента без специальных сервисов и простой способ защитить собственные тексты от мгновенного распознавания. Фишка: модель генерирует не отдельные имена, а кастинговые ансамбли — Elena тянет за собой Marcus так же неизбежно, как один актёр в сиквеле тянет другого. 23% пар-запросов в Claude выдают оба имени вместе — в 5–10 раз чаще случайного. При этом решение банальное: укажи имена в промпте явно — дефолт отключается мгновенно.

Принцип работы

Каждая модель работает с разным «кастом по умолчанию»: — Claude → Elena Vasquez + Marcus Chen (в тройках добавляется Amara Okafor) — Gemini → Aris Thorne + Lena Petrova (Aris в 93% случаев — почти монополия) — GPT → Elara Voss (одиночка, без стабильного партнёра) Проверка занимает 10 секунд: выпиши имена из текста, сравни с листом призраков. Нашёл совпадение — высокая вероятность AI без переопределения. Не нашёл — не значит «написано человеком», просто автор умнее среднего.

Почему работает

Модель обучалась на текстах, где персонажи появляются вместе — в соавторстве, командных историях, учебных кейсах. Одно имя стало предсказывать другое. Это работает как автозаполнение в браузере — только для персонажей. Для Elara Voss след конкретный: это слияние «Lilian Voss» из World of Warcraft и «Elara Dorne» из Star Wars: The Old Republic. Имена переразмножились в фанфикшн-корпусах, на которых обучался GPT. Aris Thorne обнаружили 204 раза в одном Kaggle-датасете с описаниями фантастических книг. Это не баг, который никто не замечал — Anthropic уже давит дефолт. У claude-sonnet-4-20250514 Елена Васкес в 67% промптов, у более ранней claude-sonnet-4-6 — всего 6%. Они отслеживают и правят от версии к версии. Ghost names — измеримый поведенческий отпечаток с датой истечения срока годности.

Когда применять

Проверка входящего контента → когда получаешь тексты от фрилансеров или агентств с «экспертными мнениями» и «иллюстративными персонажами». Особенно полезно для академических черновиков, статей в блог, кейсов с выдуманными исследователями. Защита собственного контента → когда генерируешь тексты с персонажами для публикации. Без явного указания имён контент будет распознаваться по ghost names даже без детекторов — просто глазами. НЕ подходит для текстов о реальных людях: новости, обзоры, интервью — ghost names там не появятся в принципе, метод не сработает.

Мини-рецепт

1. Выучи шесть имён: Claude = Elena Vasquez, Marcus Chen, Amara Okafor. Gemini = Aris Thorne, Lena Petrova. GPT = Elara Voss. Это весь список — умещается в одну строку.

2. Для проверки чужого текста: попроси модель выписать все имена людей из текста и сравнить с листом призраков. Нашлось совпадение — задай вопросы источнику.

3. Для своего контента: всегда задавай имена явно прямо в промпте: Эксперт — Семён Кравцов, руководитель отдела аналитики. Модель не будет спорить.

4. Хочешь нулевой риск? Добавь культурный якорь: придумай двух корейских исследователей или трёх экспертов с немецкими именами — вероятность ghost names падает до нуля.

Примеры

[ПЛОХО]: `Придумай эксперта по кибербезопасности и процитируй его мнение о фишинговых атаках` [ХОРОШО]: `Придумай эксперта по кибербезопасности. Его зовут Дмитрий Орлов, работает в московском банке, 15 лет в сфере. Процитируй его мнение о фишинговых атаках` --- Для проверки чужого текста: [ПЛОХО]: `Проверь, хорошая ли эта статья` — детектор ghost names вообще не задействован [ХОРОШО]: `Выпиши все имена людей из текста ниже. Отдельно отметь, если встретишь: Elena Vasquez, Marcus Chen, Amara Okafor, Aris Thorne, Lena Petrova, Elara Voss. Это призрачные имена LLM — сигнал AI-генерации без переопределения. [текст статьи]`
Источник: The Ghost Couple: Correlated LLM Name Priors and Their Haunting of the Web and Academic Publishing
ArXiv ID: 2606.02184 | Сгенерировано: 2026-06-02 07:24

Проблемы LLM

ПроблемаСутьКак обойти
Модель выбирает одни и те же имена по умолчаниюПросишь придумать эксперта или персонажа без указания имени. Модель не генерирует случайное имя. Она берёт одно из крошечного набора «любимых» имён. Claude тянется к Elena Vasquez + Marcus Chen. Gemini — к Aris Thorne + Lena Petrova. GPT — к Elara Voss. Это делает любой AI-контент мгновенно узнаваемым.Всегда задавай имена явно в запросе. Пиши: "Назови эксперта Иван Петров". Модель не будет спорить и не уйдёт в дефолт. Если нужна гарантия уникальности — добавь культурный контекст: "Придумай трёх корейских исследователей".

Методы

МетодСуть
Проверка текста на дефолтные имена — быстрый сигнал AIБерёшь чужой текст. Просишь модель выписать все имена людей. Сравниваешь со списком дефолтных имён. Claude: Elena Vasquez, Marcus Chen, Amara Okafor. Gemini: Aris Thorne, Lena Petrova. GPT: Elara Voss. Нашёл совпадение — высокая вероятность, что текст написан AI без переопределения имён. Ограничение: отсутствие этих имён не значит, что текст написан человеком. Работает только для текстов с вымышленными экспертами или персонажами. Не ищи ghost names в текстах про реальных людей.

Тезисы

ТезисКомментарий
Модель генерирует имена ансамблями: одно имя притягивает другоеМодель обучалась на текстах, где персонажи появляются вместе — в диалоге, в команде, в соавторстве. Поэтому у неё сложились не отдельные «любимые имена», а пары. Elena притягивает Marcus. Aris притягивает Lena. Одна роль тянет за собой другую — как актёрский кастинг. Применяй: если хочешь сломать ансамбль — задай одно имя явно. Второе имя тоже сменится. Задавать оба не обязательно.
📖 Простыми словами

The Ghost Couple: CorrelatedLLMName Priors and Their Haunting of the Web and Academic Publishing

arXiv: 2606.02184

Нейросети не умеют фантазировать с нуля, они работают на статистических рельсах. Когда ты просишь модель придумать персонажа или эксперта, не давая конкретики, она не перебирает в уме тысячи имен, а просто выплевывает самый вероятный вариант из своей базы. Это фундаментальный баг обучения: модели зациклились на крошечном наборе призрачных имен, которые они считают идеальными «затычками» для любого контекста. В итоге вместо бесконечного разнообразия мы получаем армию клонов, созданных по одним и тем же лекалам.

Это похоже на ситуацию, когда ты просишь случайного прохожего называть любое число, и каждый второй отвечает «семь». Вроде бы выбор есть, но мозг идет по пути наименьшего сопротивления. В мире LLM этот эффект возведен в абсолют: если ты не ударил модель по рукам и не заставил ее думать, она выдаст тебе стандартный набор имен, который уже успел просочиться в тысячи реальных статей, блогов и даже научных работ.

Механика провала максимально конкретна: у каждой модели есть свои «любимчики». Claude до дрожи в коленях обожает пару Elena Vasquez и Marcus Chen, Gemini везде сует Aris Thorne, а GPT не может жить без Elara Voss. Это не просто совпадение, а коррелированные приоритеты имен, которые работают как цифровое клеймо. Если видишь эти имена в тексте — с вероятностью 99% автор поленился даже отредактировать выдачу чат-бота, оставив дефолтные настройки «галлюцинирующего» мозга.

Применять это знание можно как идеальный детектор лжи. Если фрилансер клянется, что писал лонгрид сам, а в тексте внезапно всплывает эксперт по имени Marcus Chen, можешь смело слать его лесом. Принцип универсален: эти «призраки» уже вовсю гуляют по вебу, засоряя поисковую выдачу и академические журналы. SEO превращается в свалку одинаковых сущностей, потому что люди массово копипастят нейросетевой мусор, даже не меняя имена героев.

Короче: мы столкнулись с цифровым загрязнением нового типа, где нейросети сами себя цитируют, создавая иллюзию реальности. Дефолтные настройки — это приговор, и если ты не хочешь, чтобы твой контент выглядел как дешевая подделка, забудь про автоматические имена. Либо ты контролируешь каждую букву, либо твой текст превращается в очередной эпизод «Атаки клонов», где Elara Voss учит нас жизни в каждой второй статье.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с