TL;DR
Когда просишь Claude, ChatGPT или Gemini придумать эксперта, исследователя или персонажа — не указывая имя — модель не придумывает случайное имя. Она тянется к одному и тому же крошечному словарю «призрачных имён»: Claude почти всегда выдаёт Elena Vasquez + Marcus Chen, Gemini — Aris Thorne + Lena Petrova, GPT — Elara Voss. Эти имена появляются на сотнях независимо созданных страниц — блоги, коммерческие сайты, академические статьи — потому что авторы просто не переопределили дефолт.
Главный инсайт: LLM не просто предпочитает отдельные имена — она генерирует скоординированные ансамбли. Claude не просто «любит» Елену Васкес — она почти всегда ставит рядом с ней Маркуса Чена. Это работает как актёрский кастинг: одна роль тянет за собой другую. В 23% пар-запросов в claude-sonnet-4 оба имени появлялись вместе — в 5–10 раз чаще, чем ожидается при случайном выборе.
Из этого вытекают два практических следствия. Первое: если в тексте, присланном тебе подрядчиком, встречается Elena Vasquez или Aris Thorne — это сигнал. Второе: если хочешь, чтобы твой AI-контент выглядел оригинально и не был мгновенно узнаваем как машинный — всегда задавай имена явно, не оставляй модели выбирать.
Схема метода
Это не техника со шагами, а знание, которое меняет два паттерна работы:
ПАТТЕРН 1 — Детектор AI-контента:
Видишь чужой текст → ищешь ghost names → находишь = высокая вероятность AI
Ghost names по моделям:
Claude → Elena Vasquez + Marcus Chen (+ Amara Okafor в тройках)
Gemini → Aris Thorne + Lena Petrova
GPT → Elara Voss (без стабильного партнёра)
ПАТТЕРН 2 — Защита своего контента:
Генерируешь персонажей / экспертов → задаёшь имена явно в промпте
→ модель НЕ уходит в дефолт → контент уникален
Оба паттерна работают в обычном чате, ничего не нужно настраивать.
Пример применения
Задача: Маша — контент-менеджер в московском EdTech-стартапе. Наняла фрилансера написать серию статей про карьеру в IT. Тот утверждает, что всё написано «своими руками». Маша хочет проверить.
Промпт для проверки:
Вот текст статьи:
[вставить текст]
Найди в тексте все имена персонажей, экспертов, спикеров,
упомянутых как реальные или вымышленные люди.
Выпиши список имён.
Отдельно — если встретятся имена из этого списка,
отметь их явно: Elena Vasquez, Marcus Chen, Amara Okafor,
Aris Thorne, Lena Petrova, Elara Voss.
Это «призрачные имена» — характерные дефолты LLM.
Что получит Маша:
Модель выпишет все имена из текста и подсветит совпадения с ghost names. Если в статье «эксперт по UX Елена Васкес из MIT» — это не случайность, это дефолтный персонаж Claude без переопределения.
Почему это работает
LLM не генерирует имена случайно. Во время обучения на огромных корпусах текста определённые комбинации имён встречались непропорционально часто — в фантастике, учебных материалах, синтетических датасетах. Модель усвоила: «когда нужен эксперт — подходит это имя». Это работает как автозаполнение поля «Имя» в браузере: не случайность, а самое вероятное продолжение по контексту.
Почему пары, а не случайные наборы? Модель училась на текстах, где персонажи появляются вместе — в соавторстве, в диалоге, в команде. Поэтому у неё сформировались не отдельные «любимые имена», а словари персонажных ансамблей. Elena + Marcus — это пара, которую модель «видела» вместе достаточно часто, чтобы одно имя начало притягивать другое.
Рычаги управления для тебя:
- Просто добавь имена в промпт — "Назови эксперта Вася Пупкин" — и дефолт немедленно отключается. Модель не будет «спорить».
- Если нужна уникальность — проси имена из конкретной культуры: "придумай трёх корейских исследователей". Вероятность ghost names падает до нуля.
- Можешь использовать ghost names как кастинг: если хочешь, чтобы читатель узнал паттерн AI-контента — оставь дефолт.
Шаблон промпта
Шаблон 1 — Убрать дефолт при генерации контента
Напиши {что нужно: статью / кейс / биографию / презентацию}.
Используй конкретные имена персонажей: {имя 1}, {имя 2}.
Не выбирай имена самостоятельно — только те, что я указал.
{остальные детали задачи}
Что подставлять:
- {что нужно} — статья с экспертами, учебный кейс, список спикеров
- {имя 1}, {имя 2} — любые имена, которые ты хочешь. Можно реальных людей, можно выдуманных, главное — задать явно
- {остальные детали} — тема, тон, объём
Шаблон 2 — Проверить чужой текст на AI-происхождение по ghost names
Проверь текст на наличие «призрачных имён» — дефолтных персонажей LLM.
Текст:
{вставить текст}
1. Выпиши ВСЕ имена собственных людей из текста (персонажи,
эксперты, авторы, спикеры, иллюстративные примеры).
2. Сравни с этим списком ghost names:
- Claude-призраки: Elena Vasquez, Marcus Chen, Amara Okafor
- Gemini-призраки: Aris Thorne, Lena Petrova
- GPT-призраки: Elara Voss
3. Если находишь совпадение — укажи: какое имя, в каком контексте,
какой модели соответствует.
4. Итог: вероятность что текст написан AI без переопределения имён —
высокая / средняя / низкая.
Шаблон 2 не даёт 100% гарантию — отсутствие ghost names не значит, что текст написан человеком. Но наличие — сильный сигнал.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для проверки текста на ghost names LLM.
Адаптируй под мою задачу: [опиши задачу].
[вставить шаблон выше]
LLM спросит: какой текст проверять, нужно ли добавить контекст — потому что для корректной проверки нужно понять, ищешь ли ты конкретную модель-автора или просто хочешь флаг «это AI».
Почему это работает (углублённо)
Откуда берутся именно эти имена? Исследователи нашли несколько гипотез. Для GPT задокументирован конкретный след: Elara Voss — вероятно, слияние «Lilian Voss» из World of Warcraft и «Elara Dorne» из Star Wars: The Old Republic. Персонажи с такими именами были переразмножены в фанфикшн-корпусах, из которых обучались модели. Gemini's Aris Thorne встречается 204 раза в одном Kaggle-датасете с описаниями фантастических книг.
Почему разные модели — разные ансамбли? Claude, GPT и Gemini обучались на разных данных и проходили разную дообучку (RLHF — метод выравнивания модели по предпочтениям людей). Claude кристаллизовал пару, Gemini — пару с почти монополией одного имени (93% Aris Thorne — это почти полный дефолт), GPT создал соло-призрака без стабильного партнёра. Степень «слипания» имён, видимо, отражает разный объём нарративных обучающих данных.
Почему это важно для работы с LLM? Это один из редких случаев, когда у нас есть измеримый поведенческий отпечаток конкретной модели и даже конкретной версии. Elena Vasquez появляется в 67% single-промптов у claude-sonnet-4-20250514 и падает до 6% у claude-sonnet-4-6. Деградация — прямое свидетельство того, что Anthropic активно подавляет дефолт при релизах. Это значит: ghost names — это не баг, который никто не замечал. Это задокументированное поведение, которое разработчики отслеживают и пытаются исправить.
Ограничения
⚠️ Ghost names — сигнал, не приговор: Отсутствие этих имён в тексте не означает, что он написан человеком. Автор мог просто указать другие имена в промпте — и дефолт ушёл.
⚠️ Реальные люди с этими именами существуют: Elena Vasquez и Marcus Chen — распространённые имена. Исследование показывает комбинацию «имя + область + аффилиация» без следов реального человека, не просто имя само по себе.
⚠️ Ghost names меняются с каждой версией модели: То, что актуально сегодня, может устареть через год. Claude уже активно подавляет Elena Vasquez в новых версиях.
⚠️ Проверка работает только для текстов с вымышленными экспертами: Если AI-текст про реальных людей (обзор конкурентов, новостная сводка) — ghost names там не появятся в принципе.
Как исследовали
Исследователи начали не с веб-поиска, а с аномалии в весах модели: Brzozowski с командой разрабатывали метод «Contrastive Decoding Diffing» для извлечения данных из дообученных моделей — и наткнулись на то, что Claude раз за разом генерировал Dr. Elena Rodriguez как дефолтного персонажа в пяти семантически несвязанных областях. Поиск этого имени в интернете открыл масштаб явления.
Дальше они систематически прозондировали девять версий Claude, десять версий GPT и Gemini 2.5 Flash через публичные API: 30 промптов каждого типа (соло, пара, тройка) при температуре 1.0 — чтобы исключить детерминизм и поймать статистику. Имена извлекались автоматически паттерном заглавных биграмм, затем считались частоты и совместная встречаемость.
Веб-валидация шла через Serper.dev (Google Search API): поиск ghost names — Elena+Marcus, Aris+Lena, Elara Voss — по всему вебу. 515–816 URL на ансамбль, совпадаемость 62–100%.
Самая неожиданная находка — академическая инфраструктура. Используя названия несуществующих журналов из ghost-корпуса, они нашли на Zenodo 1 655 записей с реальными DOIs, зарегистрированными в DataCite: заявленные даты публикации 2020–2023, реальная регистрация — март–апрель 2026. 991 запись загружена за один месяц. Это не граффити на заборе — это сфабрикованные научные записи с настоящими идентификаторами, которые могут быть проиндексированы любым агрегатором.
Оригинал из исследования
Ключевая таблица — частота ghost names по версиям Claude:
Checkpoint E.V. M.C. Pair
sonnet-4-20250514 60% 30% 23%
opus-4-20250514 37% 27% 20%
opus-4-1-20250805 23% 20% 13%
sonnet-4-5-20250929 20% 10% 10%
haiku-4-5-20251001 27% 23% 10%
opus-4-5-20251101 13% 10% 3%
opus-4-6 13% 3% 3%
sonnet-4-6 7% 0% 0%
opus-4-7 7% 3% 3%
E.V. = Elena Vasquez, M.C. = Marcus Chen,
Pair = оба имени в одном ответе
Ансамбли по семействам моделей:
Claude → Elena Vasquez + Marcus Chen (+ Amara Okafor) 67% solo, 23% pair
Gemini → Aris Thorne + Lena Petrova 93% solo, 37% pair
GPT → Elara Voss (solo only) 23% solo, — pair
Контекст: Это результаты систематического зондирования публичных API, март 2026 года, 30 промптов на условие, температура 1.0.
Адаптации и экстраполяции
💡 Адаптация: «Обратный кастинг» — используй ghost names намеренно
Если хочешь написать пародию на AI-контент или показать клиенту, как выглядит «дешёвый ИИ-текст»:
Напиши короткое описание вебинара про {тему}.
Включи двух вымышленных экспертов.
Варианты имён: Elena Vasquez (нейросети, MIT), Marcus Chen (системное мышление).
Стиль: типичный AI-маркетинговый текст.
Получишь идеальный «образцовый плохой контент» для объяснения клиенту, зачем платить за качество.
🔧 Адаптация: Проверка собственных промптов на «призрачность»
Если регулярно генерируешь контент с экспертами — добавь в конец любого промпта:
После ответа выпиши отдельным блоком:
какие имена ты использовал и почему именно их.
Если использовал Elena Vasquez, Marcus Chen, Aris Thorne,
Lena Petrova или Elara Voss — предложи замену.
Модель начнёт замечать собственные дефолты и предлагать более уникальные варианты.
🔧 Экстраполяция: Принцип «призрачных дефолтов» шире имён
Та же логика работает для других элементов контента. LLM имеет дефолты не только по именам:
- Дефолтные города: «Сан-Франциско» как место действия стартапа
- Дефолтные компании: «TechCorp» или «Acme Inc» как названия вымышленных бизнесов
- Дефолтные числа: 42, 100, 1000 как «круглые» примеры
Принцип тот же: если явно не задал — модель тянется к самому вероятному по обучению.
Напиши кейс о {тема}.
Используй конкретно:
- Компания: {название}
- Город: {город}
- Имя героя: {имя}
- Сумма: {число}
Не выбирай эти параметры самостоятельно.
Ресурсы
The Ghost Couple: Correlated LLM Name Priors and Their Haunting of the Web and Academic Publishing
Авторы: Michał Brzozowski, Neo Christopher Chung — Samsung AI Center, Варшава; Варшавский университет
Связанная работа того же авторского коллектива: Reading the finetuning prior: Verbatim content recovery via contrastive decoding diffing — arXiv:2605.25902
Zenodo (репозиторий CERN с реальными DOIs): zenodo.org | DataCite: datacite.org
