arXiv:2604.26460 70 29 апр. 2026 г. FREE

Authorship Gap: LLM не пишет «как ты» — и почему нельзя верить своим ощущениям при проверке

КЛЮЧЕВАЯ СУТЬ

Парадокс: реальный автор набирает меньше баллов по тесту «похоже ли это на него?», чем LLM-текст в его стиле. Метод имитации стиля позволяет точнее писать от лица конкретного человека — но только если не наступаешь на главную ловушку. Фишка: когда просишь Claude создать профиль стиля, а потом этот же Claude оценивает «похоже ли?» — оба шага оптимизируют одно и то же: следование LLM-логике, а не реальному почерку автора. Поэтому живой человек проигрывает оптимизированному промпту в «своём» тесте — а простые 5 примеров текстов без описаний бьют эту умную схему по надёжной метрике.

Адаптировать под запрос

⚡

TL;DR

Каждая языковая модель пишет в своём фирменном стиле — и никакой промптинг не вытаскивает её из этого стиля достаточно далеко, чтобы текст воспринимался как написанный конкретным живым человеком. Когда ты просишь Claude «пиши как Фёдор Овчинников» — модель немного меняет поверхностные признаки (лексику, тональность), но остаётся в «пространстве LLM-текстов», а не переходит в «пространство Овчинникова».

Главная находка: Оценивать стиль с помощью той же LLM, которая его генерирует — ловушка. Если попросить Claude извлечь черты стиля автора, потом сгенерировать текст «в этом стиле», а потом спросить Claude же «похоже на автора?» — Claude скажет «да». Потому что обе операции (извлечение черт + проверка) оптимизируют одно и то же: следование инструкциям LLM-формата, а не реальный авторский стиль. Реальный автор в эксперименте набрал меньше баллов по этому тесту, чем «оптимизированный» промпт. Это не ошибка — это признак того, что метрика измеряет не то.

Среди четырёх проверенных подходов к имитации стиля простой few-shot (5 примеров текстов автора без инструкций) показал лучший результат по надёжной метрике. Сложные методы — извлечение абстрактного профиля стиля, контрастивные примеры — проигрывают или не дают преимущества. Короче: больше примеров реального текста — лучше. Умные конструкции с «описанием стиля» — хуже.

🔬

Схема метода

Это исследование-находка, не техника. Из него вытекают три практических принципа:

ПРИНЦИП 1: Few-shot для стиля
Дай модели 5+ фрагментов текста целевого автора → без абстрактного описания стиля
Лучший результат по надёжной оценке среди всех подходов

ПРИНЦИП 2: Не используй LLM для проверки LLM-стиля
Если Claude генерирует → не спрашивай Claude «похоже на X?»
Это круговая зависимость: найдёт то, что сама же оптимизировала

ПРИНЦИП 3: Контрастивный промпт (один из тестируемых методов)
Блок 1: примеры текстов целевого автора
Блок 2: примеры текстов ДРУГИХ авторов с пометкой «не так»
Блок 3: задача на генерацию

Все три принципа применяются в обычном чате, никакого кода.

🚀

Пример применения

Задача: Ты пишешь телеграм-посты для предпринимателя. Клиент хочет, чтобы тексты звучали «как он сам пишет». Стандартный подход — описать его стиль словами — не работает.

Промпт (контрастивный подход):

Вот примеры того, КАК ИМЕННО пишет Алексей:

[Пример 1 — реальный пост Алексея, 150-200 слов]
[Пример 2 — реальный пост Алексея, 150-200 слов]
[Пример 3 — реальный пост Алексея, 150-200 слов]
[Пример 4 — реальный пост Алексея, 150-200 слов]
[Пример 5 — реальный пост Алексея, 150-200 слов]

---

Вот примеры того, КАК ОН НЕ ПИШЕТ (другие авторы, другой стиль):

[Пример А — другой блогер или корпоративный стиль]
[Пример Б — ещё один контрастный пример]

---

Напиши пост на тему: [тема поста]. 
Ориентируйся строго на стиль из первых пяти примеров, 
избегай стиля из контрастных примеров.

Результат: Модель создаст текст с поверхностными маркерами стиля автора — характерными словами, длиной предложений, тональностью. Это лучшее, что даёт промптинг. При этом текст всё равно останется «LLM-текстом» на глубоком уровне — опытный читатель может это почувствовать. Контрастные примеры помогают модели острее понять, чего избегать.

🧠

Почему это работает

Проблема: LLM не имеет «пустого» стиля. У каждой модели есть свой почерк — длина предложений, любимые конструкции, способ строить абзацы. Это не баг, это результат обучения на огромных данных. Промптинг меняет поверхностные признаки текста, но не меняет глубокий почерк модели.

Почему few-shot работает лучше абстракций: Когда ты даёшь реальные примеры текстов, модель подхватывает конкретные паттерны: как именно строятся предложения, какие слова идут рядом, где стоят паузы. Когда ты даёшь описание («пиши коротко, по-деловому, без воды») — модель интерпретирует это через свои представления о «кратком деловом стиле», а не через реальный стиль конкретного человека.

Почему LLM-судья ненадёжен для стиля: Если попросить модель «опиши стиль автора», а потом «оцени, похож ли этот текст на автора» — оба шага оптимизируют одно: извлечение признаков так, как это делает LLM. Реальный автор не оптимизирован под этот формат — поэтому его собственные тексты набирают меньше баллов, чем «оптимизированный» промпт. Это верный признак того, что метрика поломана.

📋

Шаблон промпта

📌

Few-shot шаблон (простой, надёжный)

Вот примеры текстов {имя автора}:

[Пример 1]
---
[Пример 2]
---
[Пример 3]
---
[Пример 4]
---
[Пример 5]

Напиши {тип текста} на тему: {тема}.
Пиши в том же стиле, что в примерах выше. 
Не описывай стиль — просто используй его.

Плейсхолдеры: - {имя автора} — чей стиль имитируем - {тип текста} — пост, письмо, статья, комментарий - {тема} — о чём текст - [Примеры 1-5] — реальные тексты автора, лучше 100-200 слов каждый

📌

Контрастивный шаблон (сильнее, но требует больше работы)

СТИЛЬ, КОТОРОМУ СЛЕДОВАТЬ — тексты {имя автора}:

[Пример 1]
---
[Пример 2]
---
[Пример 3]
---
[Пример 4]
---
[Пример 5]

СТИЛЬ, КОТОРОГО ИЗБЕГАТЬ — тексты других авторов:

[Контрастный пример 1]
---
[Контрастный пример 2]

ЗАДАЧА:
Напиши {тип текста} на тему: {тема}.
Ориентируйся на первую группу примеров. Избегай стиля второй группы.

Что подставлять в контрастные примеры: любой текст с заметно другим стилем — корпоративный vs живой, длинные предложения vs короткие, формальный vs разговорный. Контраст помогает модели понять границы.

🚀 Быстрый старт — вставь в чат:

Помоги мне использовать этот шаблон для моей задачи: {моя задача — имитировать стиль X для написания Y}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит образцы текстов целевого автора и уточнит задачу — потому что без реальных примеров few-shot не работает.

🧠

Почему это работает (механика)

Псевдокода здесь нет — работает простой принцип: конкретный паттерн всегда сильнее абстрактного описания. Когда ты говоришь «пиши кратко» — модель угадывает, что ты имеешь в виду. Когда ты показываешь 5 реальных коротких текстов — модель видит, насколько коротко и как именно строятся эти короткие предложения.

Контрастные примеры добавляют второй сигнал: «вот что точно не то». Это сужает пространство допустимых интерпретаций.

⚠️

Ограничения

⚠️ Фундаментальный потолок: Даже лучший промпт не делает LLM-текст неотличимым от текста живого человека. Все проверенные методы остаются ниже уровня «случайный разный человек» по надёжной метрике. Это не проблема промпта — это ограничение инференса (работы модели без переобучения).

⚠️ LLM-судья для стиля ненадёжен: Если просишь модель оценить «похоже ли на автора X» — получаешь оценку того, насколько текст следует LLM-шаблону стиля, а не реальному стилю. Реальный автор может проиграть «оптимизированному» промпту по этой оценке.

⚠️ Метод профиля (извлеки стиль → генерируй по профилю) выглядит лучше, но не является: По LLM-судье он побеждает. По надёжной метрике — неотличим от других. Это ловушка для тех, кто проверяет LLM через LLM.

⚠️ Только английский: Исследование работало с англоязычными блогами. Русскоязычные паттерны могут вести себя иначе.

🔍

Как исследовали

Исследователи взяли блог-корпус из 681 тысячи постов от 19 тысяч авторов, отобрали 50 с достаточным объёмом текстов и проверили четыре способа имитации стиля: без персонализации (контроль), few-shot (5 примеров автора), извлечение профиля стиля, контрастивный подход. Сгенерировали 1000 текстов и измерили их тремя разными метриками.

Ключевая деталь дизайна: в промптах для генерации использовали нейтральные пересказы содержания («пост о принятии решений в кризис»), а не первые предложения целевого поста. Оказалось, что если взять первое предложение — оно уже несёт авторский стиль, и базовый результат без всякой персонализации резко улучшается на 28 процентных пунктов. Половина «успехов» в подобных исследованиях может быть просто этим артефактом промпта.

Самый интересный момент: LLM-судья уверенно объявил «профиль стиля» победителем с большим отрывом. Надёжная метрика (LUAR — специализированная система верификации авторства) нашла отличие в 0.024 пункта — статистически неразличимо. Команда показала, почему: и извлечение профиля, и оценка судьи делают одно и то же — спрашивают LLM про LLM-признаки текста. Реальный автор в этой системе «проигрывает» оптимизированному промпту. Это и есть доказательство, что метрика сломана.

💡

Адаптации и экстраполяции

📌

🔧 Как проверить стиль без LLM-судьи

Проблема: нельзя спрашивать Claude «это звучит как Х?» — это круговой тест.

Альтернатива: Покажи сгенерированный текст реальному человеку, который хорошо знает оригинального автора. Или используй слепую проверку — дай несколько текстов (настоящих и сгенерированных) вперемешку и попроси угадать что есть что.

📌

🔧 Техника: Нарастить few-shot постепенно

Исследование проверяло фиксированные 5 примеров. Рабочая гипотеза: больше примеров = лучше.

Шаг 1: Начни с 3 примеров → проверь результат
Шаг 2: Добавь 2 длинных примера (200+ слов) → сравни
Шаг 3: Попробуй заменить общие примеры на примеры в похожем жанре (если пишешь пост — давай примеры постов, не статей)

Жанровое совпадение примеров и задачи лучше, чем просто «тексты автора». Это следует из логики исследования: модель подхватывает паттерн конкретного формата.

📌

🔧 Инсайт для работы с клиентами

Если клиент говорит «напиши как я пишу» — не проси его описать свой стиль. Попроси прислать 5-7 своих текстов, которые ему нравятся. Это даст лучший результат, чем любое словесное описание — и исследование это подтверждает количественно.

🔗

Ресурсы

Название: Theory-Grounded Evaluation Exposes the Authorship Gap in LLM Personalization

Автор: Yash Ganpat Sawant (независимый исследователь)

Ключевые ссылки из исследования: - LUAR (Learning Universal Authorship Representations) — [Rivera-Soto et al., 2021, EMNLP] - Blog Authorship Corpus — [Schler et al., 2006] - LaMP benchmark — [Salemi et al., 2024, ACL] - LongLaMP — [Kumar et al., 2024]

Связанная работа того же автора: High-stakes personalization: Rethinking LLM customization for individual investor decision-making (arXiv:2604.04300, 2026)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не описывай стиль — показывай его. Говоришь «пиши кратко и по-деловому» — модель интерпретирует это через свои представления, а не через реальный почерк автора. Пять реальных фрагментов дают конкретику: насколько именно коротко, как именно строится предложение, где пауза, какие слова идут рядом. Это не передаётся словами. Только примерами. Хочешь усилить — добавь два контрастных текста с пометкой «не так»: модель острее понимает границы стиля.

Почему работает

У каждой языковой модели есть свой почерк — длина предложений, любимые конструкции, способ строить абзацы. Это результат обучения на огромных данных. Промптинг меняет поверхностные признаки, но не глубокий стиль модели — текст остаётся «LLM-текстом» на уровне, который опытный читатель чувствует. Главный инсайт: LLM-судья для стиля ненадёжен именно потому, что оценивает «следование LLM-формату», а не реальный авторский почерк. Вот почему метод «извлеки профиль стиля → проверь через модель» выглядит лучшим по самооценке, но проигрывает простому few-shot по надёжному внешнему тесту.

Когда применять

Написание постов, статей, писем от лица конкретного человека → особенно для блогеров, предпринимателей, публичных персон с базой личных текстов. Особенно когда клиент говорит «хочу чтобы звучало как я сам пишу». Не подходит, если у автора меньше 5 развёрнутых текстов — без реальных примеров few-shot не работает. Не стоит рассчитывать, что LLM-копия будет неотличима от живого человека: это фундаментальный потолок инференса, не проблема промпта.

Мини-рецепт

1. Собери 5+ реальных текстов автора: каждый 100-200 слов, из разных тем и периодов. Не описания стиля — настоящие тексты, как он сам писал.
2. Добавь контрастные примеры (если есть время): 2 текста с явно другим стилем — скажем, корпоративная рассылка vs живой разговорный пост. Это сужает пространство интерпретаций.
3. Дай задачу без комментариев про стиль: не «пиши в стиле Алексея» — просто покажи примеры и назови тему. Инструкция «не описывай стиль — используй его» в конце промпта.
4. Не проверяй результат через ту же модель: попроси живого человека, знакомого с автором. LLM-оценка «похоже ли на X?» измеряет не то — это круговая ловушка.

Примеры

[ПЛОХО] :

Пиши как Алексей: кратко, по-деловому, с акцентом на конкретику, без воды и вводных слов

[ХОРОШО] :

Вот как пишет Алексей:

[Пример 1 — реальный пост Алексея, 150 слов]
---
[Пример 2 — реальный пост Алексея, 150 слов]
---
[Пример 3 — реальный пост Алексея, 150 слов]
---
[Пример 4 — реальный пост Алексея, 150 слов]
---
[Пример 5 — реальный пост Алексея, 150 слов]

Вот как пишут другие (избегай этого стиля):

[Корпоративный текст или текст другого блогера]
---
[Ещё один контрастный пример]

Напиши пост на тему: запуск нового продукта. Не описывай стиль — используй его.

Источник: Theory-Grounded Evaluation Exposes the Authorship Gap in LLM Personalization

ArXiv ID: 2604.26460 | Сгенерировано: 2026-04-30 05:26

Проблемы LLM

Проблема	Суть	Как обойти
Модель не может оценить собственный стиль честно	Просишь модель сначала извлечь черты стиля автора. Потом — написать текст в этом стиле. Потом — оценить «похоже на автора?». Модель скажет «да». Но она оценивает не реальный стиль. Она оценивает насколько текст следует её же шаблону «правильного стиля». Реальные тексты автора могут проиграть «оптимизированному» тексту по этой оценке. Метрика сломана — измеряет не то	Не используй ту же модель для оценки того, что она сгенерировала. Оценивай руками или через другую модель. Для проверки стиля — живые читатели надёжнее
Промптинг не убирает почерк модели	У каждой модели есть свой почерк: длина предложений, любимые конструкции, ритм абзацев. Это зашито в веса при обучении. Промптинг меняет поверхностные признаки — слова, тон. Но глубокий почерк остаётся. Текст «в стиле Иванова» всё равно узнаётся как текст модели. Это не баг промпта — это ограничение самого подхода	Принимай это как данность. Для полной имитации нужно дообучение, не промптинг. Для практических задач — используй few-shot с реальными примерами: это лучший результат из доступных

Методы

Метод Суть

Few-shot стиля — реальные тексты вместо описания Дай модели 5+ фрагментов текстов целевого автора. Без инструкции «пиши кратко» или «используй разговорный стиль». Просто тексты. В конце: «напиши в том же стиле». Почему: Конкретный текст несёт точные паттерны — как строятся предложения, что идёт рядом. Описание стиля словами модель интерпретирует через свои представления, а не через реальный стиль автора. Когда работает: есть реальные тексты автора (100-200 слов каждый). Не работает: нет примеров — только «он пишет по-деловому»

Контрастный few-shot — покажи что «не так» Блок 1: 5 примеров текстов целевого автора. Блок 2: 2 примера текстов других авторов с пометкой «не так». Блок 3: задача. Почему: Второй блок сужает пространство интерпретаций. Модель видит не только куда идти но и откуда уходить. Подходит когда стиль автора трудно поймать только через позитивные примеры

Метод	Суть
Few-shot стиля — реальные тексты вместо описания	Дай модели 5+ фрагментов текстов целевого автора. Без инструкции «пиши кратко» или «используй разговорный стиль». Просто тексты. В конце: «напиши в том же стиле». Почему: Конкретный текст несёт точные паттерны — как строятся предложения, что идёт рядом. Описание стиля словами модель интерпретирует через свои представления, а не через реальный стиль автора. Когда работает: есть реальные тексты автора (100-200 слов каждый). Не работает: нет примеров — только «он пишет по-деловому»
Контрастный few-shot — покажи что «не так»	Блок 1: 5 примеров текстов целевого автора. Блок 2: 2 примера текстов `других авторов` с пометкой «не так». Блок 3: задача. Почему: Второй блок сужает пространство интерпретаций. Модель видит не только куда идти но и откуда уходить. Подходит когда стиль автора трудно поймать только через позитивные примеры

Тезисы

Тезис	Комментарий
Реальный пример сильнее абстрактного описания	Когда просишь «пиши коротко и по делу» — модель угадывает что ты имеешь в виду. Через свои представления. Когда показываешь 5 коротких текстов — модель видит насколько коротко и как именно строятся эти предложения. Конкретный паттерн точнее. Это работает шире стиля: для формата, структуры, тона. Применяй: вместо описания показывай образцы

Тезис

Комментарий

Реальный пример сильнее абстрактного описания

Когда просишь «пиши коротко и по делу» — модель угадывает что ты имеешь в виду. Через свои представления. Когда показываешь 5 коротких текстов — модель видит насколько коротко и как именно строятся эти предложения. Конкретный паттерн точнее. Это работает шире стиля: для формата, структуры, тона. Применяй: вместо описания показывай образцы

📖 Простыми словами

Theory-Grounded Evaluation Exposes the Authorship Gap inLLMPersonalization

arXiv: 2604.26460

Суть в том, что у каждой нейронки есть свой генетический код письма, который невозможно вытравить обычным промптом. Когда ты просишь модель «пиши как Илон Маск», она не превращается в Маска, а просто надевает на себя дешевый карнавальный костюм из его любимых словечек. Исследователи доказали существование авторского разрыва: как бы ты ни старался, текст остается в «пространстве LLM», лишь слегка имитируя внешние признаки. Модель физически не может выйти за пределы своего базового распределения вероятностей, потому что её так научили на миллиардах текстов.

Это как если бы ты попросил профессионального оперного певца спеть как дворовый пацан под гитару. Он может начать фальшивить, использовать жаргон и хрипеть, но постановка голоса и диафрагма всё равно выдадут в нем консерваторское прошлое. Формально это шансон, но по факту — плохая опера. Нейронка точно так же «палится» на длине предложений, структуре абзацев и ритмике, которые зашиты в неё намертво.

В работе четко разделяют поверхностные признаки и глубинный почерк. Ты можешь заставить ChatGPT использовать слово «херня» или писать капсом, но ты не изменишь то, как она связывает мысли. Исследование показало, что даже самый детальный промпт с описанием стиля не сокращает дистанцию до реального автора. Модель просто топчется на месте, создавая галлюцинацию персонализации, в то время как настоящий стиль живого человека лежит в совершенно другой плоскости, недоступной через простые инструкции.

Принцип универсален: это касается не только постов в Telegram, но и деловой переписки, колонок в СМИ или сценариев. Если ты пытаешься «очеловечить» выдачу через стилистические гайды, ты просто тратишь время. LLM-персонализация в текущем виде — это имитация, которая рассыпается при малейшем анализе. Текст всё равно будет пахнуть «нейросетинкой», потому что модель не умеет думать как конкретный Вася, она умеет только предсказывать следующее слово на основе своего, а не Васиного опыта.

Короче: хватит верить в магию промпта «пиши как я». Авторский разрыв — это фундаментальное ограничение архитектуры, а не вопрос плохой инструкции. Если тебе нужен по-настоящему уникальный стиль, нейронку нужно не промптить, а дообучать на специфических данных (Fine-tuning), и то не факт, что она полностью избавится от своего «акцента». Пока что лучший способ не звучать как робот — это использовать AI для структуры, но переписывать мясо своими руками.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню