3,583 papers
arXiv:2605.03202 72 4 мая 2026 г. FREE

Hivemind-эффект и отмывание текста: почему LLM оценивает стиль, а не содержание

КЛЮЧЕВАЯ СУТЬ
Добавь в текст слова 'предположительно', 'как правило', 'убедительный' — AI-рецензент поставит выше. Содержание не меняй. Это и есть 'оценка качества' от LLM. Метод понимания стилевого уклона позволяет получать честную критику по существу — но только если явно сломать дефолтный режим модели. Фишка: модель читает хеджирующие слова и усилители как сигналы качества. Причёсанный текст с правильными словами получает выше, чем сырой но умный. И если спросишь одну модель трижды — получишь hivemind-эффект: три эха одного мнения вместо трёх независимых точек зрения.
Адаптировать под запрос

TL;DR

Когда просишь AI оценить твой текст, он оценивает упаковку, а не суть. Исследователи выяснили: достаточно попросить LLM переписать статью в "более чётком стиле" — добавить хеджирующие слова ("предположительно", "как правило") и слова-усилители ("убедительный", "надёжный") — и AI-рецензент ставит статье заметно более высокий балл. Содержание не менялось. Только стиль.

Второй инсайт ещё острее: при нескольких запросах к одной модели получаешь не разные мнения, а одно и то же мнение в разных словах. LLM не может произвести реально разные точки зрения — их ответы слишком похожи друг на друга. Это называется hivemind-эффект (эффект коллективного разума): вместо трёх независимых голосов — три эха одного.

Вместе это означает: AI-оценка — это зеркало стиля, а не качества. Если ты просишь модель оценить своё письмо, питч, идею или текст — она реагирует на то, как написано, а не что написано. И сколько бы раз ты ни спросил одну и ту же модель, ты не получишь реального разнообразия взглядов.


📌

Схема находок

НАХОДКА 1: Отмывание текста
Исходный текст → "Перепиши чётче" (LLM) → Больше хеджирования + усилителей
→ AI-рецензент ставит выше (без изменения содержания)

НАХОДКА 2: Hivemind-эффект
Один вопрос → 3 запроса к одной модели → 3 похожих ответа
(не разные мнения, а вариации одного)

НАХОДКА 3: Стиль > Содержание
AI-оценка сильно реагирует на:
  - хеджирование ("возможно", "как правило", "предполагается")
  - усилители ("убедительный", "надёжный", "последовательный")
  - структурную причёсанность
Слабо реагирует на: логику аргументов, оригинальность идеи

🚀

Пример применения

Задача: Ты написал питч для инвестора в фонд — 3 абзаца про идею маркетплейса ремонтных услуг в Москве. Просишь Claude оценить, насколько питч убедителен. Модель говорит: "Отличный питч, чёткая ценностная гипотеза, убедительная аргументация." Спрашиваешь ещё раз — снова хвалит. Кажется, всё хорошо.

Но ты не знаешь: Claude хвалит твой стиль, а не идею. Если переформулировать питч хуже, но добавить больше хеджирования и уверенных слов — оценка может стать ещё выше. Это не обратная связь по существу. Это обратная связь по упаковке.

Промпт, который обходит это ограничение:

Я дам тебе текст. Твоя задача — найти реальные слабости, не достоинства.

Правила:
— НЕ говори, что хорошо. Только проблемы.
— Игнорируй стиль и формулировки. Оценивай только логику и содержание.
— Представь, что это питч перед скептичным инвестором типа Дамира Халилова или Сергея Дашкова — они уже видели 500 таких идей и ищут дыры.
— Найди минимум 3 конкретных слабости по существу: в бизнес-логике, рынке, допущениях.
— Если не можешь найти слабость — это подозрительно. Копай глубже.

Текст:
{твой текст}

Результат: Модель выдаст список конкретных слабостей по существу — не по стилю. Правило "только проблемы" и запрет на оценку стиля ломают естественную тягу модели к одобрению. Скептичная роль добавляет угол атаки, которого по умолчанию нет.


🧠

Почему это работает (и почему стандартный запрос не работает)

LLM натренирована быть полезной и одобряющей. По умолчанию модель ищет, что похвалить. Когда видит причёсанный, хорошо сформулированный текст с хеджированием — сигнал "качество" активируется сильнее, чем от сырого но умного текста. Это не баг, это следствие обучения на миллиардах примеров, где вежливые, структурированные тексты оценивались высоко.

Hivemind — это не баг одного запроса, это архитектурная особенность. Модель детерминированно генерирует текст по паттерну. Задай тот же вопрос трижды — получишь три вариации одного паттерна. Реального разброса взглядов нет, потому что у модели нет "другой" точки зрения — только вариации одной. Это особенно опасно, когда просишь "несколько мнений".

Чтобы сломать этот паттерн, нужна явная инструкция. Запрет хвалить, скептичная роль, требование найти дыры — это не вежливость, это ограничения контекста, которые перезаписывают дефолтную тягу к одобрению. Без них получаешь зеркало, а не критика.

Рычаги управления:

Что менять Эффект
Добавить запрет: "не говори, что хорошо" Убирает дефолтное одобрение
Дать скептичную роль (конкретный человек-скептик) Острее критика, меньше вежливости
Запросить оценку только логики, без стиля Отсекает реакцию на упаковку
Задать минимум слабостей: "найди ровно 3" Модель обязана копать, не останавливается на первом
Спросить у разных моделей (Claude + ChatGPT) Хоть какое-то реальное разнообразие взглядов

📋

Шаблон промпта

Проанализируй {текст/идею/план} как жёсткий скептик.

Твоя задача — только слабости. Не достоинства.

Фокус только на содержании: логика, допущения, риски, дыры в аргументах.
Стиль и формулировки — не твоя задача, игнорируй их.

Роль: ты — {скептичный инвестор / опытный конкурент / аудитор}, 
который уже видел сотни похожих {питчей/планов/идей} и знает где обычно ломается.

Найди минимум {3} конкретные слабости.
Если думаешь, что слабостей нет — это сигнал копать глубже.

{текст/идея/план}

Что подставлять: - {текст/идею/план} — то, что оцениваешь - {скептичный инвестор / опытный конкурент / аудитор} — роль под твою задачу - {питчей/планов/идей} — тип контента - {3} — минимальное число слабостей, можно увеличить до 5


🚀 Быстрый старт — вставь в чат:

Вот шаблон для получения честной критики от LLM без дефолтного одобрения. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно оцениваем и какую роль взять — потому что без конкретной роли скептика модель быстро соскользнёт обратно в одобрение.


📌

Почему это важно знать

AI-оценку легко принять за реальную обратную связь. Когда модель говорит "убедительный аргумент" — кажется, что идея проверена. На деле это значит: текст причёсан и содержит правильные слова.

Hivemind-эффект особенно опасен при принятии решений. Если перед важным решением просишь ChatGPT "посмотреть с разных сторон" — и модель выдаёт 3-4 перспективы — создаётся иллюзия проверки. Но все четыре точки зрения — вариации одного вектора. Ты не проверил решение. Ты почувствовал себя проверившим.

Самопредпочтение моделей: ChatGPT лучше оценивает тексты, написанные в стиле ChatGPT. Claude — в стиле Claude. Если пишешь через одну модель, а оцениваешь другой — получишь более объективный взгляд.


⚠️

Ограничения

⚠️ Это не техника, а понимание ограничений: В исследовании нет готового "антибиас-промпта" — есть описание проблемы. Шаблон выше — адаптация принципа, не готовое решение из статьи.

⚠️ Гомогенность не полностью устраняется структурой запроса: Hivemind — это свойство архитектуры. Правильный промпт снижает его эффект, но не убирает полностью. Для реально разных мнений нужны разные модели или разные роли с жёсткими ограничениями.

⚠️ Стилистический рерайт = выше оценка, но не всегда лучше текст: "Отмывание" работает. Хеджирование + усилители поднимают AI-оценку. Но это не значит, что текст становится объективно лучше для людей.

⚠️ Работает на академических статьях, экстраполируется осторожно: Исследование про peer review. Принципы применимы шире, но конкретные числа ("+0.45 баллов") — только для научных рецензий.


🔍

Как исследовали

Команда взяла все 75 800 рецензий с конференции ICLR 2026 и сравнила тексты, написанные людьми, с теми, что сгенерировала AI. Метрика простая: насколько похожи рецензии между собой — по смыслу и формулировкам через векторные представления текстов. Результат оказался неожиданно чётким: AI-рецензии на разные статьи были похожи друг на друга на 37–40% больше, чем человеческие. GPT часто использовал фразу "if not, can you comment on" в 13% всех статей. Человеческие повторяющиеся фразы — менее 1%.

Вторая часть — эксперимент с "отмыванием". Исследователи взяли 60 статей, переписали каждую через LLM с простым zero-shot запросом (без скрытых инструкций, без оптимизации — просто "сделай чище"), потом отдали на оценку AI-рецензентам. Средний прирост — +0.45 балла из 10, почти во всех 24 условиях теста. Цена операции — 25 центов за статью. При этом анализ изменений показал: в тексте стало больше слов-хеджей и усилителей, а не новых аргументов.

Особенно интересный момент: GPT-рецензент давал больший прирост баллов GPT-переписанным текстам, чем Claude-переписанным — это прямое подтверждение самопредпочтения. Модели более лояльны к текстам в собственном стиле.


📄

Оригинал из исследования (ключевые фрагменты)

Laundering disproportionately makes stylistic modifications, 
with increased hedging words ("may," "typically," "suggests"...) 
and emphasis words ("strong," "robust," "consistent"...).

AI reviewer agents reuse generic questions like "can you provide more details" 
and "how sensitive is the method" that apply to any paper.

The most common GPT reviewer phrase ("if not, can you comment on") 
appears in 13.3% of papers; for Claude, "how does the method handle" 
appears in 21.7%. In contrast, the most common phrases in ICLR reviews 
appear in fewer than 1% of papers.

GPT reviewers tend to show larger score increases than Claude, 
consistent with self-preference bias.

Контекст: Это прямые цитаты из секций про hivemind-эффект (Section 3) и paper laundering (Section 4). Показывают конкретный механизм — что именно меняется в тексте и почему AI-оценка на это реагирует.


💡

Адаптации и экстраполяции

1. Адаптация: Получить реально разные мнения от одной модели

Проблема hivemind частично решается через структурное разнообразие запросов:

💡 Адаптация: Принудительное разнообразие ролей

Вместо "посмотри с разных сторон" — задавай противоположные роли в разных запросах:

Запрос 1:
Ты — инвестор, который уже потерял деньги на похожей идее. 
Что в этом питче должно тебя насторожить? {текст}

Запрос 2:
Ты — конкурент, который хочет найти дыры в этой модели 
до того, как она масштабируется. Что уязвимо? {текст}

Запрос 3:
Ты — первый клиент, которому это продают. 
Что вызывает недоверие или непонимание? {текст}

Три разных ограничения контекста — три разных угла атаки. Не идеально, но лучше чем "покажи с разных сторон".


2. Техника: Запрет стилистической оценки → оценка по существу

🔧 Добавь явный запрет на стиль

В любой запрос на оценку вставляй:

Оценивай только логику и содержание аргументов.
Игнорируй: стиль письма, структуру, формулировки, грамматику.
Если хочется похвалить за "чёткость изложения" — не делай этого.

Это прямой противовес тому, что исследование называет paper laundering — отрезает реакцию на упаковку.


3. Экстраполяция: Осознанное "отмывание" для реальных задач

Исследование показало: хеджирование + усилители поднимают AI-оценку. Это работает не только в академии.

Если пишешь коммерческое предложение, которое будет проходить через AI-скоринг (например, маркетплейсы типа Яндекс Бизнес, платформы тендеров), осознанный рерайт с этим паттерном может повысить автоматическую оценку заявки. Это не обман — это знание того, как система устроена.

Перепиши этот текст. Добавь умеренное хеджирование там где уместно
("как правило", "в большинстве случаев", "наш опыт показывает").
Усиль ключевые утверждения через слова уверенности 
("надёжный", "последовательный", "проверенный").
Не меняй содержание — только тон и формулировки.

{текст}

🔗

Ресурсы

Название: Stop Automating Peer Review Without Rigorous Evaluation

Авторы: Joachim Baumann (Stanford University), Jiaxin Pei, Sanmi Koyejo, Dirk Hovy (Bocconi University)

Конференция: ICML 2026 (43rd International Conference on Machine Learning, Seoul)

Упомянутые концепции: Algorithmic monoculture (Kleinberg & Raghavan, 2021), Self-preference bias в LLM (Panickssery et al., 2024), AI reviewer agents (Bianchi et al., 2025b)


📋 Дайджест исследования

Ключевая суть

Добавь в текст слова 'предположительно', 'как правило', 'убедительный' — AI-рецензент поставит выше. Содержание не меняй. Это и есть 'оценка качества' от LLM. Метод понимания стилевого уклона позволяет получать честную критику по существу — но только если явно сломать дефолтный режим модели. Фишка: модель читает хеджирующие слова и усилители как сигналы качества. Причёсанный текст с правильными словами получает выше, чем сырой но умный. И если спросишь одну модель трижды — получишь hivemind-эффект: три эха одного мнения вместо трёх независимых точек зрения.

Принцип работы

По умолчанию LLM ищет что похвалить. Дай текст второй раз — похвалит снова. Не потому что текст хорош. Это просто дефолтный режим. Чтобы сломать одобрение, нужны жёсткие ограничения: запрет хвалить, скептичная роль, требование найти дыры. Без этого получаешь зеркало стиля. С этим — настоящего критика. А ещё: если хочется реально разных мнений — спрашивай разные модели. ChatGPT лучше оценивает тексты в стиле ChatGPT, Claude — в стиле Claude. Это самопредпочтение: пиши через одну, оценивай через другую.

Почему работает

Модель обучена на миллиардах текстов. В них структурированные, вежливо написанные материалы оценивались высоко. Поэтому хеджирование ('возможно', 'как правило') и усилители ('убедительный', 'надёжный') — это сигналы 'качественный текст' для неё. Не содержание. Упаковка. Hivemind — не случайный сбой, это архитектура: модель генерирует по одному паттерну. Три запроса — три вариации одного ответа. Паттерн не меняется от количества попыток. Меняется только формулировка.

Когда применять

Оценка любого текста, идеи или плана — особенно когда важно понять реальные слабости, а не получить одобрение. Работает для питчей инвесторам, деловых писем, стратегий, статей. НЕ подходит как замена живому эксперту: модель не заменит скептика с реальным опытом в теме. И не убирает hivemind полностью — только снижает его эффект.

Мини-рецепт

1. Запрети одобрение: буквально напиши 'не говори что хорошо, только проблемы'. Без этого модель соскользнёт в похвалу.
2. Запрети оценку стиля: добавь 'игнорируй формулировки, оценивай только логику и допущения'. Иначе реагирует на упаковку.
3. Дай скептичную роль с контекстом: не просто 'будь критичным', а 'ты инвестор, который видел 500 таких питчей и ищет дыры'. Конкретная роль даёт нужный угол атаки.
4. Задай минимум слабостей: 'найди минимум 3 конкретные проблемы'. Модель обязана копать, не остановится на первом.
5. Для реального разнообразия — меняй модели: спроси Claude, потом ChatGPT, потом Gemini. Это единственный способ получить хоть какую-то реальную вариацию взглядов.

Примеры

[ПЛОХО] : Оцени мой питч. Насколько он убедителен?
[ХОРОШО] : Найди минимум 3 дыры в этом питче. Только слабости — без достоинств. Оценивай логику, допущения и риски. Стиль и формулировки игнорируй. Роль: скептичный инвестор, который уже видел 500 таких идей и знает где обычно ломается. Если думаешь что слабостей нет — копай глубже, это сигнал что ещё не нашёл. [текст питча]
Источник: Stop Automating Peer Review Without Rigorous Evaluation
ArXiv ID: 2605.03202 | Сгенерировано: 2026-05-06 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель оценивает упаковку текста, а не его смыслПросишь оценить идею, питч или аргумент. Модель реагирует на слова-хеджеры ("предположительно", "как правило") и слова-усилители ("убедительный", "надёжный"). Чем больше таких слов — тем выше оценка. Логика и содержание почти не влияют. Сырой но умный текст получит меньше, чем красиво упакованная банальностьЗапрети модели оценивать стиль. Явно: "Игнорируй формулировки. Оценивай только логику и аргументы." Добавь роль скептика и минимум слабостей для поиска
Несколько запросов к одной модели — не несколько мненийПросишь "посмотри с трёх сторон" или задаёшь один вопрос три раза. Получаешь три похожих ответа — вариации одного паттерна. Реально разных точек зрения нет. Модель не умеет думать "по-другому" — она генерирует по одному обученному вектору. Создаётся иллюзия проверки: кажется, несколько голосов согласны. На деле — один голос эхомДля реально разных мнений — используй разные модели. Claude + Gemini + GPT-4 дадут больше разброса, чем три запроса к одной

Методы

МетодСуть
Запрет хвалить + скептичная роль + обязательное число слабостейТри правила вместе ломают дефолтное одобрение модели. 1. Запрет: "Только слабости. Не говори, что хорошо." 2. Роль: "Ты — скептичный инвестор, который видел 500 таких питчей и ищет дыры." 3. Минимум: "Найди ровно 3 конкретные слабости по существу." Почему работает: Каждое из трёх правил отдельно — слабее. Вместе они перезаписывают обученную тягу к похвале. Запрет убирает дефолт. Роль задаёт угол атаки. Число не даёт остановиться раньше времени. Не работает: если не запретить оценку стиля — модель всё равно хвалит "чёткие формулировки"
📖 Простыми словами

Stop Automating Peer Review Without Rigorous Evaluation

arXiv: 2605.03202

AI-ассистенты оценивают тексты не по глубине мысли, а по тому, насколько уверенно и «научно» они звучат. Исследователи вскрыли фундаментальный баг: LLM-рецензенты ведутся на внешние атрибуты авторитетности. Если в тексте есть правильные маркеры — например, хеджирующие слова («вероятно», «как правило») и слова-усилители («убедительный», «фундаментальный»), модель автоматически завышает балл. По сути, AI не вникает в логику, он просто ищет знакомые паттерны «хорошего текста» и ставит лайк за форму, даже если внутри пустышка.

Это как если бы ты пришел на экзамен, не зная предмета, но надел дорогой костюм, выучил пару умных терминов и говорил с интонацией профессора. Преподаватель-человек, скорее всего, раскусит подвох через минуту, но AI-рецензент — это тот самый доверчивый препод, который поставит «отлично» просто за солидный вид. Ты можешь нести полную чушь, но если эта чушь упакована в академический стиль, модель решит, что перед ней шедевр. Формально всё круто, а по факту — имитация.

Что конкретно ломает систему: стилистическая мимикрия. Достаточно добавить в текст структурные связки и уверенные выводы, чтобы рейтинг взлетел. Исследование показало, что простая просьба к модели «перепиши это более чётким стилем» магическим образом превращает среднюю работу в «выдающуюся» в глазах другого AI. Содержание остается прежним, но визуальный шум из правильных слов заставляет алгоритм лажать и выдавать неоправданно высокие оценки.

Этот принцип универсален и работает далеко за пределами научных рецензий. Питчи для инвесторов, резюме, описания продуктов или холодные письма — везде, где на входе стоит AI-фильтр, побеждает не самый умный, а самый «правильно звучащий». Мы входим в эру GEO для смыслов: теперь важно не то, что ты сказал, а насколько твой текст совпадает с внутренним шаблоном «идеального ответа» в голове у ChatGPT или Claude. SEO для поисковиков умерло, наступает время стилистического взлома.

Короче: не доверяй оценкам AI на 100%, если он хвалит твой текст. Скорее всего, он просто узнал в твоих словах свои собственные галлюцинации об идеальном стиле. Если хочешь пройти проверку алгоритмом — используй правильные маркеры, но если хочешь реально достучаться до людей — не давай нейронке выхолостить суть. Иначе рискуешь получить идеально упакованное ничего, которое развалится при первом же вопросе живого человека.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с