TL;DR
Когда просишь AI оценить твой текст, он оценивает упаковку, а не суть. Исследователи выяснили: достаточно попросить LLM переписать статью в "более чётком стиле" — добавить хеджирующие слова ("предположительно", "как правило") и слова-усилители ("убедительный", "надёжный") — и AI-рецензент ставит статье заметно более высокий балл. Содержание не менялось. Только стиль.
Второй инсайт ещё острее: при нескольких запросах к одной модели получаешь не разные мнения, а одно и то же мнение в разных словах. LLM не может произвести реально разные точки зрения — их ответы слишком похожи друг на друга. Это называется hivemind-эффект (эффект коллективного разума): вместо трёх независимых голосов — три эха одного.
Вместе это означает: AI-оценка — это зеркало стиля, а не качества. Если ты просишь модель оценить своё письмо, питч, идею или текст — она реагирует на то, как написано, а не что написано. И сколько бы раз ты ни спросил одну и ту же модель, ты не получишь реального разнообразия взглядов.
Схема находок
НАХОДКА 1: Отмывание текста
Исходный текст → "Перепиши чётче" (LLM) → Больше хеджирования + усилителей
→ AI-рецензент ставит выше (без изменения содержания)
НАХОДКА 2: Hivemind-эффект
Один вопрос → 3 запроса к одной модели → 3 похожих ответа
(не разные мнения, а вариации одного)
НАХОДКА 3: Стиль > Содержание
AI-оценка сильно реагирует на:
- хеджирование ("возможно", "как правило", "предполагается")
- усилители ("убедительный", "надёжный", "последовательный")
- структурную причёсанность
Слабо реагирует на: логику аргументов, оригинальность идеи
Пример применения
Задача: Ты написал питч для инвестора в фонд — 3 абзаца про идею маркетплейса ремонтных услуг в Москве. Просишь Claude оценить, насколько питч убедителен. Модель говорит: "Отличный питч, чёткая ценностная гипотеза, убедительная аргументация." Спрашиваешь ещё раз — снова хвалит. Кажется, всё хорошо.
Но ты не знаешь: Claude хвалит твой стиль, а не идею. Если переформулировать питч хуже, но добавить больше хеджирования и уверенных слов — оценка может стать ещё выше. Это не обратная связь по существу. Это обратная связь по упаковке.
Промпт, который обходит это ограничение:
Я дам тебе текст. Твоя задача — найти реальные слабости, не достоинства.
Правила:
— НЕ говори, что хорошо. Только проблемы.
— Игнорируй стиль и формулировки. Оценивай только логику и содержание.
— Представь, что это питч перед скептичным инвестором типа Дамира Халилова или Сергея Дашкова — они уже видели 500 таких идей и ищут дыры.
— Найди минимум 3 конкретных слабости по существу: в бизнес-логике, рынке, допущениях.
— Если не можешь найти слабость — это подозрительно. Копай глубже.
Текст:
{твой текст}
Результат: Модель выдаст список конкретных слабостей по существу — не по стилю. Правило "только проблемы" и запрет на оценку стиля ломают естественную тягу модели к одобрению. Скептичная роль добавляет угол атаки, которого по умолчанию нет.
Почему это работает (и почему стандартный запрос не работает)
LLM натренирована быть полезной и одобряющей. По умолчанию модель ищет, что похвалить. Когда видит причёсанный, хорошо сформулированный текст с хеджированием — сигнал "качество" активируется сильнее, чем от сырого но умного текста. Это не баг, это следствие обучения на миллиардах примеров, где вежливые, структурированные тексты оценивались высоко.
Hivemind — это не баг одного запроса, это архитектурная особенность. Модель детерминированно генерирует текст по паттерну. Задай тот же вопрос трижды — получишь три вариации одного паттерна. Реального разброса взглядов нет, потому что у модели нет "другой" точки зрения — только вариации одной. Это особенно опасно, когда просишь "несколько мнений".
Чтобы сломать этот паттерн, нужна явная инструкция. Запрет хвалить, скептичная роль, требование найти дыры — это не вежливость, это ограничения контекста, которые перезаписывают дефолтную тягу к одобрению. Без них получаешь зеркало, а не критика.
Рычаги управления:
| Что менять | Эффект |
|---|---|
| Добавить запрет: "не говори, что хорошо" | Убирает дефолтное одобрение |
| Дать скептичную роль (конкретный человек-скептик) | Острее критика, меньше вежливости |
| Запросить оценку только логики, без стиля | Отсекает реакцию на упаковку |
| Задать минимум слабостей: "найди ровно 3" | Модель обязана копать, не останавливается на первом |
| Спросить у разных моделей (Claude + ChatGPT) | Хоть какое-то реальное разнообразие взглядов |
Шаблон промпта
Проанализируй {текст/идею/план} как жёсткий скептик.
Твоя задача — только слабости. Не достоинства.
Фокус только на содержании: логика, допущения, риски, дыры в аргументах.
Стиль и формулировки — не твоя задача, игнорируй их.
Роль: ты — {скептичный инвестор / опытный конкурент / аудитор},
который уже видел сотни похожих {питчей/планов/идей} и знает где обычно ломается.
Найди минимум {3} конкретные слабости.
Если думаешь, что слабостей нет — это сигнал копать глубже.
{текст/идея/план}
Что подставлять:
- {текст/идею/план} — то, что оцениваешь
- {скептичный инвестор / опытный конкурент / аудитор} — роль под твою задачу
- {питчей/планов/идей} — тип контента
- {3} — минимальное число слабостей, можно увеличить до 5
🚀 Быстрый старт — вставь в чат:
Вот шаблон для получения честной критики от LLM без дефолтного одобрения.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что именно оцениваем и какую роль взять — потому что без конкретной роли скептика модель быстро соскользнёт обратно в одобрение.
Почему это важно знать
AI-оценку легко принять за реальную обратную связь. Когда модель говорит "убедительный аргумент" — кажется, что идея проверена. На деле это значит: текст причёсан и содержит правильные слова.
Hivemind-эффект особенно опасен при принятии решений. Если перед важным решением просишь ChatGPT "посмотреть с разных сторон" — и модель выдаёт 3-4 перспективы — создаётся иллюзия проверки. Но все четыре точки зрения — вариации одного вектора. Ты не проверил решение. Ты почувствовал себя проверившим.
Самопредпочтение моделей: ChatGPT лучше оценивает тексты, написанные в стиле ChatGPT. Claude — в стиле Claude. Если пишешь через одну модель, а оцениваешь другой — получишь более объективный взгляд.
Ограничения
⚠️ Это не техника, а понимание ограничений: В исследовании нет готового "антибиас-промпта" — есть описание проблемы. Шаблон выше — адаптация принципа, не готовое решение из статьи.
⚠️ Гомогенность не полностью устраняется структурой запроса: Hivemind — это свойство архитектуры. Правильный промпт снижает его эффект, но не убирает полностью. Для реально разных мнений нужны разные модели или разные роли с жёсткими ограничениями.
⚠️ Стилистический рерайт = выше оценка, но не всегда лучше текст: "Отмывание" работает. Хеджирование + усилители поднимают AI-оценку. Но это не значит, что текст становится объективно лучше для людей.
⚠️ Работает на академических статьях, экстраполируется осторожно: Исследование про peer review. Принципы применимы шире, но конкретные числа ("+0.45 баллов") — только для научных рецензий.
Как исследовали
Команда взяла все 75 800 рецензий с конференции ICLR 2026 и сравнила тексты, написанные людьми, с теми, что сгенерировала AI. Метрика простая: насколько похожи рецензии между собой — по смыслу и формулировкам через векторные представления текстов. Результат оказался неожиданно чётким: AI-рецензии на разные статьи были похожи друг на друга на 37–40% больше, чем человеческие. GPT часто использовал фразу "if not, can you comment on" в 13% всех статей. Человеческие повторяющиеся фразы — менее 1%.
Вторая часть — эксперимент с "отмыванием". Исследователи взяли 60 статей, переписали каждую через LLM с простым zero-shot запросом (без скрытых инструкций, без оптимизации — просто "сделай чище"), потом отдали на оценку AI-рецензентам. Средний прирост — +0.45 балла из 10, почти во всех 24 условиях теста. Цена операции — 25 центов за статью. При этом анализ изменений показал: в тексте стало больше слов-хеджей и усилителей, а не новых аргументов.
Особенно интересный момент: GPT-рецензент давал больший прирост баллов GPT-переписанным текстам, чем Claude-переписанным — это прямое подтверждение самопредпочтения. Модели более лояльны к текстам в собственном стиле.
Оригинал из исследования (ключевые фрагменты)
Laundering disproportionately makes stylistic modifications,
with increased hedging words ("may," "typically," "suggests"...)
and emphasis words ("strong," "robust," "consistent"...).
AI reviewer agents reuse generic questions like "can you provide more details"
and "how sensitive is the method" that apply to any paper.
The most common GPT reviewer phrase ("if not, can you comment on")
appears in 13.3% of papers; for Claude, "how does the method handle"
appears in 21.7%. In contrast, the most common phrases in ICLR reviews
appear in fewer than 1% of papers.
GPT reviewers tend to show larger score increases than Claude,
consistent with self-preference bias.
Контекст: Это прямые цитаты из секций про hivemind-эффект (Section 3) и paper laundering (Section 4). Показывают конкретный механизм — что именно меняется в тексте и почему AI-оценка на это реагирует.
Адаптации и экстраполяции
1. Адаптация: Получить реально разные мнения от одной модели
Проблема hivemind частично решается через структурное разнообразие запросов:
💡 Адаптация: Принудительное разнообразие ролей
Вместо "посмотри с разных сторон" — задавай противоположные роли в разных запросах:
Запрос 1:
Ты — инвестор, который уже потерял деньги на похожей идее.
Что в этом питче должно тебя насторожить? {текст}
Запрос 2:
Ты — конкурент, который хочет найти дыры в этой модели
до того, как она масштабируется. Что уязвимо? {текст}
Запрос 3:
Ты — первый клиент, которому это продают.
Что вызывает недоверие или непонимание? {текст}
Три разных ограничения контекста — три разных угла атаки. Не идеально, но лучше чем "покажи с разных сторон".
2. Техника: Запрет стилистической оценки → оценка по существу
🔧 Добавь явный запрет на стиль
В любой запрос на оценку вставляй:
Оценивай только логику и содержание аргументов.
Игнорируй: стиль письма, структуру, формулировки, грамматику.
Если хочется похвалить за "чёткость изложения" — не делай этого.
Это прямой противовес тому, что исследование называет paper laundering — отрезает реакцию на упаковку.
3. Экстраполяция: Осознанное "отмывание" для реальных задач
Исследование показало: хеджирование + усилители поднимают AI-оценку. Это работает не только в академии.
Если пишешь коммерческое предложение, которое будет проходить через AI-скоринг (например, маркетплейсы типа Яндекс Бизнес, платформы тендеров), осознанный рерайт с этим паттерном может повысить автоматическую оценку заявки. Это не обман — это знание того, как система устроена.
Перепиши этот текст. Добавь умеренное хеджирование там где уместно
("как правило", "в большинстве случаев", "наш опыт показывает").
Усиль ключевые утверждения через слова уверенности
("надёжный", "последовательный", "проверенный").
Не меняй содержание — только тон и формулировки.
{текст}
Ресурсы
Название: Stop Automating Peer Review Without Rigorous Evaluation
Авторы: Joachim Baumann (Stanford University), Jiaxin Pei, Sanmi Koyejo, Dirk Hovy (Bocconi University)
Конференция: ICML 2026 (43rd International Conference on Machine Learning, Seoul)
Упомянутые концепции: Algorithmic monoculture (Kleinberg & Raghavan, 2021), Self-preference bias в LLM (Panickssery et al., 2024), AI reviewer agents (Bianchi et al., 2025b)
