3,583 papers
arXiv:2604.20569 76 22 апр. 2026 г. FREE

Elaboration Bias: AI завышает оригинальность идей, которые длиннее — не лучше

КЛЮЧЕВАЯ СУТЬ
Когда AI оценивает оригинальность идей, он систематически завышает оценки длинным текстам — не более творческим. Это объясняет загадку, которую давно замечали: AI-модели ставят AI-сгенерированным идеям более высокие баллы, чем человеческим. Но стоило убрать эффект длины из оценки — самопредпочтение исчезло полностью. Значит, настоящая проблема не в том, что модель «любит своих». Фишка: модель не умеет разделить «детализированность» и «оригинальность» — она читает объём там, где ты ждёшь оценки содержания. Метод даёт возможность получать честную оценку оригинальности даже когда идеи разного объёма: сначала сожми каждую до ядра — одно предложение, суть без деталей — и только потом проси сравнить.
Адаптировать под запрос

TL;DR

Когда просишь AI оценить оригинальность идей, он систематически завышает оценки более длинным и детализированным ответам — не более творческим. Это называется elaboration bias (предвзятость детализации). Из-за него AI также ставит AI-сгенерированным идеям более высокие баллы, чем человеческим — просто потому что AI пишет длиннее и структурированнее.

Главная находка: самопредпочтение AI (тенденция выше оценивать AI-ответы) исчезает, если убрать из оценки эффект длины. То есть настоящая проблема не в том, что AI любит "своих" — а в том, что AI путает детализированность с оригинальностью. Попроси оценить короткую живую идею против длинного AI-описания — и AI выберет длинное.

Практический вывод: перед тем как просить AI оценить идеи на оригинальность, сначала сведи каждую к ядру — одному предложению без пояснений. Только тогда оценка будет справедливой.


🔬

Схема метода

ШАГ 1: Собери идеи в любом формате → полные формулировки (могут быть разной длины)

ШАГ 2: Извлеки ядро каждой идеи → одна короткая фраза, суть без деталей
         (в одном промпте)

ШАГ 3: Оцени только ядра → сравнимые оценки оригинальности без влияния длины

Шаги 2 и 3 можно объединить в один запрос или разбить на два — зависит от задачи.


🚀

Пример применения

Задача: Ты запускаешь новый сервис доставки еды для офисов и просишь ChatGPT выбрать самую оригинальную концепцию из трёх питчей. Одну написал ты сам (коротко), две другие сгенерировал AI (длинно и структурированно). Без контроля за длиной — AI выберет свои варианты.

Промпт:

У меня есть три концепции нового сервиса. Сначала выдели из каждой 
ТОЛЬКО ядро идеи — одно предложение, суть без объяснений и деталей.

Вот концепции:

1. [Первая концепция]
2. [Вторая концепция]
3. [Третья концепция]

После того как выделишь ядра — оцени только их оригинальность 
по шкале 1-5, где 5 — самая неожиданная идея. Оценивай только 
нестандартность самой идеи, не качество описания.

Результат: Модель покажет три коротких ядра — по одному предложению на идею. Затем выдаст оценки 1-5 с коротким пояснением почему. Идеи выровняются по длине, и оценка будет отражать реальную нестандартность концепции, а не мастерство описания.


🧠

Почему это работает

Слабость LLM как оценщика: Модель не воспринимает идею "в чистом виде" — она читает текст. Более длинный, детализированный текст содержит больше деталей, контекста, обоснований. Модель ассоциирует проработанность с ценностью. Она генерирует оценку, опираясь на то, сколько "смысла" считала — а не на то, насколько сама идея нестандартна.

Что умеет LLM хорошо: Сравнивать короткие, структурно одинаковые формулировки. Когда все идеи приведены к одному формату — одно предложение, без деталей — модель оценивает именно концептуальную дистанцию, а не объём.

Как метод это использует: Сначала убираем "шум длины" — просим извлечь только ядро. Потом оцениваем уравненные формулировки. Это как взвешивать товар без упаковки: убрал картон — сравниваешь содержимое.


📋

Шаблон промпта

Оцени оригинальность следующих {число} идей для задачи: {задача}.

Идеи:
1. {идея_1}
2. {идея_2}
3. {идея_3}

Шаг 1. Для каждой идеи выдели ЯДРО — одно предложение, только суть, 
без деталей и обоснований.

Шаг 2. Оцени только ядра по шкале 1-5:
- 5 = совершенно неожиданно, редко такое встречается
- 1 = очевидно, первое что приходит в голову

Критерий оценки: насколько НЕОЖИДАННА сама идея, 
не насколько хорошо она описана.

Что подставлять: - {число} — сколько идей сравниваешь - {задача} — контекст: "названия приложения", "слоганы для акции", "концепции подкаста" - {идея_N} — каждая идея в оригинальном виде, как есть


🚀 Быстрый старт — вставь в чат:

Вот шаблон для честной оценки оригинальности идей. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит сколько идей и в каком контексте их оценивать — чтобы правильно настроить шкалу оригинальности под твою задачу.


⚠️

Ограничения

⚠️ Работает только для оценки оригинальности: Если оцениваешь практичность, реализуемость или убедительность — длина и детализация как раз важны. Не убирай её.

⚠️ Короткие идеи теряют нюансы: Ядро "Zen-garden в ботинке" теряет контекст оригинала. Для финального выбора возвращайтесь к полной версии идеи — ядро только для первичного сравнения.

⚠️ Не заменяет человека для тонких суждений: Модели до сих пор плохо улавливают умность и эмоциональную глубину идеи — то, что опытный человек чувствует как "вот это да". Используй как инструмент первичной сортировки.

⚠️ Формат "ядра" требует аккуратности: Если попросить без явной инструкции, модель может оставить слишком много деталей. Уточняй: "одно предложение, только суть".


🔍

Как исследовали

Исследователи взяли 4 813 ответов на классический тест дивергентного мышления — Alternate Uses Task (AUT): "придумай как можно больше нестандартных применений для ботинка/вилки". Часть ответов написали 81 студент, часть — ChatGPT-4o в 81 отдельном чате с теми же инструкциями.

Все ответы оценивали четыре "судьи": два обученных человека и три AI-системы — OCSAI, CLAUS и ChatGPT-4o. Людей попросили оценивать по трём критериям: насколько идея редкая, концептуально далёкая и умная. AI-системам дали те же инструкции.

Результат удивил: все три AI-системы единогласно признали ChatGPT-4o самым оригинальным автором — выше даже самых творческих людей. Люди-эксперты думали иначе: по их оценкам, лучшие человеческие идеи были оригинальнее AI-ответов. Это и есть self-preference bias.

Ключевой момент исследования — разбор причины этого смещения. Когда из каждого AI-ответа оставляли только ядро идеи (убирали длинные объяснения и детали), картина кардинально менялась: преимущество AI-контента исчезало или разворачивалось. Это показало, что дело не в том, что AI "за своих" — а в том, что AI путает длину и проработанность с оригинальностью.


💡

Адаптации и экстраполяции

🔧 Техника: двухэтапное сравнение → честный выбор

Сначала попроси AI оценить идеи "как есть". Потом — после извлечения ядер. Сравни два результата: расхождение покажет, какие идеи "выезжали" на детализации, а не на настоящей оригинальности.


🔧 Техника: стандартизация перед конкурсом идей

Если собираешь идеи от команды и хочешь голосовать честно — попроси каждого сначала сформулировать своё предложение в одном предложении. Потом раздай анонимные ядра для оценки. Убирает и human elaboration bias, и AI elaboration bias одним движением.


🔗

Ресурсы

Название работы: The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality

Авторы: Umberto Domanti, Sergio Agnoli, Moritz Mock, Antonella De Angeli

Организации: Free University of Bozen-Bolzano (Италия), University of Trieste, Marconi Institute for Creativity (Болонья)

Смежные инструменты: OCSAI (openscoring.du.edu), CLAUS, CAP (cap.ist.psu.edu)


📋 Дайджест исследования

Ключевая суть

Когда AI оценивает оригинальность идей, он систематически завышает оценки длинным текстам — не более творческим. Это объясняет загадку, которую давно замечали: AI-модели ставят AI-сгенерированным идеям более высокие баллы, чем человеческим. Но стоило убрать эффект длины из оценки — самопредпочтение исчезло полностью. Значит, настоящая проблема не в том, что модель «любит своих». Фишка: модель не умеет разделить «детализированность» и «оригинальность» — она читает объём там, где ты ждёшь оценки содержания. Метод даёт возможность получать честную оценку оригинальности даже когда идеи разного объёма: сначала сожми каждую до ядра — одно предложение, суть без деталей — и только потом проси сравнить.

Принцип работы

AI-оценщик — это текстовый читатель, а не судья идей. Больше слов — больше контекста — модель воспринимает это как больше «веса». Это как взвешивать товар прямо в упаковке: хочешь узнать что внутри — сначала сними картон. Убираешь детали — убираешь шум. Модель сравнивает содержимое, а не упаковку. Процесс простой: собери идеи → извлеки ядро каждой (одно предложение, только суть) → оценивай только ядра.

Почему работает

Исследователи проверили: самопредпочтение AI к собственным текстам пропадает полностью, когда контролируешь длину. То есть никакой «любви к своим» не было — просто AI-тексты длиннее и структурированнее. Модель путала объём с ценностью. Когда все идеи приведены к одному формату — короткое ядро — модель наконец оценивает концептуальную дистанцию, а не мастерство описания. Именно поэтому шаг «сначала извлеки ядро» меняет результат.

Когда применять

Мозговые штурмы и брейнрайтинг — особенно когда часть идей пришла от людей коротко, часть сгенерирована AI подробно. Также подходит для отбора идей в стартап-питчах, нейминге, концепциях рекламных кампаний — везде где нужно сравнить нестандартность самой идеи, а не качество её изложения. НЕ подходит для оценки практичности, реализуемости или убедительности — там длина и детали как раз важны. Не убирай их.

Мини-рецепт

1. Собери идеи как есть: не причёсывай, не выравнивай — бери в том виде, в котором пришли.
2. Попроси извлечь ядро: для каждой идеи — одно предложение, только суть, без деталей и обоснований. Уточни явно: «одно предложение, не больше».
3. Оценивай только ядра: попроси оценить по шкале оригинальности (например, 1-5), где критерий — насколько идея неожиданна, а не насколько хорошо описана.
4. Для финального выбора: возвращайся к полной версии идеи — ядро только для первичного сравнения, а не замена оригинала.

Примеры

[ПЛОХО] : Оцени оригинальность этих трёх концепций подкаста по шкале 1 до 5 и выбери лучшую
[ХОРОШО] : У меня три концепции подкаста. Сначала выдели из каждой ЯДРО — одно предложение, только суть без деталей и объяснений. Затем оцени только ядра по шкале 1-5: 5 — совершенно неожиданная идея, 1 — очевидное первое что придёт в голову. Критерий: насколько неожиданна сама идея, не насколько хорошо она описана. 1. [первая концепция] 2. [вторая концепция] 3. [третья концепция]
Источник: The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality
ArXiv ID: 2604.20569 | Сгенерировано: 2026-04-23 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Модель путает детализированность с оригинальностьюПросишь оценить оригинальность идей. Одна идея короткая и живая, другая — длинная и структурированная. Модель выбирает длинную. Не потому что она нестандартнее. Просто в ней больше деталей, контекста, обоснований. Модель читает текст — и принимает объём за ценность. Это ломает любое сравнение где идеи разной длиныПеред оценкой выравняй идеи. Попроси модель: "выдели ядро каждой идеи — одно предложение, только суть, без деталей". Потом оценивай только ядра. Без этого сравниваешь упаковку, не содержимое

Методы

МетодСуть
Нормализация до ядра — честное сравнение идейПеред оценкой оригинальности добавь шаг: "Шаг 1: выдели ядро каждой идеи — одно предложение, только суть. Шаг 2: оцени только ядра по шкале 1–5, критерий — насколько неожиданна сама идея, не насколько хорошо описана." Почему работает: Убирает шум длины. Модель хорошо сравнивает формулировки одинакового объёма — в них она оценивает концептуальную дистанцию, а не детализацию. Когда применять: сравниваешь идеи разной длины, смешиваешь свои и AI-варианты, нужен честный рейтинг оригинальности. Когда не применять: оцениваешь практичность или убедительность — там длина и детали как раз важны
📖 Простыми словами

The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality

arXiv: 2604.20569

Когда ты просишь нейросеть оценить, насколько твоя идея гениальна, она работает не как опытный критик, а как ленивый препод на экзамене. Вместо того чтобы вникать в саму суть креатива, модель ведется на elaboration bias — предвзятость детализации. Для AI «длинно» автоматически означает «умно». Модель не умеет отделять зерно идеи от словесной шелухи, поэтому она просто сканирует объем текста и количество деталей, ошибочно принимая графоманию за высокий полет мысли.

Это как если бы ты пришел на конкурс стартапов с гениальной схемой на салфетке, а твой конкурент притащил триста страниц воды в красивом переплете. Жюри в лице нейросети даже не посмотрит на твою салфетку — оно выдаст главный приз за толщину папки. Формально всё обосновано, но по факту AI просто не видит разницы между реальной новизной и хорошим навыком печатать много букв. Это фундаментальный баг восприятия: модель путает проработанность формы с качеством содержания.

В цифрах и фактах это выглядит еще печальнее. Исследователи выяснили, что AI систематически завышает баллы собственным текстам не потому, что он «свой своего видит», а потому что нейросети по умолчанию пишут длиннее и структурированнее людей. Если дать модели два варианта — короткий, но прорывной, и длинный, но банальный — она выберет второй. Длина текста коррелирует с итоговой оценкой сильнее, чем реальная оригинальность. Это делает автоматическую оценку идей через LLM практически бесполезной, если не ограничивать количество слов.

Этот принцип универсален и касается не только стартапов. Он работает в оценке эссе, маркетинговых стратегий и даже при выборе лучшего совета в чате. Везде, где есть текст, AI будет поощрять тех, кто льет воду, и наказывать за лаконичность. SEO для идей теперь выглядит именно так: хочешь понравиться алгоритму — пиши полотно текста с кучей подпунктов, даже если твоя мысль умещается в одно предложение.

Короче, не надейся на объективность нейросети, если сравниваешь свои наброски с её ответами. Она всегда будет подсуживать тому, кто больше болтает. Чтобы получить адекватный фидбек, нужно либо жестко ограничивать длину всех вариантов, либо заставлять модель сначала выжимать из текста сухой остаток, а уже потом его оценивать. Иначе ты рискуешь выбросить бриллиант в мусорку только потому, что он не был завернут в три слоя упаковочной бумаги.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с