TL;DR
Когда просишь AI оценить оригинальность идей, он систематически завышает оценки более длинным и детализированным ответам — не более творческим. Это называется elaboration bias (предвзятость детализации). Из-за него AI также ставит AI-сгенерированным идеям более высокие баллы, чем человеческим — просто потому что AI пишет длиннее и структурированнее.
Главная находка: самопредпочтение AI (тенденция выше оценивать AI-ответы) исчезает, если убрать из оценки эффект длины. То есть настоящая проблема не в том, что AI любит "своих" — а в том, что AI путает детализированность с оригинальностью. Попроси оценить короткую живую идею против длинного AI-описания — и AI выберет длинное.
Практический вывод: перед тем как просить AI оценить идеи на оригинальность, сначала сведи каждую к ядру — одному предложению без пояснений. Только тогда оценка будет справедливой.
Схема метода
ШАГ 1: Собери идеи в любом формате → полные формулировки (могут быть разной длины)
ШАГ 2: Извлеки ядро каждой идеи → одна короткая фраза, суть без деталей
(в одном промпте)
ШАГ 3: Оцени только ядра → сравнимые оценки оригинальности без влияния длины
Шаги 2 и 3 можно объединить в один запрос или разбить на два — зависит от задачи.
Пример применения
Задача: Ты запускаешь новый сервис доставки еды для офисов и просишь ChatGPT выбрать самую оригинальную концепцию из трёх питчей. Одну написал ты сам (коротко), две другие сгенерировал AI (длинно и структурированно). Без контроля за длиной — AI выберет свои варианты.
Промпт:
У меня есть три концепции нового сервиса. Сначала выдели из каждой
ТОЛЬКО ядро идеи — одно предложение, суть без объяснений и деталей.
Вот концепции:
1. [Первая концепция]
2. [Вторая концепция]
3. [Третья концепция]
После того как выделишь ядра — оцени только их оригинальность
по шкале 1-5, где 5 — самая неожиданная идея. Оценивай только
нестандартность самой идеи, не качество описания.
Результат: Модель покажет три коротких ядра — по одному предложению на идею. Затем выдаст оценки 1-5 с коротким пояснением почему. Идеи выровняются по длине, и оценка будет отражать реальную нестандартность концепции, а не мастерство описания.
Почему это работает
Слабость LLM как оценщика: Модель не воспринимает идею "в чистом виде" — она читает текст. Более длинный, детализированный текст содержит больше деталей, контекста, обоснований. Модель ассоциирует проработанность с ценностью. Она генерирует оценку, опираясь на то, сколько "смысла" считала — а не на то, насколько сама идея нестандартна.
Что умеет LLM хорошо: Сравнивать короткие, структурно одинаковые формулировки. Когда все идеи приведены к одному формату — одно предложение, без деталей — модель оценивает именно концептуальную дистанцию, а не объём.
Как метод это использует: Сначала убираем "шум длины" — просим извлечь только ядро. Потом оцениваем уравненные формулировки. Это как взвешивать товар без упаковки: убрал картон — сравниваешь содержимое.
Шаблон промпта
Оцени оригинальность следующих {число} идей для задачи: {задача}.
Идеи:
1. {идея_1}
2. {идея_2}
3. {идея_3}
Шаг 1. Для каждой идеи выдели ЯДРО — одно предложение, только суть,
без деталей и обоснований.
Шаг 2. Оцени только ядра по шкале 1-5:
- 5 = совершенно неожиданно, редко такое встречается
- 1 = очевидно, первое что приходит в голову
Критерий оценки: насколько НЕОЖИДАННА сама идея,
не насколько хорошо она описана.
Что подставлять:
- {число} — сколько идей сравниваешь
- {задача} — контекст: "названия приложения", "слоганы для акции", "концепции подкаста"
- {идея_N} — каждая идея в оригинальном виде, как есть
🚀 Быстрый старт — вставь в чат:
Вот шаблон для честной оценки оригинальности идей.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит сколько идей и в каком контексте их оценивать — чтобы правильно настроить шкалу оригинальности под твою задачу.
Ограничения
⚠️ Работает только для оценки оригинальности: Если оцениваешь практичность, реализуемость или убедительность — длина и детализация как раз важны. Не убирай её.
⚠️ Короткие идеи теряют нюансы: Ядро "Zen-garden в ботинке" теряет контекст оригинала. Для финального выбора возвращайтесь к полной версии идеи — ядро только для первичного сравнения.
⚠️ Не заменяет человека для тонких суждений: Модели до сих пор плохо улавливают умность и эмоциональную глубину идеи — то, что опытный человек чувствует как "вот это да". Используй как инструмент первичной сортировки.
⚠️ Формат "ядра" требует аккуратности: Если попросить без явной инструкции, модель может оставить слишком много деталей. Уточняй: "одно предложение, только суть".
Как исследовали
Исследователи взяли 4 813 ответов на классический тест дивергентного мышления — Alternate Uses Task (AUT): "придумай как можно больше нестандартных применений для ботинка/вилки". Часть ответов написали 81 студент, часть — ChatGPT-4o в 81 отдельном чате с теми же инструкциями.
Все ответы оценивали четыре "судьи": два обученных человека и три AI-системы — OCSAI, CLAUS и ChatGPT-4o. Людей попросили оценивать по трём критериям: насколько идея редкая, концептуально далёкая и умная. AI-системам дали те же инструкции.
Результат удивил: все три AI-системы единогласно признали ChatGPT-4o самым оригинальным автором — выше даже самых творческих людей. Люди-эксперты думали иначе: по их оценкам, лучшие человеческие идеи были оригинальнее AI-ответов. Это и есть self-preference bias.
Ключевой момент исследования — разбор причины этого смещения. Когда из каждого AI-ответа оставляли только ядро идеи (убирали длинные объяснения и детали), картина кардинально менялась: преимущество AI-контента исчезало или разворачивалось. Это показало, что дело не в том, что AI "за своих" — а в том, что AI путает длину и проработанность с оригинальностью.
Адаптации и экстраполяции
🔧 Техника: двухэтапное сравнение → честный выбор
Сначала попроси AI оценить идеи "как есть". Потом — после извлечения ядер. Сравни два результата: расхождение покажет, какие идеи "выезжали" на детализации, а не на настоящей оригинальности.
🔧 Техника: стандартизация перед конкурсом идей
Если собираешь идеи от команды и хочешь голосовать честно — попроси каждого сначала сформулировать своё предложение в одном предложении. Потом раздай анонимные ядра для оценки. Убирает и human elaboration bias, и AI elaboration bias одним движением.
Ресурсы
Название работы: The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality
Авторы: Umberto Domanti, Sergio Agnoli, Moritz Mock, Antonella De Angeli
Организации: Free University of Bozen-Bolzano (Италия), University of Trieste, Marconi Institute for Creativity (Болонья)
Смежные инструменты: OCSAI (openscoring.du.edu), CLAUS, CAP (cap.ist.psu.edu)
