TL;DR
IDEAlign — исследовательский метод для оценки LLM, но главная находка применима в ваших промптах: когда нужна оценка или выбор, формат "выбери лишнее из трёх" (triplet comparison) работает на 9-30% лучше, чем просьба дать оценку по шкале или бинарное сравнение. Относительные суждения ("что хуже из трёх?") надёжнее абсолютных ("оцени от 1 до 10").
Исследователи из Stanford проверяли, насколько LLM похожи на экспертов при оценке студенческих работ. Тестировали разные способы измерить схожесть: лексические метрики (BLEU), эмбеддинги текстов, топик-моделирование, LLM-as-a-judge. Эмбеддинги проваливаются — легко обмануть простой сменой стиля с неформального на формальный: схожесть взлетает на 20-85%, хотя смысл не поменялся. Эмбеддинги ловят длину, тон, стиль — не идеи.
LLM-as-a-judge в формате triplet ("выбери самый непохожий из трёх") показал лучшее совпадение с экспертными оценками. Причина: относительные суждения когнитивно проще и надёжнее. Вместо "насколько похожи A и B по шкале 0-1?" LLM решает более чёткую задачу: "что лишнее — A, B или C?". Меньше двусмысленности, точнее результат.
Применимые принципы
Хотя IDEAlign — это метод для исследователей, из него вытекают три принципа для работы в чате:
1. Triplet comparison для выбора лучшего
Когда нужно выбрать лучший вариант или оценить качество — попроси сгенерировать 3 варианта и выбрать лучший (или худший). Это работает лучше чем "оцени от 1 до 10" или "сравни A и B".
Промпт:
Сгенерируй 3 варианта {описание задачи}.
Затем выбери самый слабый вариант по критерию {критерий}.
Объясни почему он слабее остальных.
Пример:
Сгенерируй 3 варианта заголовка для статьи о том, как удалёнка влияет
на продуктивность разработчиков.
Затем выбери самый слабый вариант по критерию:
"насколько заголовок цепляет и обещает конкретную пользу".
Объясни почему он слабее остальных.
2. Относительные суждения надёжнее абсолютных
Вместо "оцени от 1 до 10" или "дай процент уверенности" — используй сравнительный формат. LLM лучше справляются с относительными оценками.
Слабо:
Оцени убедительность этого аргумента от 1 до 10
Сильно:
Вот три аргумента. Выбери наименее убедительный и объясни почему.
3. "Сравни по идеям, не по стилю"
Когда сравниваешь тексты или оцениваешь схожесть — явно укажи сравнивать смысл, не форму. Без этого LLM может зациклиться на длине, тоне, формальности.
Промпт:
Сравни эти два текста по смыслу и ключевым идеям.
Игнорируй различия в стиле, тоне, длине и формулировках.
Сфокусируйся на том, говорят ли они об одном и том же по сути.
Пример применения
Задача: Выбрать лучшую бизнес-идею из трёх, которые ты набросал для нового SaaS-продукта.
Промпт:
Вот три идеи для SaaS-продукта:
1. {идея 1}
2. {идея 2}
3. {идея 3}
Оцени их по критерию: "Насколько идея решает реальную боль клиентов,
а не выдуманную проблему".
Выбери самую слабую идею по этому критерию.
Объясни конкретно: какую боль она НЕ решает или решает плохо.
Результат: Модель выберет слабейшую идею и объяснит почему — не в абстрактных баллах, а через конкретное сравнение с остальными. Ты увидишь не "идея 2 получает 7 из 10", а "идея 2 хуже потому что..." с прямым контрастом.
Вариант для самокритики:
Сгенерируй 3 версии моего текста с улучшениями.
Затем выбери версию, которая ХУЖЕ остальных передаёт главную мысль.
Объясни что именно потерялось.
Это заставит LLM не просто генерить варианты, а явно сравнивать их между собой — точнее чем просто "улучши текст".
Почему это работает
Абсолютные оценки когнитивно сложны. "Насколько хорош этот текст от 1 до 10?" — непонятно. Что такое 7? А 8? Разные люди (и модели) калибруют шкалу по-разному.
Относительные суждения проще и надёжнее. "Что хуже — A, B или C?" — чёткая задача с однозначным ответом. Не нужна внутренняя шкала, достаточно прямого сравнения.
LLM, как и люди, лучше справляются с попарным/тройным сравнением, чем с оценкой в вакууме. Triplet format использует эту особенность: вместо "оцени текст" даём "сравни три текста и выбери лишний".
Дополнительно: формат triplet снижает влияние стилистических факторов. Когда LLM сравнивает три текста одновременно, она фокусируется на отличиях — и вероятнее заметит смысловые, а не косметические различия.
Шаблон промпта
Для выбора лучшего/худшего варианта:
Сгенерируй 3 варианта {описание задачи: текста/идеи/решения}.
Критерий оценки: {конкретный критерий, например "решает боль клиента",
"понятность для новичка", "оригинальность подхода"}.
Выбери самый слабый/сильный вариант по этому критерию.
Объясни почему он слабее/сильнее остальных двух.
Для сравнения существующих вариантов:
Вот три {текста/идеи/аргумента}:
1. {вариант A}
2. {вариант B}
3. {вариант C}
Критерий: {что важно, например "глубина анализа", "практическая польза"}.
Выбери вариант, который ХУЖЕ остальных по этому критерию.
Игнорируй стиль, тон и длину. Сравнивай только по смыслу.
Объясни конкретно: чего не хватает в выбранном варианте по сравнению с двумя другими.
Плейсхолдеры:
{описание задачи}— что нужно сгенерировать{критерий}— по чему оценивать (одна чёткая штука, не список){вариант A/B/C}— тексты для сравнения
Ключевое: один чёткий критерий. Если критериев много — делай отдельные triplet comparison на каждый.
Ограничения
⚠️ Требует генерации трёх вариантов: Метод работает только если есть три варианта для сравнения. Если у тебя один текст — сначала попроси сгенерить альтернативы.
⚠️ Не заменяет экспертизу: LLM выбирает лучший/худший из трёх, но это не значит что её оценка правильная. Это просто надёжнее чем абсолютные баллы. Финальное решение — за тобой.
⚠️ Один критерий за раз: Если критериев несколько (и "убедительность", и "понятность", и "оригинальность") — делай отдельные triplet comparison на каждый. Смешивание критериев размывает суждение.
Как исследовали
Команда из Stanford взяла два реальных кейса из образования: (1) оценка математических рассуждений учеников и (2) фидбек на эссе. Эксперты-педагоги (10 учителей математики, 7 учителей английского) делали аннотации. LLM (ChatGPT, Claude) делали те же аннотации.
Затем других экспертов попросили сравнивать тройки аннотаций (человек-человек-LLM, LLM-LLM-человек, все комбинации) и выбирать "самую непохожую" по критерию "какое изменение предлагается в работе ученика" (для фидбека) или "что говорит аннотация о понимании ученика" (для математики). Собрали 640 triplet-оценок для математики, 458 для эссе.
Потом проверили автоматические метрики схожести: BLEU (лексическое совпадение), 16 моделей эмбеддингов (Sentence-BERT, GPT-2, ModernBERT, ada и др.), топик-моделирование (BERTopic, LDA), LLM-as-a-judge в трёх форматах (бинарное сравнение, непрерывная шкала 0-1, triplet).
Результаты удивили: эмбеддинги показали корреляцию с экспертами от -0.058 до 0.563 — часто почти ноль или вообще отрицательную. Когда взяли два текста с низкой схожестью по мнению экспертов и просто переписали их формально (без изменения смысла) — схожесть по эмбеддингам взлетела на 20-85%. Эмбеддинги ловят стиль, не идеи.
LLM-as-a-judge с triplet format показал корреляцию 0.618-0.683 — на 30% выше лучшего эмбеддинга для математики, на 9% для фидбека. Binary и continuous форматы работали хуже. Модели Claude Sonnet 4 и GPT-4.1 одинаково хороши с triplet format.
Неожиданность: добавление контекста (тема урока, цель эссе) не улучшило LLM-as-a-judge, иногда ухудшило. Возможно, LLM не хватает педагогической экспертизы чтобы правильно использовать контекст. Человеческие эксперты говорили что контекст полезен — для LLM пока не так.
Инсайт: относительные суждения (triplet) стабильнее абсолютных рейтингов и для людей, и для LLM. Эксперты между собой показывали корреляцию 0.8+ при достаточном числе triplet-оценок (300-600 штук хватает).
Адаптации и экстраполяции
💡 Адаптация для самопроверки текста:
Вместо "улучши мой текст" → попроси сгенерить 3 версии и выбрать худшую:
Вот мой текст: {текст}
Сгенерируй 3 улучшенных версии.
Затем выбери версию, которая ХУЖЕ остальных передаёт мою главную мысль.
Объясни что именно потерялось или исказилось.
Это покажет на что LLM обращает внимание при "улучшении" — часто теряется суть ради красивости.
💡 Адаптация для сравнения подходов:
Когда выбираешь между стратегиями/подходами:
Вот три подхода к {задача}:
1. {подход A}
2. {подход B}
3. {подход C}
Контекст: {описание ситуации, ограничений, целей}
Выбери подход, который ХУЖЕ остальных решает задачу в этом контексте.
Игнорируй то, насколько он известен или популярен.
Сравнивай только применимость к моей ситуации.
🔧 Техника: Chain triplet comparison → ранжирование
Если вариантов больше трёх — делай цепочку triplet:
Вот 5 вариантов {чего-то}.
Шаг 1: Сравни варианты 1, 2, 3. Выбери худший. Исключи его.
Шаг 2: Сравни оставшиеся два + вариант 4. Выбери худший. Исключи.
Шаг 3: Сравни оставшиеся два + вариант 5. Выбери худший.
В итоге получишь два лучших варианта.
Сравни их напрямую и выбери победителя.
Это длиннее чем "ранжируй все 5", но точнее — каждое решение основано на прямом сравнении трёх, а не на абстрактных баллах.
Ресурсы
IDEAlign: Comparing Large Language Models to Human Experts in Open-ended Interpretive Annotations — Hyunji Nam, Lucia Langlois, James Malamut, Mei Tan, Dorottya Demszky (Stanford University). Github
