3,583 papers
arXiv:2509.02855 74 2 сент. 2025 г. FREE

Triplet Comparison в промптах: относительные суждения вместо абсолютных оценок

КЛЮЧЕВАЯ СУТЬ
LLM плохо справляется с абсолютными оценками — 'оцени от 1 до 10' даёт размытые результаты, шкала скачет от запроса к запросу. Метод triplet comparison позволяет получать на 9-30% более точные оценки через относительные суждения вместо абсолютных. Вместо 'оцени качество' даёшь три варианта и просишь выбрать худший — модели не нужна внутренняя шкала, достаточно прямого сравнения. Результат: чёткий выбор с обоснованием вместо абстрактных баллов.
Адаптировать под запрос

TL;DR

IDEAlign — исследовательский метод для оценки LLM, но главная находка применима в ваших промптах: когда нужна оценка или выбор, формат "выбери лишнее из трёх" (triplet comparison) работает на 9-30% лучше, чем просьба дать оценку по шкале или бинарное сравнение. Относительные суждения ("что хуже из трёх?") надёжнее абсолютных ("оцени от 1 до 10").

Исследователи из Stanford проверяли, насколько LLM похожи на экспертов при оценке студенческих работ. Тестировали разные способы измерить схожесть: лексические метрики (BLEU), эмбеддинги текстов, топик-моделирование, LLM-as-a-judge. Эмбеддинги проваливаются — легко обмануть простой сменой стиля с неформального на формальный: схожесть взлетает на 20-85%, хотя смысл не поменялся. Эмбеддинги ловят длину, тон, стиль — не идеи.

LLM-as-a-judge в формате triplet ("выбери самый непохожий из трёх") показал лучшее совпадение с экспертными оценками. Причина: относительные суждения когнитивно проще и надёжнее. Вместо "насколько похожи A и B по шкале 0-1?" LLM решает более чёткую задачу: "что лишнее — A, B или C?". Меньше двусмысленности, точнее результат.

📌

Применимые принципы

Хотя IDEAlign — это метод для исследователей, из него вытекают три принципа для работы в чате:

📌

1. Triplet comparison для выбора лучшего

Когда нужно выбрать лучший вариант или оценить качество — попроси сгенерировать 3 варианта и выбрать лучший (или худший). Это работает лучше чем "оцени от 1 до 10" или "сравни A и B".

Промпт:

Сгенерируй 3 варианта {описание задачи}.

Затем выбери самый слабый вариант по критерию {критерий}.
Объясни почему он слабее остальных.

Пример:

Сгенерируй 3 варианта заголовка для статьи о том, как удалёнка влияет 
на продуктивность разработчиков.

Затем выбери самый слабый вариант по критерию: 
"насколько заголовок цепляет и обещает конкретную пользу".
Объясни почему он слабее остальных.
📌

2. Относительные суждения надёжнее абсолютных

Вместо "оцени от 1 до 10" или "дай процент уверенности" — используй сравнительный формат. LLM лучше справляются с относительными оценками.

Слабо:

Оцени убедительность этого аргумента от 1 до 10

Сильно:

Вот три аргумента. Выбери наименее убедительный и объясни почему.
📌

3. "Сравни по идеям, не по стилю"

Когда сравниваешь тексты или оцениваешь схожесть — явно укажи сравнивать смысл, не форму. Без этого LLM может зациклиться на длине, тоне, формальности.

Промпт:

Сравни эти два текста по смыслу и ключевым идеям.
Игнорируй различия в стиле, тоне, длине и формулировках.
Сфокусируйся на том, говорят ли они об одном и том же по сути.
🚀

Пример применения

Задача: Выбрать лучшую бизнес-идею из трёх, которые ты набросал для нового SaaS-продукта.

Промпт:

Вот три идеи для SaaS-продукта:

1. {идея 1}
2. {идея 2} 
3. {идея 3}

Оцени их по критерию: "Насколько идея решает реальную боль клиентов, 
а не выдуманную проблему".

Выбери самую слабую идею по этому критерию. 
Объясни конкретно: какую боль она НЕ решает или решает плохо.

Результат: Модель выберет слабейшую идею и объяснит почему — не в абстрактных баллах, а через конкретное сравнение с остальными. Ты увидишь не "идея 2 получает 7 из 10", а "идея 2 хуже потому что..." с прямым контрастом.


Вариант для самокритики:

Сгенерируй 3 версии моего текста с улучшениями.
Затем выбери версию, которая ХУЖЕ остальных передаёт главную мысль.
Объясни что именно потерялось.

Это заставит LLM не просто генерить варианты, а явно сравнивать их между собой — точнее чем просто "улучши текст".

🧠

Почему это работает

Абсолютные оценки когнитивно сложны. "Насколько хорош этот текст от 1 до 10?" — непонятно. Что такое 7? А 8? Разные люди (и модели) калибруют шкалу по-разному.

Относительные суждения проще и надёжнее. "Что хуже — A, B или C?" — чёткая задача с однозначным ответом. Не нужна внутренняя шкала, достаточно прямого сравнения.

LLM, как и люди, лучше справляются с попарным/тройным сравнением, чем с оценкой в вакууме. Triplet format использует эту особенность: вместо "оцени текст" даём "сравни три текста и выбери лишний".

Дополнительно: формат triplet снижает влияние стилистических факторов. Когда LLM сравнивает три текста одновременно, она фокусируется на отличиях — и вероятнее заметит смысловые, а не косметические различия.

📋

Шаблон промпта

Для выбора лучшего/худшего варианта:

Сгенерируй 3 варианта {описание задачи: текста/идеи/решения}.

Критерий оценки: {конкретный критерий, например "решает боль клиента", 
"понятность для новичка", "оригинальность подхода"}.

Выбери самый слабый/сильный вариант по этому критерию.
Объясни почему он слабее/сильнее остальных двух.

Для сравнения существующих вариантов:

Вот три {текста/идеи/аргумента}:
1. {вариант A}
2. {вариант B}
3. {вариант C}

Критерий: {что важно, например "глубина анализа", "практическая польза"}.

Выбери вариант, который ХУЖЕ остальных по этому критерию.
Игнорируй стиль, тон и длину. Сравнивай только по смыслу.
Объясни конкретно: чего не хватает в выбранном варианте по сравнению с двумя другими.

Плейсхолдеры:

  • {описание задачи} — что нужно сгенерировать
  • {критерий} — по чему оценивать (одна чёткая штука, не список)
  • {вариант A/B/C} — тексты для сравнения

Ключевое: один чёткий критерий. Если критериев много — делай отдельные triplet comparison на каждый.

⚠️

Ограничения

⚠️ Требует генерации трёх вариантов: Метод работает только если есть три варианта для сравнения. Если у тебя один текст — сначала попроси сгенерить альтернативы.

⚠️ Не заменяет экспертизу: LLM выбирает лучший/худший из трёх, но это не значит что её оценка правильная. Это просто надёжнее чем абсолютные баллы. Финальное решение — за тобой.

⚠️ Один критерий за раз: Если критериев несколько (и "убедительность", и "понятность", и "оригинальность") — делай отдельные triplet comparison на каждый. Смешивание критериев размывает суждение.

🔍

Как исследовали

Команда из Stanford взяла два реальных кейса из образования: (1) оценка математических рассуждений учеников и (2) фидбек на эссе. Эксперты-педагоги (10 учителей математики, 7 учителей английского) делали аннотации. LLM (ChatGPT, Claude) делали те же аннотации.

Затем других экспертов попросили сравнивать тройки аннотаций (человек-человек-LLM, LLM-LLM-человек, все комбинации) и выбирать "самую непохожую" по критерию "какое изменение предлагается в работе ученика" (для фидбека) или "что говорит аннотация о понимании ученика" (для математики). Собрали 640 triplet-оценок для математики, 458 для эссе.

Потом проверили автоматические метрики схожести: BLEU (лексическое совпадение), 16 моделей эмбеддингов (Sentence-BERT, GPT-2, ModernBERT, ada и др.), топик-моделирование (BERTopic, LDA), LLM-as-a-judge в трёх форматах (бинарное сравнение, непрерывная шкала 0-1, triplet).

Результаты удивили: эмбеддинги показали корреляцию с экспертами от -0.058 до 0.563 — часто почти ноль или вообще отрицательную. Когда взяли два текста с низкой схожестью по мнению экспертов и просто переписали их формально (без изменения смысла) — схожесть по эмбеддингам взлетела на 20-85%. Эмбеддинги ловят стиль, не идеи.

LLM-as-a-judge с triplet format показал корреляцию 0.618-0.683 — на 30% выше лучшего эмбеддинга для математики, на 9% для фидбека. Binary и continuous форматы работали хуже. Модели Claude Sonnet 4 и GPT-4.1 одинаково хороши с triplet format.

Неожиданность: добавление контекста (тема урока, цель эссе) не улучшило LLM-as-a-judge, иногда ухудшило. Возможно, LLM не хватает педагогической экспертизы чтобы правильно использовать контекст. Человеческие эксперты говорили что контекст полезен — для LLM пока не так.

Инсайт: относительные суждения (triplet) стабильнее абсолютных рейтингов и для людей, и для LLM. Эксперты между собой показывали корреляцию 0.8+ при достаточном числе triplet-оценок (300-600 штук хватает).

💡

Адаптации и экстраполяции

💡 Адаптация для самопроверки текста:

Вместо "улучши мой текст" → попроси сгенерить 3 версии и выбрать худшую:

Вот мой текст: {текст}

Сгенерируй 3 улучшенных версии.

Затем выбери версию, которая ХУЖЕ остальных передаёт мою главную мысль.
Объясни что именно потерялось или исказилось.

Это покажет на что LLM обращает внимание при "улучшении" — часто теряется суть ради красивости.


💡 Адаптация для сравнения подходов:

Когда выбираешь между стратегиями/подходами:

Вот три подхода к {задача}:
1. {подход A}
2. {подход B}
3. {подход C}

Контекст: {описание ситуации, ограничений, целей}

Выбери подход, который ХУЖЕ остальных решает задачу в этом контексте.
Игнорируй то, насколько он известен или популярен. 
Сравнивай только применимость к моей ситуации.

🔧 Техника: Chain triplet comparison → ранжирование

Если вариантов больше трёх — делай цепочку triplet:

Вот 5 вариантов {чего-то}.

Шаг 1: Сравни варианты 1, 2, 3. Выбери худший. Исключи его.
Шаг 2: Сравни оставшиеся два + вариант 4. Выбери худший. Исключи.
Шаг 3: Сравни оставшиеся два + вариант 5. Выбери худший.

В итоге получишь два лучших варианта.
Сравни их напрямую и выбери победителя.

Это длиннее чем "ранжируй все 5", но точнее — каждое решение основано на прямом сравнении трёх, а не на абстрактных баллах.

🔗

Ресурсы

IDEAlign: Comparing Large Language Models to Human Experts in Open-ended Interpretive Annotations — Hyunji Nam, Lucia Langlois, James Malamut, Mei Tan, Dorottya Demszky (Stanford University). Github


📋 Дайджест исследования

Ключевая суть

LLM плохо справляется с абсолютными оценками — 'оцени от 1 до 10' даёт размытые результаты, шкала скачет от запроса к запросу. Метод triplet comparison позволяет получать на 9-30% более точные оценки через относительные суждения вместо абсолютных. Вместо 'оцени качество' даёшь три варианта и просишь выбрать худший — модели не нужна внутренняя шкала, достаточно прямого сравнения. Результат: чёткий выбор с обоснованием вместо абстрактных баллов.

Принцип работы

Не заставляй модель калибровать шкалу — дай сравнить три варианта. Относительные суждения ('что хуже из трёх?') проще для модели чем абсолютные ('оцени от 1 до 10'). Модель видит конкретную задачу: найти отличия между А, Б и В, выбрать лишний — вместо абстрактного 'насколько хорош А?'. Triplet format превращает размытую оценку в чёткое сравнение.

Почему работает

Абсолютные шкалы субъективны — что такое '7 из 10'? Модель (как и человек) не знает где граница между 6 и 7, каждый раз калибрует по-своему. Фишка: относительное суждение однозначно — из трёх вариантов один точно хуже остальных. Не нужна калибровка шкалы, только прямое сравнение. Точность совпадения с экспертными оценками выросла на 9-30% по сравнению с оценками по шкале и бинарным сравнением.

Когда применять

Выбор лучшего варианта → конкретно для оценки идей, текстов, аргументов, решений, особенно когда нужно выбрать одно из нескольких или отсеять слабое. НЕ подходит для задач где нужна абсолютная метрика (точный процент вероятности, численная оценка риска в цифрах).

Мини-рецепт

1. Подготовь три варианта: сгенерируй через модель или выбери из существующих
2. Задай один чёткий критерий: не список параметров, а конкретная штука — 'решает боль клиента', 'понятность для новичка', 'оригинальность подхода'
3. Попроси выбрать худший/лучший: Выбери самый слабый вариант по критерию X. Объясни конкретно: почему он слабее остальных двух.
4. Игнорируй стиль: добавь Игнорируй различия в стиле, тоне, длине — сравнивай только по смыслу если оцениваешь тексты

Примеры

[ПЛОХО] : Оцени эту бизнес-идею от 1 до 10 по критерию жизнеспособности
[ХОРОШО] : Вот три бизнес-идеи для SaaS: {идея А}, {идея Б}, {идея В}. Критерий: решает реальную боль клиентов, а не выдуманную проблему. Выбери самую слабую идею. Объясни конкретно: какую боль она НЕ решает или решает хуже по сравнению с остальными двумя.
Источник: IDEAlign: Comparing Large Language Models to Human Experts in Open-ended Interpretive Annotations
ArXiv ID: 2509.02855 | Сгенерировано: 2026-01-12 02:53

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с