arXiv:2601.05603 67 9 янв. 2026 г. PRO

LLM как оценщики релевантности: инсайты из TREC Podcast Track

КЛЮЧЕВАЯ СУТЬ

Один человек-оценщик менее надёжен, чем кажется. Множественные LLM могут давать более стабильные оценки релевантности, чем одиночный эксперт. Исследователи взяли 18,284 пары "запрос-документ" из подкастов TREC 2020-2021, которые уже оценили люди, и дали переоценить пяти разным LLM (GPT-4o, Mistral, Qwen, Llama3, Gemma2). Подкасты — сложный материал: автоматическая транскрипция с ошибками, сегменты по 2 минуты, контекст рвётся посреди предложений.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Что здесь?

Это исследование про то, как LLM оценивают релевантность документов по сравнению с людьми. Но есть важный нюанс - это НЕ про технику промптинга, которую можно применить. Это скорее исследование-находка про особенности работы LLM как оценщиков релевантности.

Ключевые моменты:

Использовали 5 разных LLM для оценки релевантности аудио-сегментов подкастов

Сравнивали с человеческими оценками TREC

Главная находка: LLM часто согласуются с людьми ЛУЧШЕ, чем один оценщик TREC согласуется с другими экспертами

Коллекция 2020 - стабильная, коллекция 2021 - нестабильная

LLM возможно благоволят лексическим системам поиска

Что можно применить?

Здесь нет готовой техники промптинга. Но есть инсайты:

Один человек-оценщик может быть менее надёжен, чем LLM

LLM склонны переоценивать релевантность (ставят оценки выше, чем люди)

Для сложных задач (аудио с ошибками транскрипции) LLM всё равно работают

Упоминается промпт в стиле DNA (Description, Narrative, Aspects), но деталей не дают.

Для практического применения это скорее теоретический вывод, чем готовый инструмент. Однако есть один принцип, который можно использовать: когда нужно оценить что-то (качество, релевантность, соответствие требованиям), стоит попросить LLM структурировать ответ с обоснованием в JSON-формате - такая оценка может оказаться надёжнее, чем одна человеческая оценка.

По практической ценности это находится в диапазоне 60-70. Основной минус - нет конкретного промпта, который можно сразу применить, и исследование в большей степени ориентировано на создателей бенчмарков, чем на конечных пользователей. Читатель не получает готовый инструмент для немедленного использования.

Однако есть извлекаемые принципы: применение LLM для оценочных задач с JSON-форматом вывода, плюс понимание того, что коллективная оценка от модели может быть надёжнее единичного человеческого суждения. Это показывает, что языковым моделям можно доверять в оценочных сценариях.

Вероятная оценка: 65-68 - идея есть, но требует доработки для практического применения.

Меню

LLM как оценщики релевантности: инсайты из TREC Podcast Track

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации