3,583 papers
arXiv:2411.15594 94 1 нояб. 2024 г. PRO

Опрос о больших языковых моделях в роли судьи

КЛЮЧЕВАЯ СУТЬ
Для получения надежной оценки от LLM лучше использовать метод парного сравнения ("какой из этих двух вариантов лучше?"), чем просить выставить абсолютную оценку по шкале, так как это больше соответствует человеческому восприятию и снижает когнитивную нагрузку на модель.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с