3,583 papers
arXiv:2505.15055 78 1 мая 2025 г. PRO

Потерянные в бенчмарках: переосмысление оценки больших языковых моделей с использованием теории отклика на предметы.

КЛЮЧЕВАЯ СУТЬ
Применение принципов ПСИХОМЕТРИКИ (науки о тестировании людей) к оценке промптов для LLM. Вместо обвинения модели в плохих ответах, анализируй свой промпт по четырем критериям: сложность, различительная способность, вероятность угадывания и выполнимость. Твой промпт — это тестовое задание для модели, и его качество определяет качество ответа.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с