3,583 papers
arXiv:2601.22025 74 29 янв. 2026 г. PRO

Evaluation-Driven Iteration: почему "улучшенные" промпты могут ухудшить результаты

КЛЮЧЕВАЯ СУТЬ
Парадокс: Добавил к промпту популярную «лучшую практику» — точность упала с 100% до 90%. Исследователи взяли специализированные промпты для извлечения данных и добавили модный wrapper «ты полезный ассистент» с набором общих правил. Результат: точность извлечения рухнула со 100% до 90%, соблюдение ограничений в RAG-системах — с 93% до 80%. При этом следование общим инструкциям улучшилось на 13%. Метод Golden Set позволяет не ломать работающие промпты при попытке их «улучшить». Создаёшь набор из 20-50 типичных примеров своей задачи, прогоняешь старый и новый промпт, сравниваешь построчно. Если «улучшение» сломало точность на конкретных кейсах — видишь это ДО того как внедрил в работу.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с