3,583 papers
arXiv:2504.06939 95 1 апр. 2025 г. FREE

FeedbackEval: Бенчмарк для оценки больших языковых моделей в задачах исправления кода на основе обратной связи.

КЛЮЧЕВАЯ СУТЬ
Любой промпт должен состоять из трёх обязательных блоков: ЦЕЛЬ (что именно нужно получить), КОНТЕКСТ (вся фоновая информация) и ПРАВИЛА (пошаговые инструкции). Исследование доказало, что такая структура кардинально улучшает качество работы языковых моделей по сравнению с хаотичными запросами.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование систематически сравнивает, как разные типы обратной связи (отчеты об ошибках, комментарии человека, простые указания) и различные структуры промптов влияют на способность LLM исправлять ошибки в программном коде. Авторы измеряют, какие подходы дают наибольший прирост в точности и качестве "ремонта" кода.

Ключевой результат: Структурированный, конкретный фидбек и промпты, содержащие четкое описание цели (docstring), окружающий контекст (context) и прямые инструкции (guidelines), кардинально улучшают качество работы LLM.

🔬

2. Объяснение всей сути метода:

Суть исследования для обычного пользователя сводится к простой, но мощной методике структурирования запросов. Вместо того чтобы писать запрос в свободной, разговорной форме, его следует строить из трех обязательных блоков, которые в исследовании названыdocstring,contextиguidelines.

  1. Цель (аналог docstring): Начинайте промпт с четкого и ясного описания конечной цели. Что вы хотите получить в итоге? Каково предназначение результата? Это задает модели общее направление и семантическое ядро задачи.

  2. Контекст (context): Предоставьте всю необходимую фоновую информацию. Если вы просите написать письмо, дайте информацию о получателе и предыдущей переписке. Если просите составить план, опишите имеющиеся ресурсы и ограничения. Без этого модель будет "додумывать", что часто приводит к ошибкам.

  3. Правила/Инструкции (guidelines): Дайте пошаговые, конкретные указания, которым модель должна следовать. Укажите формат вывода, стиль, ограничения по объему, ключевые моменты, которые нужно осветить или, наоборот, избежать.

Еще один важный вывод касается обратной связи при уточнении ответа. Исследование показало, что структурированная обратная связь (в работе это "test feedback" — отчет о том, какой конкретно тест не пройден) работает гораздо лучше неструктурированной ("human feedback" — общие советы). Для пользователя это означает: вместо того чтобы писать "мне не нравится, переделай", лучше указать: "Ответ не соответствует пункту 3 моих правил: ты превысил лимит в 100 слов и не упомянул нашего главного конкурента".

📌

3. Анализ практической применимости:

*Прямая применимость:Исключительно высокая. Любой пользователь может немедленно начать использовать методику "Цель + Контекст + Правила" в своих промптах для ChatGPT, Claude, GigaChat и других моделей. Это не требует никаких технических навыков и напрямую влияет на качество результата. Принцип "структурированного фидбека" также легко применим при итеративном общении с чат-ботом.

  • Концептуальная ценность: Огромная. Исследование наглядно демонстрирует, что LLM — это не "собеседник", а система, которая лучше всего работает с четко структурированными данными. Оно помогает пользователю перейти от модели "я говорю с человеком" к модели "я составляю техническое задание для исполнителя". Это меняет сам подход к написанию промптов.

  • Потенциал для адаптации: Максимальный. Хотя исследование проводилось на задачах кодирования, его выводы универсальны. Принцип "Цель + Контекст + Правила" является фундаментальным для промпт-инжиниринга и одинаково хорошо работает при написании маркетинговых текстов, составлении юридических документов, планировании путешествий или создании учебных материалов. Механизм адаптации прост: пользователь определяет, что в его задаче является "целью", "контекстом" и "правилами", и оформляет это в виде четких блоков в своем промпте.


🚀

4. Практически пример применения:

Представим, что SMM-менеджер хочет получить от LLM пост для социальной сети о новом продукте.

Ты — опытный SMM-менеджер, который пишет вовлекающие посты для Instagram.
### Цель

Создать короткий, энергичный пост для анонса нашего нового продукта — умной бутылки для воды "AquaFuture". Главная задача — вызвать интерес и мотивировать перейти по ссылке в магазин.

### Контекст

- **Продукт:** "AquaFuture" — бутылка для воды, которая с помощью датчиков отслеживает уровень гидратации пользователя и напоминает о необходимости выпить воды через приложение.
- **Целевая аудитория:** Молодые люди 20-35 лет, ведущие активный образ жизни, интересующиеся здоровьем, фитнесом и технологиями.
- **Платформа:** Instagram. Текст будет сопровождаться ярким видео с демонстрацией бутылки.
- **Предыдущие посты:** Мы обычно используем дружелюбный, но не фамильярный тон.

### Правила и инструкции

1. **Стиль:** Восторженный, мотивирующий, с использованием 2-3 релевантных эмодзи.
2. **Структура:**- Заголовок-крючок (вопрос или интригующее утверждение).
- Основная часть: кратко перечислить 2-3 ключевых преимущества (персонализированные напоминания, стильный дизайн, отслеживание прогресса).
- Четкий призыв к действию (CTA): "Узнай больше и закажи свою AquaFuture по ссылке в профиле!"
3. **Объем:** Не более 150 слов.
4. **Хештеги:** Подбери 5 релевантных хештегов (например, #гаджеты #здоровье #фитнес).
5. **Что НЕ делать:** Не использовать сложные технические термины.

### Критерии успеха (аналог "test feedback")

- Пост должен быть понятен человеку, который ничего не знает о продукте.
- Призыв к действию должен быть в конце и только один.
- Хештеги должны быть отделены от основного текста пустой строкой.
🧠

5. Почему это работает:

Этот промпт эффективен, потому что он в точности следует выводам исследования:

* ### Цель — это аналог docstring. Он сразу задает модели высокоуровневую задачу и ее смысл, что, как показало исследование, критически важно для понимания намерения.
* ### Контекст — предоставляет всю фоновую информацию (context), без которой модель была бы вынуждена гадать о продукте и аудитории. Исследование показало, что удаление контекста резко снижает качество результата.
* ### Правила и инструкции — это аналог guidelines. Этот блок дает четкие, пошаговые указания, которые ограничивают "креативность" модели в нужных рамках и направляют ее к желаемому формату.
* ### Критерии успеха — это применение идеи structured feedback наперед. Мы даем модели четкие и проверяемые условия, которым должен соответствовать результат, что имитирует самый эффективный тип обратной связи из исследования.


📌

6. Другой пример практического применения

Задача: пользователь хочет спланировать поездку и просит LLM составить маршрут.

Ты — опытный турагент, специализирующийся на индивидуальных путешествиях по Европе.
### Цель

Составить детальный план 3-дневной поездки в Рим для двух взрослых. План должен быть сбалансированным, сочетая культурные достопримечательности и отдых.

### Контекст

- **Путешественники:** Пара, 30-35 лет. Впервые в Риме.
- **Интересы:** История, архитектура, вкусная еда (особенно паста и джелато), неспешные прогулки. Не любят спешку и огромные толпы.
- **Бюджет:** Средний. Готовы платить за входные билеты, но предпочитают недорогие, аутентичные рестораны, а не мишленовские.
- **Время поездки:** Начало мая.
- **Проживание:** Отель в районе Трастевере.

### Правила и инструкции

1. **Формат вывода:** Представь план в виде таблицы с колонками: "День", "Время (примерное)", "Мероприятие/Достопримечательность", "Краткое описание и советы".
2. **Структура по дням:**- **День 1:** Прибытие, заселение, вечерняя прогулка по Трастевере, ужин.
- **День 2:** Основные античные достопримечательности (Колизей, Форум). Важно: предложи способ избежать очередей (например, покупка билетов онлайн).
- **День 3:** Ватикан (Собор Св. Петра, Музеи). После обеда — более спокойное занятие, например, прогулка по вилле Боргезе.
3. **Рекомендации по еде:** Для каждого дня предложи по 1-2 варианта проверенных мест для обеда или ужина в соответствующем районе (название и тип кухни).
4. **Логистика:** Учитывай пешую доступность объектов друг от друга. Если нужен транспорт, укажи это.

### Критерии успеха

- План должен быть реалистичным для выполнения без спешки.
- Все предложенные рестораны должны иметь хорошие отзывы и средний ценовой диапазон.
- Для каждой основной достопримечательности должен быть практический совет (например, о билетах).
🧠

7. Объяснение механизма почему этот пример работает.

Механизм успеха этого промпта идентичен предыдущему и основан на ключевых выводах исследования:

* ### Цель задает глобальную задачу, предотвращая создание слишком общего или нерелевантного плана.
* ### Контекст предоставляет модели критически важные данные о "пользователях" (путешественниках), их предпочтениях и ограничениях. Без этого модель предложила бы стандартный, безличный тур, который не отвечал бы запросу "избегать толп" или "аутентичные рестораны".
* ### Правила и инструкции жестко структурируют ответ. Требование представить результат в виде таблицы (guidelines по формату) и разбить план по дням заставляет LLM генерировать информацию последовательно и логично, а не потоком сознания.
* ### Критерии успеха выступают в роли внутреннего "теста качества", заставляя модель проверить свой же ответ на соответствие ключевым требованиям (реалистичность, качество ресторанов, наличие советов), что повышает итоговую точность и полезность ответа.


📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да. Исследование напрямую анализирует, какие компоненты промпта (контекст, инструкции, цель) и типы обратной связи наиболее эффективны.
  • B. Улучшение качества ответов: Да. Вся работа посвящена измерению точности исправления ошибок (качества ответа) в зависимости от промпта.
  • C. Прямая практическая применимость: Да. Основные выводы можно применять немедленно, без кода и специальных инструментов, просто изменив структуру своих текстовых запросов.
  • D. Концептуальная ценность: Да. Исследование отлично раскрывает "ментальную модель" LLM: она лучше работает со структурированной информацией и четкими целями, чем с размытыми инструкциями. Оно объясняет, почему важно предоставлять полный контекст.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • Кластер 3 (Оптимизация структуры промптов): Это основной вклад. Доказана критическая важность docstrings (описание цели), context (контекстная информация) и guidelines (инструкции).
    • Кластер 2 (Поведенческие закономерности LLM): Выявлено, что структурированный фидбек (аналог четких критериев) работает лучше неструктурированного, а простой приказ "исправь ошибку" может быть эффективнее размытых человеческих советов.
    • Кластер 7 (Надежность и стабильность): Методы направлены на повышение точности и надежности генерируемого результата.
  • Чек-лист практичности (+15 баллов):
    • Показывает, как структурировать сложные запросы? ДА.
    • Раскрывает неочевидные особенности поведения LLM? ДА.
    • Предлагает способы улучшить consistency/точность ответов? ДА.
📌

2 Цифровая оценка полезности

Аргументы в пользу высокой оценки (95/100): Исследование предоставляет одну из самых фундаментальных и практически применимых рекомендаций для любого пользователя LLM: успешный промпт должен содержать три ключевых элемента: цель, контекст и четкие инструкции. Это подтверждено эмпирически. Вывод о том, что структурированная обратная связь (аналог четких критериев) превосходит неструктурированную (размытые просьбы), дает пользователю прямое руководство к действию: будьте конкретны, давайте измеримые критерии, и результат будет лучше. Это знание мгновенно улучшает качество взаимодействия с любой LLM.

Контраргументы (почему оценка могла бы быть ниже):

* Узкая область применения: Все эксперименты проводятся в специфической сфере — исправление ошибок в коде на Python. Нетехнический пользователь может посчитать, что эти выводы нерелевантны для написания текстов или анализа данных. Требуется небольшой мыслительный скачок, чтобы перенести принципы "исправления кода" на "улучшение любого текста".
* Неоднозначные выводы по CoT и Few-shot: Работа утверждает, что Chain-of-Thought и Few-shot примеры дают минимальный эффект. Это может сбить с толку пользователя, который из других источников знает, что эти техники очень мощные. Важно понимать, что в данном исследовании они оказались неэффективны в конкретном сценарии (одноитерационное исправление с уже имеющимся подробным фидбеком), но это не отменяет их полезности в других задачах.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с