3,583 papers
arXiv:2505.23126 85 1 мая 2025 г. FREE

PBEBench - Многошаговый программный бенчмарк на основе примеров, основанный на исторической лингвистике.

КЛЮЧЕВАЯ СУТЬ
даже самые продвинутые LLM плохо справляются с этой задачей, особенно когда правила нужно применять в строго определенном порядке и они мешают или помогают друг другу неявным образом.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследователи проверяли, насколько хорошо большие языковые модели справляются с решением головоломки: по набору примеров "до" и "после" угадать точную последовательность правил "найти и заменить", которые превращают одно в другое. Эта задача, вдохновленная исторической лингвистикой, требует от модели не просто креативности, а строгого логического планирования.

Ключевой результат: даже самые продвинутые LLM плохо справляются с этой задачей, особенно когда правила нужно применять в строго определенном порядке и они мешают или помогают друг другу неявным образом.

🔬

2. Объяснение всей сути метода:

Суть подхода, который тестируется в исследовании, заключается в технике"Программирование по примерам" (Programming by Example - PBE). Вместо того чтобы описывать LLM правила трансформации текста словами (например, "сделай все должности в именительном падеже и убери приставки"), вы показываете ей несколько конкретных примеров "входных данных" и "желаемых выходных данных".

Модель должна сама проанализировать примеры и вывести (индуцировать) правила, которые привели к такому результату.

Исследование показывает, что LLM действительно могут это делать, но их способность к такому "обратному инжинирингу" логики сильно зависит от сложности задачи: 1. Длина цепочки правил (Cascade length): Чем больше последовательных замен нужно сделать, тем чаще модель ошибается. 2. Взаимодействие правил: Самое сложное для моделей — это "непрозрачные" (opaque) отношения между правилами. Например, когда правило А создает условия для применения правила Б (это просто), но еще сложнее, когда нужно догадаться, что если бы правило Б применили до правила А, то результат был бы другим (это сложно).

Для пользователя это означает, что PBE — мощный метод, но для сложных, многоступенчатых задач на него нельзя полагаться слепо. Модель может не уловить тонкую логику и порядок операций.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь может немедленно использовать этот паттерн. Нужно лишь четко структурировать промпт, предоставив два списка:### Inputsи### Outputs. Это идеально подходит для задач по очистке и форматированию данных, когда у вас есть много однотипных, но "грязных" строк, и вы хотите привести их к единому стандарту.

  • Концептуальная ценность: Главный урок — LLM не являются надежными логическими машинами. Они хорошо справляются с задачами, которые можно решить "в один шаг" или где шаги независимы. Но как только появляется строгая последовательность и взаимозависимость, их производительность резко падает. Это учит пользователя декомпозиции: вместо одного сложного PBE-запроса лучше сделать несколько простых и последовательных.

  • Потенциал для адаптации: Метод универсален. Вместо лингвистических правил можно подставить любые другие.

    • Адаптация: Пользователь берет свою задачу (например, стандартизация ФИО из разных форматов в один) -> готовит 5-7 пар примеров "как есть" и "как надо" -> вставляет их в шаблон промпта из исследования -> просит модель сгенерировать правило или просто обработать по этому образцу новый набор данных.

🚀

4. Практически пример применения:

Тебе будет предоставлен список названий должностей в том виде, в котором их ввели пользователи, и список тех же должностей, приведенных к стандартному виду.
Твоя задача — проанализировать эти примеры и вывести последовательность правил `replace()`, которые выполняют такую стандартизацию. После этого примени эти правила к новому списку должностей в разделе "НОВЫЕ ДАННЫЕ".

### Пример Inputs:

["ст. менеджер по продажам", "Ведущий специалист", "ген. директор", "Руководитель отдела (Маркетинг)", "Product manager"]

### Пример Outputs:

["Менеджер", "Специалист", "Директор", "Руководитель", "Менеджер"]

### Последовательность программ (правил):

Тут ты должен сгенерировать правила.

Теперь, основываясь на выведенных тобой правилах, обработай следующий список.

### НОВЫЕ ДАННЫЕ:

- "зам. генерального директора"
- "Младший специалист поддержки"
- "Chief executive officer"
- "Простой менеджер"
- "Руководитель (IT-отдел)"

### РЕЗУЛЬТАТ:

<тут должен быть твой ответ в виде списка>

🧠

5. Почему это работает:

Этот промпт работает за счет нескольких механизмов, выявленных в исследовании:

  1. Индуктивное рассуждение по примерам (PBE): Вместо абстрактной инструкции "упрости должности", мы даем модели конкретные пары "до/после". Это заставляет ее искать закономерности и выводить правила, что гораздо эффективнее для такого типа задач.
  2. Структурирование запроса: Четкие разделы ### Inputs, ### Outputs и ### НОВЫЕ ДАННЫЕ помогают модели понять структуру задачи и не смешивать примеры с рабочими данными.
  3. Принуждение к системному мышлению: Запрос не просто просит конечный результат, а требует сначала сформулировать "программу" (последовательность правил). Это заставляет модель действовать более системно и логично, а не полагаться на поверхностные аналогии. Это имитация "Chain-of-Thought", но для задачи извлечения правил.

📌

6. Другой пример практического применения

Твоя задача — помочь мне привести библиографические ссылки к единому формату. Я покажу тебе несколько примеров того, как ссылки выглядят сейчас, и как они должны выглядеть в итоге.
Проанализируй эти примеры и объясни логику форматирования. Затем отформатируй по этому образцу новые ссылки.

### Inputs (как есть):

[
"Иванов И.И. Статья о промптах. 2023. Журнал 'Нейросети сегодня'",
"Петров П. (2022). Книга 'Искусственный интеллект для всех'. Москва: Издательство 'Наука'",
"Сидорова А., 'Будущее LLM', Конференция AI-Future 2024"
]

### Outputs (как должно быть):

[
"Иванов И.И. Статья о промптах // Нейросети сегодня. – 2023.",
"Петров П.П. Искусственный интеллект для всех. – М.: Наука, 2022.",
"Сидорова А.А. Будущее LLM // Материалы конференции AI-Future. – 2024."
]

Теперь, пожалуйста, отформатируй следующие ссылки в точном соответствии с логикой из примеров.

### НОВЫЕ ДАННЫЕ:

- "Кузнецов В. 'Обзор архитектуры Трансформер', 2021, AI-Weekly Review"
- "Смирнова О. (2020) Монография 'Этика ИИ'. Спб, издательство 'Прогресс'"
- "Гусев К., статья 'Применение Диффузионных моделей', журнал 'Компьютерная графика и дизайн', №4, 2023"

### РЕЗУЛЬТАТ:

<тут твой отформатированный список>

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример эффективен, потому что он полностью полагается на способность LLM к распознаванию паттернов, что является одной из их сильнейших сторон, и применяет метод PBE.

  1. Обучение в контексте (In-context Learning): Предоставленные пары "Input/Output" работают как few-shot примеры. Модель не просто видит конечную цель, она "обучается" на лету правилам трансформации: как обрабатывать фамилию и инициалы, какой разделитель ставить, где указывать год, как форматировать название издательства или журнала.
  2. Снижение неоднозначности: Словесное описание правил форматирования (например, "Фамилия, потом инициалы, потом название через точку, потом двойной слэш...") было бы длинным, сложным и могло бы быть истолковано неверно. Примеры же абсолютно однозначны. Модель видит конечный результат и стремится воспроизвести его структуру.
  3. Фокус на структуре, а не на содержании: Модели не нужно понимать смысл статей или книг. Ей нужно лишь распознать структурные элементы (Автор, Название, Год, Источник) и переставить их в новом порядке с новыми разделителями. PBE-подход идеально для этого подходит, так как он акцентирует внимание именно на структурных преобразованиях.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование демонстрирует и тестирует мощный паттерн "Программирование по примерам" (PBE), предоставляя наглядный шаблон промпта.
  • B. Улучшение качества диалоговых ответов: Косвенно. Исследование не про диалоги, а про решение сложных задач. Но понимание его выводов помогает пользователю формулировать более реалистичные и структурированные запросы для сложных задач, что повышает шанс на успех.
  • C. Прямая практическая применимость: Высокая. Метод "программирования по примерам" можно применять для широкого круга задач (очистка данных, форматирование текста) без каких-либо специальных инструментов, прямо в чате.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще вскрывает фундаментальные ограничения современных LLM в области многошагового логического вывода, особенно когда шаги влияют друг на друга.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • (1) Техники формулирования промптов (используется паттерн PBE).
    • (2) Поведенческие закономерности LLM (анализируется влияние длины цепочки рассуждений и взаимозависимости правил).
    • (3) Оптимизация структуры промптов (показан пример хорошо структурированного запроса).
    • (5) Извлечение и структурирование (цель — получить на выходе последовательность программных команд).
    • (7) Надежность и стабильность (все исследование посвящено оценке надежности LLM в решении этого класса задач).
  • Чек-лист практичности: Дает готовые конструкции, показывает как структурировать сложные запросы и раскрывает неочевидные особенности поведения LLM. (+15 баллов).
📌

2 Цифровая оценка полезности

Исследование получает 85 баллов, так как оно предоставляет не просто "еще один трюк", а раскрывает суть мощнейшего и универсального паттерна промптинга — "Программирование по примерам" (Programming by Example, PBE). Оно дает как конкретный шаблон для немедленного применения, так и глубокое концептуальное понимание того, почему LLM терпят неудачу в задачах, требующих строгого последовательного рассуждения.

Аргументы в пользу оценки:

* Прямая польза: Пользователь может взять структуру промпта из исследования (раздел B.2) и адаптировать ее для своих задач: отформатировать список адресов, стандартизировать названия товаров, очистить данные из таблицы. Это готовый, работающий инструмент.
* Концептуальная ценность: Вывод о том, что даже лучшие модели (Claude 3.7 Sonnet с 54% успеха) плохо справляются с задачами, где порядок действий критически важен и действия влияют друг на друга ("непрозрачные" связи), — это золотой инсайт. Он учит пользователя не доверять LLM сложные многоступенчатые инструкции "в лоб", а разбивать их на более простые и независимые шаги.
* Объяснение сложности: Исследование доказывает, что сложность для LLM определяется не столько темой, сколько структурой задачи: количеством шагов ("cascade length") и их взаимозависимостью. Это помогает пользователю "диагностировать" свои промпты.

Контраргументы (почему оценка могла быть ниже или выше):

* Почему не 90+: Исследование написано сложным академическим языком (термины из лингвистики "feeding", "bleeding"), что затрудняет его понимание для широкой аудитории. Его основная цель — создание бенчмарка, а не обучение пользователей промптингу. Чтобы извлечь пользу, нужно продраться через научную часть.
* Почему не 60-70: Несмотря на академичность, практические выводы и демонстрируемый паттерн слишком ценны, чтобы ставить низкую оценку. Это не теоретизирование, а стресс-тест реальной и очень полезной техники промптинга, результаты которого должен знать каждый продвинутый пользователь.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с