3,583 papers
arXiv:2508.14323 65 25 авг. 2025 г. FREE

За пределами семантического сходства: сокращение ненужных вызовов API с помощью ретривера, согласованного с поведением

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM в режиме few-shot копирует не смысл примеров, а их поведенческий паттерн — если примеры показывают разную логику действий (один использует API, другой нет), модель теряется и принимает неверные решения. Метод позволяет резко повысить точность работы LLM-агентов — они перестают делать ненужные вызовы API или пропускать нужные. Суть: подбирай примеры не по теме, а по единому паттерну действий — если хочешь, чтобы модель использовала инструмент, все примеры должны показывать его использование. Результат: снижение ошибок на 23-35% в задачах принятия решений.
Адаптировать под запрос
📌

Ключевые аспекты исследования:

Исследование решает проблему, когда LLM-агенты неправильно решают, нужно ли использовать внешний инструмент (например, поиск в интернете или калькулятор). Авторы создали специальный "умный фильтр" (Behavior-Aligned Retriever), который подбирает для LLM примеры для подражания, согласованные по "поведению" — то есть, в примерах либо всегда используется инструмент, либо никогда. Это помогает LLM принять верное решение, снижая количество ошибок и ненужных действий.

Ключевой результат: Предоставление LLM согласованных по поведению примеров (few-shot) резко повышает точность принятия решений о необходимости использования внешних инструментов.


🔬

Объяснение всей сути метода:

Суть метода, переведенная на язык практического промпт-инжиниринга, заключается в принципе "Не смешивай сигналы".

Представьте, что вы учите стажера выполнять задачу, показывая ему примеры. * Плохой подход (семантическое сходство): Вы даете ему три примера на одну тему. В первом примере для решения он звонит клиенту, во втором — ищет в Google, а в третьем — отвечает сам на основе своих знаний. Стажер запутается, какой путь правильный. * Хороший подход (поведенческое согласование): Вы хотите, чтобы он научился искать в Google. Вы даете ему три разных примера, где для решения каждой задачи он должен был зайти в Google. Теперь он понимает не только что делать, но и как.

Исследование автоматизирует этот "хороший подход". Их система BAR — это автоматический наставник, который для текущего запроса пользователя находит в базе не просто похожие по теме примеры, а примеры с одинаковой логикой решения (поведением).

Для обычного пользователя это означает: когда вы используете в промпте примеры (few-shot prompting), их главная ценность — не в тематической близости к вашему вопросу, а в демонстрации одинакового способа рассуждения или действия. Если вы хотите, чтобы модель извлекла данные в JSON, все ваши примеры должны показывать извлечение в JSON. Если вы хотите, чтобы модель написала креативный текст по определенной формуле, все ваши примеры должны следовать этой формуле.

Методика для пользователя: 1. Определите желаемое "поведение" LLM: Что именно вы хотите, чтобы модель сделала? (например, "проанализировать текст и выделить плюсы и минусы", "написать пост в стиле X", "перевести технический термин простыми словами"). 2. Подберите 2-3 примера: Найдите или придумайте примеры, где задача решается с помощью именно этого поведения. 3. Проверьте согласованность: Убедитесь, что все примеры демонстрируют один и тот же паттерн мышления и структуру ответа. Отбросьте красивые, но "поведенчески" отличающиеся примеры. 4. Сформулируйте промпт: Дайте модели эти согласованные примеры перед основной задачей.

Вы становитесь "ручным" Behavior-Aligned Retriever.


📌

Анализ практической применимости:

  • Прямая применимость: Нулевая. Пользователь не может обучить и внедрить retriever-модель в интерфейс ChatGPT. Это чисто инженерный подход.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную "ментальную модель" для отладки промптов. Если few-shot промпт не работает, первая гипотеза для проверки — "а не смешал ли я сигналы?". Это объясняет, почему иногда добавление, казалось бы, хорошего примера в промпт только ухудшает результат. Концепция: LLM в режиме few-shot больше копирует процесс, чем понимает суть.

  • Потенциал для адаптации: Огромный. Технический метод легко адаптируется в ручную практику. Вместо автоматического подбора примеров с помощью нейросети, пользователь делает это сам, но осознанно. Механизм адаптации: Пользователь перестает гнаться за семантически (по теме) близкими примерами и начинает подбирать примеры, которые идеально демонстрируют нужный шаблон рассуждений и формат вывода.


🚀

Практически пример применения:

Предположим, вы маркетолог и хотите, чтобы LLM генерировала "кликбейтные", но интригующие заголовки для статей в блог по единой формуле: "Проблема, о которой вы не знали + Неожиданное решение".

Ты — опытный копирайтер, специализирующийся на создании вирусных заголовков. Твоя задача — придумать заголовок для статьи на заданную тему.

Ты должен строго следовать формуле: **"Вы думали [распространенное заблуждение]? На самом деле [шокирующая правда или новый подход]."**

Вот несколько примеров, демонстрирующих этот стиль:

**Пример 1:**
*   **Тема:** Прокрастинация
*   **Заголовок:** Вы думали, что боретесь с ленью? На самом деле ваше тело спасает вас от выгорания.

**Пример 2:**
*   **Тема:** Утренний кофе
*   **Заголовок:** Вы думали, что кофе по утрам бодрит? На самом деле он может красть вашу энергию на весь день.

**Пример 3:**
*   **Тема:** Многозадачность
*   **Заголовок:** Вы думали, что многозадачность — это эффективно? На самом деле вы просто быстро переключаетесь между провалами.

Теперь, используя эту же формулу и стиль, создай заголовок для статьи на следующую тему.

**Моя тема:** Изучение иностранных языков.
🧠

Почему это работает:

Этот промпт работает, потому что он реализует принцип "поведенческого согласования" из исследования:

  1. Четко определенное "поведение": Вместо абстрактной просьбы "сделай интригующий заголовок", мы задаем конкретную поведенческую модель — формулу "Вы думали...? На самом деле...".
  2. Согласованные примеры: Все три примера (прокрастинация, кофе, многозадачность) абсолютно идентичны по своей структуре и логике. Они не просто на тему "продуктивность", они демонстрируют один и тот же паттерн.
  3. Отсутствие шума: В промпте нет примеров с другими формулами заголовков. Это не дает модели сбиться с пути и начать генерировать что-то иное (например, заголовок-вопрос или заголовок-список). Модель вынуждена копировать продемонстрированное "поведение".

📌

Другой пример практического применения

Задача: Вы менеджер продукта и хотите быстро анализировать отзывы пользователей, извлекая из них только жалобы на функционал и предложения по улучшению в строгом формате.

Ты — AI-ассистент аналитика продукта. Твоя задача — обработать отзыв пользователя и извлечь из него СТРОГО две вещи: жалобы на существующий функционал и конкретные предложения по улучшению. Игнорируй похвалу, эмоции и общие рассуждения.

Ответ должен быть в формате JSON.

Вот примеры, как нужно обрабатывать отзывы:

**Пример 1:**
*   **Отзыв:** "Приложение в целом супер, очень красивый дизайн! Но почему я не могу экспортировать отчет в PDF? Это ужасно неудобно, приходится делать скриншоты. Было бы круто, если бы добавили экспорт в PDF и Excel."
*   **Результат:**
    
{
      "жалобы": [
        "Невозможно экспортировать отчет в PDF"
      ],
      "предложения": [
        "Добавить экспорт в PDF",
        "Добавить экспорт в Excel"
      ]
    }
    
**Пример 2:** * **Отзыв:** "Спасибо за вашу работу! Но поиск просто убивает. Когда я ищу по названию, он находит все что угодно, кроме нужного. Сделайте, пожалуйста, чтобы поиск учитывал точное совпадение фразы." * **Результат:**
{
      "жалобы": [
        "Поиск не находит по точному названию"
      ],
      "предложения": [
        "Сделать поиск по точному совпадению фразы"
      ]
    }
    
Теперь обработай следующий отзыв, следуя той же логике и формату. **Мой отзыв для анализа:** "Я ваш давний клиент, и мне нравится последнее обновление интерфейса. Стало гораздо чище. Однако, я до сих пор не понимаю, почему уведомления приходят с задержкой в 5 минут. Это критично для моей работы. Еще было бы здорово иметь темную тему, глаза к вечеру очень устают."
🧠

Объяснение механизма почему этот пример работает.

Этот промпт эффективен благодаря точному следованию принципу "поведенческого согласования":

  1. Определенное "поведение": Поведение здесь — это не просто "проанализируй", а "прочитай, найди два конкретных типа информации (жалобы и предложения), проигнорируй все остальное и упакуй результат в JSON с ключами жалобы и предложения".
  2. Согласованность примеров: Оба примера демонстрируют один и тот же процесс: из неструктурированного текста извлекаются конкретные сущности и помещаются в строго определенную структуру. Модель учится не теме "отзывы", а процессу "фильтрации и структурирования".
  3. Принуждение к формату: Предоставляя примеры с идеальным JSON на выходе, мы заставляем модель копировать не только логику извлечения, но и формат вывода. Это гораздо надежнее, чем просто попросить "дай ответ в JSON". Модель видит "поведенческий" паттерн текст -> JSON и следует ему.
📌

Оценка полезности: 65

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование не предлагает конкретных фраз или структур для промптов, которые пользователь может скопировать. Оно описывает создание отдельного компонента (retriever), который автоматически подбирает примеры для промпта.
  • B. Улучшение качества диалоговых ответов: Косвенное. Улучшается не сам текстовый ответ, а решение модели, нужно ли использовать внешний инструмент (API) или нет. Для обычного пользователя, который не работает с LLM-агентами, это нерелевантно.
  • C. Прямая практическая применимость: Очень низкая. Метод требует обучения отдельной модели (BAR), работы с датасетами и применения контрастивного обучения. Это задача для ML-инженеров, а не для пользователей чат-ботов.
  • D. Концептуальная ценность: Высокая. Исследование раскрывает фундаментальную поведенческую закономерность LLM: несогласованные примеры в промпте (few-shot) сбивают модель с толку. Это ключевой инсайт, который можно и нужно применять при ручном составлении промптов.
  • E. Новая полезная практика: Работа попадает в кластеры №1 (Техники формулирования промптов) и №2 (Поведенческие закономерности LLM), но с важной оговоркой. Она не дает саму технику, а объясняет, почему важна консистентность примеров в few-shot промптинге.
  • Чек-лист практичности (+15 баллов): Да, исследование раскрывает неочевидные особенности поведения LLM (пагубное влияние поведенчески-несогласованных примеров), что дает +15 баллов к базовой оценке.
📌

Цифровая оценка полезности

Базовая оценка (40-50): Исследование узкоспециализированное и технически сложное, его прямой перенос в практику обычного пользователя невозможен. Основной фокус — на автоматизации выбора примеров для LLM-агентов, что находится за пределами возможностей пользователя.

Бонус за концептуальную ценность (+15): Главный вывод о "поведенческом согласовании" (behavior alignment) — это золотой стандарт для продвинутого промпт-инжиниринга. Понимание того, что LLM нужно "вести" с помощью однородных примеров, имеет огромную ценность.

Итоговая оценка (65): Оценка отражает баланс между нулевой прямой применимостью и высокой концептуальной ценностью. Пользователь не сможет использовать BAR, но он может стать BAR — то есть, вручную подбирать согласованные примеры для своих промптов, руководствуясь принципами из статьи.

Контраргументы: * Почему оценка могла быть выше? Если бы пользователь был продвинутым и создавал сложные few-shot промпты для автоматизации рутинных задач, то принцип "поведенческого согласования" мог бы кардинально улучшить стабильность и качество результатов. Для такого пользователя ценность инсайта приближается к 75-80 баллам. * Почему оценка могла быть ниже? Для абсолютного новичка, который пишет простые запросы в одно предложение, исследование бесполезно. Оно перегружено техническими деталями (contrastive loss, retriever) и не дает ни одной готовой "волшебной фразы". С этой точки зрения, оценка могла бы быть в районе 30-40 баллов.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с