3,583 papers
arXiv:2506.12346 88 1 июня 2025 г. FREE

Refract ICL Переосмысление выбора примеров в эпоху моделей с миллионом токенов

КЛЮЧЕВАЯ СУТЬ
Умный отбор и повторение трудных примеров работает гораздо эффективнее, чем слепое увеличение их общего количества.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование показывает, что простое увеличение количества примеров (few-shot) в промпте для моделей с большим контекстом не гарантирует улучшения, а часто даже ухудшает результат из-за "размытия внимания". Авторы предлагают методRefractICL, который заключается в выявлении "сложных" для модели примеров и ихцеленаправленном повторениивнутри промпта. Такой подход заставляет модель сфокусироваться на своих слабых местах и значительно повышает точность.

Ключевой результат: Умный отбор и повторение трудных примеров работает гораздо эффективнее, чем слепое увеличение их общего количества.

🔬

2. Объяснение всей сути метода:

Суть метода RefractICL проста и элегантна, и её можно объяснить на аналогии с обучением. Представьте, что вы готовитесь к экзамену. У вас есть два варианта:

  1. Старый подход: Прорешать как можно больше разных задач из учебника в надежде, что что-то похожее попадется на экзамене.
  2. Подход RefractICL: Прорешать несколько задач, определить, какие типы вызывают у вас наибольшие трудности (например, задачи на проценты), и затем сосредоточиться именно на них, прорешивая их снова и снова, пока вы не поймете логику.

LLM с большим контекстом похожи на такого студента. Когда вы даете ей 100 разных примеров в промпте, ее "внимание" рассеивается. Она может упустить ключевую деталь или не понять, какой из примеров самый важный.

Метод RefractICL, адаптированный для пользователя, предлагает делать следующее:

  1. Определите "сложный случай": Подумайте, в чем модель скорее всего ошибется? Какая инструкция самая тонкая и неочевидная? Какое исключение из правила самое важное?
  2. Сфокусируйте внимание модели повторением: Вместо того чтобы просто перечислить все правила и примеры один раз, повторите самую важную инструкцию или самый сложный пример в промпте. Это можно сделать дословно или перефразировав. Это служит сигналом для LLM: "Эй, вот это — критически важно, обрати на это особое внимание!".

Таким образом, вы не просто даете модели данные, а активно управляете ее фокусом, заставляя "учиться на сложных ошибках" прямо в рамках одного запроса.

📌

3. Анализ практической применимости:

*Прямая применимость:Очень высокая. Любой пользователь может немедленно начать применять главный принцип — повторение. Вместо того чтобы писать инструкцию один раз, можно в конце промпта добавить блок в духе:Важнейшее правило, повторю еще раз: [ваше правило]. Или, предоставив сложный пример, можно позже в промпте сослаться на него:Помни, как в примере №3, нужно сделать X, а не Y.

  • Концептуальная ценность: Огромная. Исследование разрушает миф "чем больше контекста и примеров, тем лучше". Оно дает пользователю ментальную модель "LLM-внимания" как ограниченного ресурса, который нужно направлять. Пользователь начинает думать не как поставщик данных, а как "тренер" или "учитель" для модели в рамках одного промпта.
  • Потенциал для адаптации: Максимальный. Сложный алгоритм RefractICL легко адаптируется в простую эвристику: "определи самое слабое место в своем запросе и укрепи его повторением". Это можно применить к чему угодно:
    • Для генерации текста: Повторить ключевое требование к стилю.
    • Для анализа: Повторить критерий, по которому нужно оценивать текст.
    • Для извлечения данных: Повторить формат вывода для самого сложного поля.

🚀

4. Практически пример применения:

Представим, что вам нужно, чтобы LLM генерировала идеи для постов в соцсети для бренда экологичной косметики. Частая проблема: модель сваливается в банальный, агрессивный маркетинг.

# РОЛЬ

Ты — SMM-менеджер бренда "Чистая Роса", который производит органическую косметику.

# КОНТЕКСТ

Наша философия — не "продать любой ценой", а мягко обучать аудиторию и говорить о заботе о себе и природе. Наш тон — спокойный, доверительный, экспертный, но не занудный. Мы избегаем кричащих призывов к действию ("Купи сейчас!", "Скидка!") и банальных фраз ("Лучшее качество по лучшей цене").

# ЗАДАЧА

Придумай 3 идеи для постов в Instagram на тему "Вечерний уход за кожей зимой". Для каждой идеи предложи текст поста и визуал.

## ПРИМЕРЫ ДЛЯ ОБУЧЕНИЯ

### Хороший пример (наш стиль)

- **Текст:** "Зимний вечер — идеальное время, чтобы услышать свою кожу. Холодный ветер и сухой воздух в помещениях — для нее стресс. Наш ритуал: начните с нежного очищающего молочка с ромашкой, а затем — несколько капель сыворотки с гиалуроновой кислотой. Это не просто уход, это медитация. А как вы заботитесь о себе в конце дня?"
- **Комментарий:** Стиль правильный — спокойный, обучающий, с фокусом на ощущениях.

### Плохой пример (чего нужно избегать)

- **Текст:** "ХВАТИТ ТЕРПЕТЬ СУХУЮ КОЖУ! Наша зимняя сыворотка №1 сотрет все проблемы с твоего лица! Только сегодня СУПЕР-ЦЕНА! Жми на ссылку в профиле и покупай, пока все не разобрали!"
- **Комментарий:** Это агрессивный маркетинг, которого мы избегаем.

## КЛЮЧЕВОЕ ПРАВИЛО (ПОВТОРЯЮ ДЛЯ ВАЖНОСТИ)

**Самое главное: фокус на заботе и ощущениях, а не на прямой продаже.** Тон должен быть как у подруги-эксперта, а не у продавца на рынке. Избегай шаблонных маркетинговых клише. Это критически важно для нашего бренда.

Приступай к выполнению задачи.

🧠

5. Почему это работает:

Этот промпт работает за счет нескольких механик, основанных на выводах исследования:

  1. Адаптированный "сигнал об ошибке": Вместо того чтобы позволить модели самой ошибиться, мы проактивно показываем ей "плохой пример". Это аналог "error signal" из RefractICL, который явно указывает, чего делать не надо.
  2. Повторение ключевого принципа: Секция ## КЛЮЧЕВОЕ ПРАВИЛО (ПОВТОРЯЮ ДЛЯ ВАЖНОСТИ) — это прямая реализация главного вывода исследования. Мы определяем самую сложную часть задачи (соблюдение нужного тона) и повторяем инструкцию, чтобы "зацементировать" ее в "сознании" модели. Это заставляет LLM придать этому правилу больший вес при генерации ответа.
  3. Качественные примеры вместо количества: Вместо 10 разных примеров мы даем всего два, но очень контрастных. Это помогает модели лучше понять границы задачи, не рассеивая ее внимание.

📌

6. Другой пример практического применения

Задача: проанализировать отзывы клиентов на отель и классифицировать их, уделяя особое внимание различению конструктивной критики и необоснованного негатива. Это сложный, субъективный момент.

# РОЛЬ

Ты — менеджер по качеству обслуживания в отеле "Тихая Гавань".

# ЗАДАЧА

Твоя задача — проанализировать отзывы клиентов и классифицировать их по трем категориям:
1. **Позитив:** Клиент полностью доволен.
2. **Конструктивная критика:** Клиент в целом доволен, но вежливо указывает на конкретные, решаемые проблемы (например, "в номере было чисто, но wi-fi работал медленно").
3. **Негатив/Токсичность:** Клиент выражает недовольство в грубой форме, использует общие оскорбления без конкретики или жалуется на вещи, не зависящие от отеля (например, "ужасный отель, испортили весь отпуск", "погода была плохая").

## СЛОЖНЫЙ СЛУЧАЙ ДЛЯ АНАЛИЗА

Вот пример, на котором часто ошибаются. Давай разберем его подробно.

**Отзыв:** "Завтрак был скудный, ожидал большего за такую цену. Персонал на ресепшене какой-то сонный. В целом нормально, но второй раз не поеду."

**Правильная классификация:** **Конструктивная критика**.
**Почему:** Клиент указывает на конкретные зоны для улучшения (ассортимент завтрака, работа персонала) и делает это без оскорблений. Хотя отзыв и не восторженный, он полезен для нас.

## ПОВТОРЕНИЕ ПРИНЦИПА КЛАССИФИКАЦИИ

**Повторю ключевой принцип различения:** Если в отзыве есть **конкретные, проверяемые замечания** по нашей работе (еда, чистота, сервис), даже если они поданы эмоционально, — это **"Конструктивная критика"**. Если же это общие фразы ("все плохо") или оскорбления — это **"Негатив"**.

# ТЕКСТЫ ДЛЯ АНАЛИЗА

Теперь классифицируй следующие три отзыва. Для каждого укажи категорию и дай краткое обоснование.

1. "Все было просто великолепно! Чистейший номер, вид на море, завтраки — пальчики оближешь! Обязательно вернемся к вам в следующем году, спасибо!"
2. "Интернет почти не работал в номере 305, приходилось спускаться в лобби. Пожалуйста, проверьте роутер на этаже. В остальном все понравилось, спасибо за гостеприимство."
3. "Отвратительное место. Не понимаю, кто пишет все эти хорошие отзывы. Потраченные зря деньги."

🧠

7. Объяснение механизма почему этот пример работает.

Этот промпт эффективно использует принципы RefractICL для решения сложной задачи классификации:

  1. Фокус на "сложном случае": Промпт не просто дает примеры, а явно выделяет один из них как ## СЛОЖНЫЙ СЛУЧАЙ ДЛЯ АНАЛИЗА. Это прямое указание модели на самую трудную часть задачи — границу между критикой и негативом.
  2. Прямое повторение примера: В отличие от первого примера, здесь мы не просто повторяем правило, а подробно разбираем и повторяем логику классификации именно для сложного случая. Это заставляет модель "проучить" этот конкретный паттерн.
  3. Эксплицитное повторение правила: Секция ## ПОВТОРЕНИЕ ПРИНЦИПА КЛАССИФИКАЦИИ снова использует основной прием из исследования. После разбора сложного примера мы обобщаем и повторяем правило, чтобы модель точно его усвоила и смогла применить к новым, невиданным ранее данным.
📋

8. Таким образом, промпт не просто дает инструкции, а проводит для модели мини-тренинг, фокусируясь на ее потенциальной "точке отказа" и укрепляя ее с помощью повторения.

📌

Основные критерии оценки

  • A. Релевантность техникам промптинга: 10/10. Исследование полностью посвящено In-Context Learning (ICL), что является синонимом few-shot промптинга — предоставления примеров в запросе.
  • B. Улучшение качества диалоговых ответов: 9/10. Метод напрямую нацелен на повышение точности ответов модели, особенно в задачах классификации и следования сложным инструкциям.
  • C. Прямая практическая применимость: 8/10. Полный алгоритм RefractICL (с предварительным запуском для поиска ошибок) сложен для обычного пользователя. Однако ключевые принципы — "больше примеров не всегда лучше" и "повторяй важное для фокусировки внимания" — чрезвычайно практичны и могут быть применены немедленно без кода.
  • D. Концептуальная ценность: 10/10. Работа дает блестящее понимание ограничений внимания LLM в длинных контекстах. Она объясняет, почему механическое "заваливание" модели примерами контрпродуктивно, и предлагает ментальную модель: LLM — это студент, которому нужно не больше задач, а фокус на тех, в которых он ошибается.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • #1 (Техники формулирования промптов): Предлагает продвинутую few-shot стратегию.
    • #2 (Поведенческие закономерности LLM): Демонстрирует эффект "размытия внимания" и деградацию производительности при увеличении числа примеров.
    • #6 (Контекст и память): Исследует, как эффективно использовать большие контекстные окна.
    • #7 (Надежность и стабильность): Метод направлен на повышение точности и снижение ошибок.
  • Чек-лист практичности (+15 баллов): Да, работа раскрывает неочевидные особенности поведения LLM (больше примеров = хуже) и предлагает способ улучшить точность (повторение), что является готовой техникой структурирования запроса.
📌

2 Цифровая оценка полезности

Итоговая оценка 88 отражает огромную концептуальную и практическую ценность ключевых выводов для любого пользователя, но не достигает 90+ из-за того, что сам алгоритм RefractICL в его полном виде сложно реализовать в обычном чате. Пользователь может применять лишь его адаптированные принципы.

Аргументы за более высокую оценку (>90):

* Главный вывод — "повторяй сложные и важные примеры/инструкции" — это чистейшее золото промпт-инжиниринга. Это простая, интуитивно понятная и немедленно применимая техника, которая может кардинально улучшить качество ответов в сложных задачах.
* Концептуальное прозрение о том, что внимание LLM — это исчерпаемый ресурс, который нужно направлять, само по себе стоит очень многого и меняет подход к написанию промптов.

Контраргументы (за более низкую оценку <80):

* Для точного следования методу RefractICL требуется двухэтапный процесс: 1) получить zero-shot ответ от модели, чтобы найти "сложный пример"; 2) составить новый промпт, повторив этот пример. Это нетипичный и громоздкий воркфлоу для обычного пользователя в чат-интерфейсе.
* Исследование сфокусировано на задачах классификации и извлечения, и хотя принципы универсальны, прямые доказательства эффективности в генеративных или творческих задачах не приводятся.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с