3,583 papers
arXiv:2509.20652 72 25 сент. 2025 г. FREE

Performance-Based In-Context Learning: итеративное улучшение контента через примеры разного качества

КЛЮЧЕВАЯ СУТЬ
LLM плохо понимает что такое «хороший контент» без контекста — просишь придумай лучший заголовок, получаешь generic. Метод позволяет учить модель на прошлом опыте: даёшь 5-10 примеров контента с метриками эффективности (клики, продажи, вовлечённость), просишь создать лучше их всех. Фишка: средние по качеству примеры (2-6 место) работают лучше чем давать только best practice. Модель не копирует лучший образец, а учится на разбросе: видит что работает чуть лучше, что чуть хуже — синтезирует вариант сильнее всех. Исследование P&G показало: за 3 итеративных раунда 100% вариантов стали высококачественными против 20% при ручном создании.
Адаптировать под запрос

TL;DR

Performance-Based In-Context Learning — техника, которая учит LLM на примерах разного качества из прошлого опыта, чтобы создавать контент лучше среднего. Суть: даёшь модели 5-10 примеров с известной эффективностью (клики, продажи, вовлечённость), просишь создать лучше их. Модель анализирует закономерности успеха и синтезирует новый вариант.

Исследователи P&G обнаружили: средние по качеству примеры эффективнее всего для обучения. Модель не слепо копирует лучший образец, а учится на разбросе: видит что работает чуть лучше, что чуть хуже, и создаёт лучше всех. Также работает semantic-based подход: даёшь примеры, семантически близкие к лучшему результату — модель ловит направление.

Метод итеративный: результаты первого раунда → примеры для второго → результаты второго → примеры для третьего. За три раунда все сгенерированные варианты стали highly appealing (100% против 20% в ручном создании). Ключ — накопление знаний: каждый раунд обогащает базу примеров.


🔬

Схема метода

Performance-Based подход:

ШАГ 1: Отбор примеров
- Взять 5-10 примеров разного качества (НЕ лучший, а средние: 2-6 место)
- Включить метрики эффективности (если есть)

ШАГ 2: Генерация
- Промпт: "Вот примеры разного качества. Создай вариант лучше их всех"
- Модель анализирует закономерности → создаёт новый вариант

ШАГ 3: Итерация
- Результат первого раунда → примеры для второго
- Повторить 2-3 раза для максимального качества

Semantic-Based подход (альтернатива):

Взять 5-10 примеров семантически близких к лучшему → попросить создать в том же духе

Оба подхода можно комбинировать в одном промпте.


🚀

Пример применения

⚠️ Метод требует истории: Эффективен когда есть 10+ примеров с метриками качества. Для разовых задач без истории — ограниченная применимость.

Задача: Ты маркетолог в российском EdTech-стартапе. Нужен заголовок лендинга для курса по аналитике данных. У тебя есть 10 прошлых заголовков с метриками кликабельности.

Промпт:

Вот 5 заголовков лендингов с метриками кликабельности:

1. "Стань аналитиком данных за 4 месяца" (CTR: 3.2%)
2. "Освой Python и SQL с нуля" (CTR: 2.8%)
3. "Карьера в Data Science: первые шаги" (CTR: 3.5%)
4. "Аналитика данных: от Junior до Middle" (CTR: 3.1%)
5. "Данные — новая нефть. Научись их добывать" (CTR: 3.4%)

Создай 3 новых заголовка, которые будут работать лучше всех этих примеров. 
Проанализируй что объединяет более успешные варианты и усиль эти элементы.

Целевая аудитория: 25-35 лет, хотят сменить профессию, нулевой опыт в программировании.

Результат: Модель проанализирует закономерности (конкретные сроки, обещание карьеры, метафоры) и создаст заголовки, синтезирующие лучшие элементы. Ожидай 3 новых варианта с объяснением почему они сильнее исходных.


🧠

Почему это работает

LLM плохо оценивает качество без контекста. Попроси "напиши лучший заголовок" — получишь generic. Модель не знает что "лучше" для твоей аудитории.

LLM хорошо находит паттерны в примерах. Дай модели 5-10 вариантов с метриками — она увидит: короткие заголовки кликают чаще, конкретные цифры работают, метафоры привлекают. Паттерн-матчинг — сильная сторона LLM.

Performance-based подход использует это: даёшь средние по качеству примеры (не лучший!), модель синтезирует лучше их. Почему средние? Если дать только лучший — модель копирует. Если дать разброс — учится на различиях.

Рычаги управления:

  • Число примеров: 3-5 для простых задач (экономия токенов), 10-15 для сложных (больше паттернов)
  • Диапазон качества: узкий (только средние) для фокуса, широкий (от худших до лучших) для разнообразия
  • Semantic vs Performance: semantic для креатива, performance для метрик
  • Итерации: 1 раунд — быстро, 3 раунда — максимальное качество

📋

Шаблон промпта

Вот {число} примеров {тип_контента} с метриками эффективности:

{пример_1} (метрика: {значение_1})
{пример_2} (метрика: {значение_2})
...

Проанализируй что объединяет более успешные варианты.
Создай {число_вариантов} новых {тип_контента}, которые будут работать лучше всех этих примеров.

Целевая аудитория: {описание_аудитории}
Цель: {желаемое_действие}

Что подставлять:

  • {число} — 5-10 примеров (можно начать с 3-5)
  • {тип_контента} — заголовки, описания, посты, объявления
  • {пример_N} и {значение_N} — твои прошлые варианты и их метрики (CTR, конверсия, вовлечённость)
  • {число_вариантов} — 3-5 новых вариантов
  • {описание_аудитории} — демография, боли, контекст
  • {желаемое_действие} — кликнуть, купить, подписаться

Для итеративного улучшения: После первого раунда возьми 2-3 лучших новых варианта (по твоей оценке или A/B-тесту) и добавь к исходным примерам для второго раунда.


⚠️

Ограничения

⚠️ Требует истории данных: Метод работает максимально эффективно когда есть 10-30 примеров с метриками качества. Если истории нет — эффективность падает. Можешь использовать субъективную оценку вместо метрик ("этот лучше того"), но результат слабее.

⚠️ Не для узких ниш: Если у тебя 3 примера из очень специфичной области — модель не наберёт достаточно паттернов. Нужна либо более широкая категория, либо больше примеров.

⚠️ Метрики ≠ причинность: LLM видит корреляцию ("короткие заголовки кликают чаще"), но не понимает причину. Может ошибочно усилить случайный элемент. Проверяй результаты тестами.


🔍

Как исследовали

Команда P&G создала систему Claim Advisor для маркетинговых утверждений о продуктах. Взяли 300 примеров из прошлых MaxDiff-исследований (метод оценки потребительских предпочтений: выбери лучший и худший из 5). Построили два типа in-context learning примеров:

Performance-based: Взяли claims с 2-6 местом по успешности, попросили GPT-4o создать лучше их. Semantic-based: Взяли 5 claims, семантически ближайших к лучшему (через cosine similarity эмбеддингов).

Провели три раунда MaxDiff с 30 claims в каждом. Первый раунд — полностью человеческие claims. Второй и третий — генерация LLM на основе результатов предыдущего раунда.

Результаты поразили: В первом раунде 20% highly appealing claims (сделано людьми). Во втором — 33% (LLM + in-context learning). В третьем — 100% (все claims highly appealing). Модель научилась за два раунда итераций.

Также fine-tuned Phi-3 (7B и 14B параметров) для ранжирования claims. 100,316 примеров для обучения. Phi-3 14B с 1 in-context примером обогнал GPT-4o со 100 примерами (Kendall's tau и top-N coverage). Вывод: небольшой fine-tuned лёгкий LLM сильнее большого коммерческого при правильной подготовке.


🔗

Ресурсы

Accelerate Creation of Product Claims Using Generative AI

Po-Yu Liang (University of Cincinnati), Yong Zhang, Tatiana Hwa, Aaron Byers (Procter & Gamble)

GitHub: GenAI-ClaimAdvisor (код, примеры промптов, формат данных)


📋 Дайджест исследования

Ключевая суть

LLM плохо понимает что такое «хороший контент» без контекста — просишь придумай лучший заголовок, получаешь generic. Метод позволяет учить модель на прошлом опыте: даёшь 5-10 примеров контента с метриками эффективности (клики, продажи, вовлечённость), просишь создать лучше их всех. Фишка: средние по качеству примеры (2-6 место) работают лучше чем давать только best practice. Модель не копирует лучший образец, а учится на разбросе: видит что работает чуть лучше, что чуть хуже — синтезирует вариант сильнее всех. Исследование P&G показало: за 3 итеративных раунда 100% вариантов стали высококачественными против 20% при ручном создании.

Принцип работы

Не «дай лучший пример — получи копию», а «дай разброс качества — получи синтез». Собираешь 5-10 примеров разного качества (заголовки, описания, посты) с известными метриками. Ключ: берёшь средние по эффективности (НЕ топ-1!), а 2-6 место. Промпт: Вот примеры разного качества с метриками. Проанализируй что объединяет более успешные. Создай 3 варианта лучше их всех. Модель ловит паттерны успеха (короткие заголовки кликают чаще, конкретные цифры работают, метафоры цепляют) и создаёт новый вариант. Метод итеративный: лучшие результаты первого раунда → примеры для второго раунда → результаты второго → примеры для третьего. Каждый раунд обогащает базу знаний.

Почему работает

LLM сильна в поиске паттернов, но слаба в оценке абстрактного «качества». Попроси «лучший заголовок» — модель не знает что «лучше» для твоей аудитории. Дай 5-10 вариантов с метриками кликабельности — модель видит: короткие заголовки кликают на 15% чаще, конкретные сроки повышают конверсию, вопросы вовлекают. Паттерн-матчинг — сильная сторона LLM, а средние примеры дают разброс для обучения. Если дать только лучший — модель копирует. Если дать разброс 2-6 места — учится на различиях что работает чуть лучше, что чуть хуже. Синтезирует элементы успеха в новую комбинацию. Альтернативный подход: semantic-based — даёшь примеры семантически близкие к лучшему результату, модель ловит направление.

Когда применять

Маркетинг и копирайтинг → конкретно для заголовков лендингов, email-рассылок, объявлений, описаний продуктов, постов в соцсетях. Особенно когда есть история: 10-30 примеров с метриками (кликабельность, конверсия, вовлечённость). Работает для контента где можно измерить эффективность. НЕ подходит для разовых задач без истории данных — метод требует базу примеров для обучения.

Мини-рецепт

1. Собери примеры средние по качеству: 5-10 вариантов контента (заголовки, описания, посты) с метриками эффективности. Бери 2-6 место по результатам, НЕ лучший
2. Промпт с анализом: Вот {число} примеров {тип контента} с метриками: {пример 1} (CTR: 3.2%), {пример 2} (CTR: 2.8%)... Проанализируй что объединяет более успешные варианты. Создай 3 новых варианта которые будут работать лучше всех. Целевая аудитория: {описание}
3. Запусти итерации: оцени результаты первого раунда (субъективно или A/B-тестом), возьми 2-3 лучших варианта, добавь к исходным примерам, повтори промпт. За 2-3 раунда качество растёт до максимума
4. Опционально комбинируй подходы: добавь в промпт также вот 3 примера семантически близких к лучшему результату — модель учтёт и эффективность, и направление стиля

Примеры

[ПЛОХО] : Придумай 5 крутых заголовков для лендинга курса по аналитике данных
[ХОРОШО] : Вот 5 заголовков лендингов с кликабельностью (CTR): 1) "Стань аналитиком данных за 4 месяца" (CTR: 3.2%), 2) "Освой Python и SQL с нуля" (CTR: 2.8%), 3) "Карьера в Data Science: первые шаги" (CTR: 3.5%), 4) "Аналитика данных: от Junior до Middle" (CTR: 3.1%), 5) "Данные — новая нефть. Научись их добывать" (CTR: 3.4%). Проанализируй что объединяет более успешные варианты и усиль эти элементы. Создай 3 новых заголовка которые будут работать лучше всех этих. Целевая аудитория: 25-35 лет, хотят сменить профессию, нулевой опыт в программировании
Источник: Accelerate Creation of Product Claims Using Generative AI
ArXiv ID: 2509.20652 | Сгенерировано: 2026-01-12 05:57

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с