TL;DR
Performance-Based In-Context Learning — техника, которая учит LLM на примерах разного качества из прошлого опыта, чтобы создавать контент лучше среднего. Суть: даёшь модели 5-10 примеров с известной эффективностью (клики, продажи, вовлечённость), просишь создать лучше их. Модель анализирует закономерности успеха и синтезирует новый вариант.
Исследователи P&G обнаружили: средние по качеству примеры эффективнее всего для обучения. Модель не слепо копирует лучший образец, а учится на разбросе: видит что работает чуть лучше, что чуть хуже, и создаёт лучше всех. Также работает semantic-based подход: даёшь примеры, семантически близкие к лучшему результату — модель ловит направление.
Метод итеративный: результаты первого раунда → примеры для второго → результаты второго → примеры для третьего. За три раунда все сгенерированные варианты стали highly appealing (100% против 20% в ручном создании). Ключ — накопление знаний: каждый раунд обогащает базу примеров.
Схема метода
Performance-Based подход:
ШАГ 1: Отбор примеров
- Взять 5-10 примеров разного качества (НЕ лучший, а средние: 2-6 место)
- Включить метрики эффективности (если есть)
ШАГ 2: Генерация
- Промпт: "Вот примеры разного качества. Создай вариант лучше их всех"
- Модель анализирует закономерности → создаёт новый вариант
ШАГ 3: Итерация
- Результат первого раунда → примеры для второго
- Повторить 2-3 раза для максимального качества
Semantic-Based подход (альтернатива):
Взять 5-10 примеров семантически близких к лучшему → попросить создать в том же духе
Оба подхода можно комбинировать в одном промпте.
Пример применения
⚠️ Метод требует истории: Эффективен когда есть 10+ примеров с метриками качества. Для разовых задач без истории — ограниченная применимость.
Задача: Ты маркетолог в российском EdTech-стартапе. Нужен заголовок лендинга для курса по аналитике данных. У тебя есть 10 прошлых заголовков с метриками кликабельности.
Промпт:
Вот 5 заголовков лендингов с метриками кликабельности:
1. "Стань аналитиком данных за 4 месяца" (CTR: 3.2%)
2. "Освой Python и SQL с нуля" (CTR: 2.8%)
3. "Карьера в Data Science: первые шаги" (CTR: 3.5%)
4. "Аналитика данных: от Junior до Middle" (CTR: 3.1%)
5. "Данные — новая нефть. Научись их добывать" (CTR: 3.4%)
Создай 3 новых заголовка, которые будут работать лучше всех этих примеров.
Проанализируй что объединяет более успешные варианты и усиль эти элементы.
Целевая аудитория: 25-35 лет, хотят сменить профессию, нулевой опыт в программировании.
Результат: Модель проанализирует закономерности (конкретные сроки, обещание карьеры, метафоры) и создаст заголовки, синтезирующие лучшие элементы. Ожидай 3 новых варианта с объяснением почему они сильнее исходных.
Почему это работает
LLM плохо оценивает качество без контекста. Попроси "напиши лучший заголовок" — получишь generic. Модель не знает что "лучше" для твоей аудитории.
LLM хорошо находит паттерны в примерах. Дай модели 5-10 вариантов с метриками — она увидит: короткие заголовки кликают чаще, конкретные цифры работают, метафоры привлекают. Паттерн-матчинг — сильная сторона LLM.
Performance-based подход использует это: даёшь средние по качеству примеры (не лучший!), модель синтезирует лучше их. Почему средние? Если дать только лучший — модель копирует. Если дать разброс — учится на различиях.
Рычаги управления:
- Число примеров: 3-5 для простых задач (экономия токенов), 10-15 для сложных (больше паттернов)
- Диапазон качества: узкий (только средние) для фокуса, широкий (от худших до лучших) для разнообразия
- Semantic vs Performance: semantic для креатива, performance для метрик
- Итерации: 1 раунд — быстро, 3 раунда — максимальное качество
Шаблон промпта
Вот {число} примеров {тип_контента} с метриками эффективности:
{пример_1} (метрика: {значение_1})
{пример_2} (метрика: {значение_2})
...
Проанализируй что объединяет более успешные варианты.
Создай {число_вариантов} новых {тип_контента}, которые будут работать лучше всех этих примеров.
Целевая аудитория: {описание_аудитории}
Цель: {желаемое_действие}
Что подставлять:
{число}— 5-10 примеров (можно начать с 3-5){тип_контента}— заголовки, описания, посты, объявления{пример_N}и{значение_N}— твои прошлые варианты и их метрики (CTR, конверсия, вовлечённость){число_вариантов}— 3-5 новых вариантов{описание_аудитории}— демография, боли, контекст{желаемое_действие}— кликнуть, купить, подписаться
Для итеративного улучшения: После первого раунда возьми 2-3 лучших новых варианта (по твоей оценке или A/B-тесту) и добавь к исходным примерам для второго раунда.
Ограничения
⚠️ Требует истории данных: Метод работает максимально эффективно когда есть 10-30 примеров с метриками качества. Если истории нет — эффективность падает. Можешь использовать субъективную оценку вместо метрик ("этот лучше того"), но результат слабее.
⚠️ Не для узких ниш: Если у тебя 3 примера из очень специфичной области — модель не наберёт достаточно паттернов. Нужна либо более широкая категория, либо больше примеров.
⚠️ Метрики ≠ причинность: LLM видит корреляцию ("короткие заголовки кликают чаще"), но не понимает причину. Может ошибочно усилить случайный элемент. Проверяй результаты тестами.
Как исследовали
Команда P&G создала систему Claim Advisor для маркетинговых утверждений о продуктах. Взяли 300 примеров из прошлых MaxDiff-исследований (метод оценки потребительских предпочтений: выбери лучший и худший из 5). Построили два типа in-context learning примеров:
Performance-based: Взяли claims с 2-6 местом по успешности, попросили GPT-4o создать лучше их. Semantic-based: Взяли 5 claims, семантически ближайших к лучшему (через cosine similarity эмбеддингов).
Провели три раунда MaxDiff с 30 claims в каждом. Первый раунд — полностью человеческие claims. Второй и третий — генерация LLM на основе результатов предыдущего раунда.
Результаты поразили: В первом раунде 20% highly appealing claims (сделано людьми). Во втором — 33% (LLM + in-context learning). В третьем — 100% (все claims highly appealing). Модель научилась за два раунда итераций.
Также fine-tuned Phi-3 (7B и 14B параметров) для ранжирования claims. 100,316 примеров для обучения. Phi-3 14B с 1 in-context примером обогнал GPT-4o со 100 примерами (Kendall's tau и top-N coverage). Вывод: небольшой fine-tuned лёгкий LLM сильнее большого коммерческого при правильной подготовке.
Ресурсы
Accelerate Creation of Product Claims Using Generative AI
Po-Yu Liang (University of Cincinnati), Yong Zhang, Tatiana Hwa, Aaron Byers (Procter & Gamble)
GitHub: GenAI-ClaimAdvisor (код, примеры промптов, формат данных)
