TL;DR
PPN (Prompt Policy Network) — это легковесная нейросеть, которая учится выбирать оптимальную стратегию промптинга для каждого запроса. Система обучается через Reinforcement Learning (PPO), максимизируя составную функцию награды: R = α·Точность - β·Стоимость. Выбирает из 5 стратегий: Zero-Shot, Few-Shot, Chain-of-Thought, Gap-Filling Prompting и Self-Consistency.
Проблема: Статические стратегии промптинга неэффективны. Если всегда использовать Self-Consistency (5 параллельных попыток + голосование) — точность высокая, но расход токенов огромный даже на простых задачах. Если всегда использовать Zero-Shot — экономия токенов, но провал на сложных задачах. Простые эвристики (например, "если длина > 50 слов → используй CoT") не учитывают тонкую взаимосвязь между характеристиками запроса и реальной сложностью задачи для модели.
Решение: PPN обучается выбирать стратегию динамически, оценивая ожидаемую выгоду (точность) против затрат (токены). Система учится резервировать дорогие стратегии только для задач, где они действительно нужны. На бенчмарках показала 61.5% экономии токенов против Fixed SC при сохранении 84.5% точности (против 89.1% у SC).
Схема метода
ОБУЧЕНИЕ PPN (требует ML-инфраструктуры):
ШАГ 1: Encoder → извлекает признаки сложности из запроса → вектор FQ
ШАГ 2: Policy Network → выбирает стратегию Pi из {ZS, FS, CoT, GFP, SC}
ШАГ 3: LLM выполняет → получаем точность A и стоимость C
ШАГ 4: Reward = α·A - β·C → обратная связь для PPO
ШАГ 5: PPO обновляет веса → учится лучше выбирать стратегии
⚠️ Критически важно: Это НЕ метод промптинга, а ML-система для обучения политики выбора стратегий.
Extractable Principles (что можно применить вручную)
Хотя сама PPN требует обучения нейросети, из исследования можно извлечь принципы адаптивного промптинга, которые работают в обычном чате.
Принцип 1: Иерархия стратегий по стоимости
Пять стратегий промптинга от дешёвых к дорогим:
| Стратегия | Описание | Стоимость (токены) | Когда использовать |
|---|---|---|---|
| Zero-Shot (ZS) | Прямой ответ без примеров | 1.0× (база) | Простые фактические вопросы |
| Few-Shot (FS) | С примерами в промпте | 1.5× | Нужен формат или стиль |
| Chain-of-Thought (CoT) | "Рассуждай по шагам" | 4.0× | Задачи требующие логики |
| Gap-Filling (GFP) | Двухшаговая генерация с подсказками | 5.5× | Сложные структурированные задачи |
| Self-Consistency (SC) | 5 попыток CoT + голосование | 20.0× | Критически важная точность |
Принцип 2: Composite Reward Thinking
Формула для ручной оценки:
R = α·Ожидаемая_Точность - β·Стоимость_Токенов
Перед запросом спроси себя:
- Насколько критична точность? (α — вес точности)
- Насколько критична скорость/стоимость? (β — вес стоимости)
- Какая стратегия даёт лучший R для ЭТОЙ задачи?
Примеры:
- α=10, β=1 (приоритет экономии): CoT на средних задачах, ZS на простых, SC только на критических
- α=100, β=1 (приоритет точности): SC на 80% задач, игнорируем стоимость
Принцип 3: Признаки сложности (Features of Complexity)
Когда задача требует дорогой стратегии:
- Многошаговые рассуждения (математика, логика)
- Неоднозначность формулировки
- Требуется проверка нескольких гипотез
- Критические последствия ошибки (юридические документы, медицина)
Когда можно обойтись дешёвой:
- Прямые фактические вопросы
- Стандартные форматирования
- Задачи из знакомого домена
- Низкая цена ошибки
Пример применения принципов вручную
Задача: Продакт-менеджер анализирует идею нового фичи для B2B SaaS — автоматизация контрактов с клиентами. Нужно оценить бизнес-риски.
Применение Composite Reward:
- α = 100 (критично не пропустить важный риск)
- β = 1 (стоимость токенов не важна)
- Вывод: нужна стратегия высокой точности
Промпт (Self-Consistency вручную):
Я запущу 5 независимых анализов рисков для фичи "автоматизация контрактов".
ПОПЫТКА 1:
Ты — Chief Risk Officer крупного B2B SaaS. Назови 5 главных рисков автоматизации контрактов. Рассуждай по шагам: клиенты → процессы → юридика → технология.
[запускаем]
ПОПЫТКА 2:
Ты — юрист, специализирующийся на B2B SaaS. Какие юридические риски несёт автоматизация контрактов? Рассуждай через: обязательства → ответственность → регуляции.
[запускаем]
ПОПЫТКА 3:
Ты — CFO компании, которая внедрила автоматизацию контрактов и провалилась. Что пошло не так? Проанализируй: финансы → операции → клиенты.
[запускаем]
ПОПЫТКА 4:
Ты — клиент B2B SaaS, которому предлагают автоматизацию контрактов. Какие вопросы и сомнения у тебя возникают? Думай через: доверие → контроль → интеграция.
[запускаем]
ПОПЫТКА 5:
Ты — CTO. Назови технические риски автоматизации юридических контрактов. Анализируй: надёжность → безопасность → масштабируемость → интеграция.
[запускаем]
ФИНАЛ:
Теперь сведи все 5 анализов. Какие риски повторяются чаще всего? Это — главные угрозы. Какие уникальны, но критичны? Дай сводку топ-7 рисков с приоритетами.
Результат:
5 разных перспектив дадут разнообразные риски. Пересекающиеся риски (например, "юридическая ответственность за ошибки AI") появятся в нескольких попытках — это сигнал высокой важности. Уникальные критичные риски (например, "конфликт с корпоративным юристом как стейкхолдером") тоже будут видны. Финальная сводка покажет наиболее вероятные и опасные проблемы.
Почему Self-Consistency здесь: Цена ошибки высока (бизнес-решение на сотни тысяч рублей), поэтому 20× стоимость токенов оправдана. Для быстрого брейншторма идей фич можно было бы использовать простой CoT.
Почему это работает
Слабость LLM: Модель не оценивает сложность задачи перед генерацией — она просто генерирует текст. Если промпт простой (Zero-Shot) — модель может пропустить важные шаги на сложной задаче. Если промпт сложный (Self-Consistency) — модель потратит 20× токенов даже на "столица России".
Сильная сторона LLM: Модель хорошо следует структурированным инструкциям. Если дать правильную стратегию — точность резко растёт. CoT повышает точность на рассуждениях, Self-Consistency фильтрует случайные ошибки через голосование.
Как PPN использует сильную сторону: Система учится предсказывать ожидаемую выгоду каждой стратегии для конкретного запроса. Функция награды R = α·Точность - β·Стоимость встраивает trade-off прямо в оптимизацию — модель учится не просто максимизировать точность, а максимизировать utility с учётом стоимости. Это даёт soft threshold вместо жёстких эвристик ("если длина > 50 → CoT").
Рычаги управления для ручного применения:
- Параметр α/β → больше α = приоритет точности, больше β = приоритет экономии. Меняй перед каждой задачей мысленно.
- Число попыток в SC → для критических задач увеличь с 5 до 7-10, для менее критичных снизь до 3.
- Роли в SC → вместо безликих "Попытка 1, 2, 3" дай конкретные роли (юрист, финансист, клиент) — перспективы острее.
- Условие выхода → в оригинале "консенсус агентов". Ты можешь заменить на "если 3 из 5 совпадают — достаточно", экономя запросы.
Пример "Быстрого старта" для SC вручную
🚀 Быстрый старт — вставь в чат:
Я хочу применить Self-Consistency вручную для моей задачи: [опиши задачу].
Помоги создать 5 независимых промптов с разными ролями/перспективами, которые дадут разнообразные решения. Затем помоги свести их в консенсусный ответ.
Формат:
ПОПЫТКА 1: [роль] → [угол анализа]
ПОПЫТКА 2: [роль] → [угол анализа]
...
ФИНАЛ: Сводка с выделением повторяющихся и уникальных инсайтов
LLM спросит:
- Какие роли/перспективы релевантны для твоей задачи?
- Какие углы анализа нужно покрыть?
- Насколько критична точность (сколько попыток сделать)?
Она возьмёт паттерн Self-Consistency и адаптирует под твой контекст.
Ограничения
⚠️ Требует ML-инфраструктуры для обучения: Сама PPN — это нейросеть, которую нужно обучать через Reinforcement Learning. Нужен доступ к API LLM, обучающим данным, и инфраструктуре для PPO. Обычный пользователь чата не может обучить PPN.
⚠️ Exploration cost: Во время обучения PPN приходится многократно запускать дорогие стратегии (SC) для сбора данных о их эффективности. Это создаёт значительные начальные затраты на токены.
⚠️ Субъективные задачи: Для задач, где точность не бинарная (креатив, написание текстов), сложно определить правильную функцию награды. Система может начать "играть" с метрикой (specification gaming).
⚠️ Ручное применение принципов — упрощение: Extractable principles (ручной выбор стратегии) не достигают той же точности, что обученная PPN, потому что человек не может точно предсказать сложность задачи для LLM. Но это лучше, чем всегда использовать одну стратегию.
Как исследовали
Исследователи взяли бенчмарки по математическим рассуждениям (GSM8K, subset MATH) и натравили на них 5 стратегий промптинга: Zero-Shot, Few-Shot, Chain-of-Thought, Gap-Filling Prompting и Self-Consistency. Для каждой стратегии засекли точность (бинарная: правильно/неправильно) и стоимость в токенах (нормализовали: ZS = 1.0, SC ≈ 20.0).
Затем обучили легковесную нейросеть PPN (encoder + policy head + value head) через PPO (Proximal Policy Optimization). Функция награды: R = α·Accuracy - β·Cost. Сеть училась выбирать оптимальную стратегию для каждого запроса, балансируя точность и затраты.
Сравнили с baseline:
- Fixed стратегии (всегда ZS, всегда CoT, всегда SC)
- Heuristic Adaptive (если длина запроса > 50 символов → CoT, иначе ZS)
Результаты удивили scale эффекта: PPN с α=10, β=1 показала 84.5% точности при 7.9 токенах в среднем — это 61.5% экономии против Fixed SC (89.1% точности при 20.5 токенах). Heuristic Adaptive (79.8% при 5.8 токенах) проиграла по обеим метрикам — не дотянула ни по точности, ни по экономии.
Почему такие выводы: Ключевой инсайт — простые эвристики не работают, потому что сложность задачи для LLM не коррелирует с длиной текста или другими поверхностными признаками. PPN учится находить тонкие паттерны (семантические, структурные), которые предсказывают, когда инвестиция в дорогую стратегию окупится точностью. Функция награды встраивает trade-off напрямую в оптимизацию — это принципиально сильнее ручных правил.
Парето-фронт: Варьируя α/β, PPN рисует кривую оптимальных решений (Pareto front). Любая точка на этой кривой доминирует Fixed стратегии — либо выше точность при той же стоимости, либо ниже стоимость при той же точности. Это математическое доказательство превосходства адаптивного подхода.
Ресурсы
Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning
Jiexi Xu, University of California, Irvine, School of Information & Computer Science
October 2025
Ключевые отсылки:
- Chain-of-Thought Prompting [Wei et al., 2022]
- Self-Consistency [Wang et al., 2022]
- Gap-Filling Prompting [Kumar et al., 2024]
- Proximal Policy Optimization (PPO) [Schulman et al., 2017]
