3,583 papers
arXiv:2509.25267 70 28 сент. 2025 г. FREE

Prompt Policy Network (PPN): адаптивный выбор стратегии промптинга через обучение с подкреплением

КЛЮЧЕВАЯ СУТЬ
Парадокс статических стратегий: всегда используешь Zero-Shot (прямой ответ) — проваливаешься на сложных задачах. Всегда используешь Self-Consistency (5 попыток + голосование) — переплачиваешь в 20 раз даже на вопросе "столица России". Метод позволяет выбирать стратегию промптинга динамически под каждую задачу, оценивая потребность в точности против затрат на токены. Ключевая формула: R = α·Точность - β·Стоимость — перед запросом оцени насколько критична точность (α) и насколько критична экономия (β). Это даёт 61.5% экономии токенов при сохранении 84.5% точности против всегда дорогой стратегии.
Адаптировать под запрос

TL;DR

PPN (Prompt Policy Network) — это легковесная нейросеть, которая учится выбирать оптимальную стратегию промптинга для каждого запроса. Система обучается через Reinforcement Learning (PPO), максимизируя составную функцию награды: R = α·Точность - β·Стоимость. Выбирает из 5 стратегий: Zero-Shot, Few-Shot, Chain-of-Thought, Gap-Filling Prompting и Self-Consistency.

Проблема: Статические стратегии промптинга неэффективны. Если всегда использовать Self-Consistency (5 параллельных попыток + голосование) — точность высокая, но расход токенов огромный даже на простых задачах. Если всегда использовать Zero-Shot — экономия токенов, но провал на сложных задачах. Простые эвристики (например, "если длина > 50 слов → используй CoT") не учитывают тонкую взаимосвязь между характеристиками запроса и реальной сложностью задачи для модели.

Решение: PPN обучается выбирать стратегию динамически, оценивая ожидаемую выгоду (точность) против затрат (токены). Система учится резервировать дорогие стратегии только для задач, где они действительно нужны. На бенчмарках показала 61.5% экономии токенов против Fixed SC при сохранении 84.5% точности (против 89.1% у SC).


🔬

Схема метода

ОБУЧЕНИЕ PPN (требует ML-инфраструктуры):

ШАГ 1: Encoder → извлекает признаки сложности из запроса → вектор FQ
ШАГ 2: Policy Network → выбирает стратегию Pi из {ZS, FS, CoT, GFP, SC}
ШАГ 3: LLM выполняет → получаем точность A и стоимость C
ШАГ 4: Reward = α·A - β·C → обратная связь для PPO
ШАГ 5: PPO обновляет веса → учится лучше выбирать стратегии

⚠️ Критически важно: Это НЕ метод промптинга, а ML-система для обучения политики выбора стратегий.


📌

Extractable Principles (что можно применить вручную)

Хотя сама PPN требует обучения нейросети, из исследования можно извлечь принципы адаптивного промптинга, которые работают в обычном чате.

📌

Принцип 1: Иерархия стратегий по стоимости

Пять стратегий промптинга от дешёвых к дорогим:

СтратегияОписаниеСтоимость (токены)Когда использовать
Zero-Shot (ZS)Прямой ответ без примеров1.0× (база)Простые фактические вопросы
Few-Shot (FS)С примерами в промпте1.5×Нужен формат или стиль
Chain-of-Thought (CoT)"Рассуждай по шагам"4.0×Задачи требующие логики
Gap-Filling (GFP)Двухшаговая генерация с подсказками5.5×Сложные структурированные задачи
Self-Consistency (SC)5 попыток CoT + голосование20.0×Критически важная точность
📌

Принцип 2: Composite Reward Thinking

Формула для ручной оценки:

R = α·Ожидаемая_Точность - β·Стоимость_Токенов

Перед запросом спроси себя:

  • Насколько критична точность? (α — вес точности)
  • Насколько критична скорость/стоимость? (β — вес стоимости)
  • Какая стратегия даёт лучший R для ЭТОЙ задачи?

Примеры:

  • α=10, β=1 (приоритет экономии): CoT на средних задачах, ZS на простых, SC только на критических
  • α=100, β=1 (приоритет точности): SC на 80% задач, игнорируем стоимость
📌

Принцип 3: Признаки сложности (Features of Complexity)

Когда задача требует дорогой стратегии:

  • Многошаговые рассуждения (математика, логика)
  • Неоднозначность формулировки
  • Требуется проверка нескольких гипотез
  • Критические последствия ошибки (юридические документы, медицина)

Когда можно обойтись дешёвой:

  • Прямые фактические вопросы
  • Стандартные форматирования
  • Задачи из знакомого домена
  • Низкая цена ошибки

🚀

Пример применения принципов вручную

Задача: Продакт-менеджер анализирует идею нового фичи для B2B SaaS — автоматизация контрактов с клиентами. Нужно оценить бизнес-риски.

Применение Composite Reward:

  • α = 100 (критично не пропустить важный риск)
  • β = 1 (стоимость токенов не важна)
  • Вывод: нужна стратегия высокой точности

Промпт (Self-Consistency вручную):

Я запущу 5 независимых анализов рисков для фичи "автоматизация контрактов".

ПОПЫТКА 1:
Ты — Chief Risk Officer крупного B2B SaaS. Назови 5 главных рисков автоматизации контрактов. Рассуждай по шагам: клиенты → процессы → юридика → технология.

[запускаем]

ПОПЫТКА 2:
Ты — юрист, специализирующийся на B2B SaaS. Какие юридические риски несёт автоматизация контрактов? Рассуждай через: обязательства → ответственность → регуляции.

[запускаем]

ПОПЫТКА 3:
Ты — CFO компании, которая внедрила автоматизацию контрактов и провалилась. Что пошло не так? Проанализируй: финансы → операции → клиенты.

[запускаем]

ПОПЫТКА 4:
Ты — клиент B2B SaaS, которому предлагают автоматизацию контрактов. Какие вопросы и сомнения у тебя возникают? Думай через: доверие → контроль → интеграция.

[запускаем]

ПОПЫТКА 5:
Ты — CTO. Назови технические риски автоматизации юридических контрактов. Анализируй: надёжность → безопасность → масштабируемость → интеграция.

[запускаем]

ФИНАЛ:
Теперь сведи все 5 анализов. Какие риски повторяются чаще всего? Это — главные угрозы. Какие уникальны, но критичны? Дай сводку топ-7 рисков с приоритетами.

Результат:

5 разных перспектив дадут разнообразные риски. Пересекающиеся риски (например, "юридическая ответственность за ошибки AI") появятся в нескольких попытках — это сигнал высокой важности. Уникальные критичные риски (например, "конфликт с корпоративным юристом как стейкхолдером") тоже будут видны. Финальная сводка покажет наиболее вероятные и опасные проблемы.

Почему Self-Consistency здесь: Цена ошибки высока (бизнес-решение на сотни тысяч рублей), поэтому 20× стоимость токенов оправдана. Для быстрого брейншторма идей фич можно было бы использовать простой CoT.


🧠

Почему это работает

Слабость LLM: Модель не оценивает сложность задачи перед генерацией — она просто генерирует текст. Если промпт простой (Zero-Shot) — модель может пропустить важные шаги на сложной задаче. Если промпт сложный (Self-Consistency) — модель потратит 20× токенов даже на "столица России".

Сильная сторона LLM: Модель хорошо следует структурированным инструкциям. Если дать правильную стратегию — точность резко растёт. CoT повышает точность на рассуждениях, Self-Consistency фильтрует случайные ошибки через голосование.

Как PPN использует сильную сторону: Система учится предсказывать ожидаемую выгоду каждой стратегии для конкретного запроса. Функция награды R = α·Точность - β·Стоимость встраивает trade-off прямо в оптимизацию — модель учится не просто максимизировать точность, а максимизировать utility с учётом стоимости. Это даёт soft threshold вместо жёстких эвристик ("если длина > 50 → CoT").

Рычаги управления для ручного применения:

  • Параметр α/β → больше α = приоритет точности, больше β = приоритет экономии. Меняй перед каждой задачей мысленно.
  • Число попыток в SC → для критических задач увеличь с 5 до 7-10, для менее критичных снизь до 3.
  • Роли в SC → вместо безликих "Попытка 1, 2, 3" дай конкретные роли (юрист, финансист, клиент) — перспективы острее.
  • Условие выхода → в оригинале "консенсус агентов". Ты можешь заменить на "если 3 из 5 совпадают — достаточно", экономя запросы.

📌

Пример "Быстрого старта" для SC вручную

🚀 Быстрый старт — вставь в чат:

Я хочу применить Self-Consistency вручную для моей задачи: [опиши задачу].

Помоги создать 5 независимых промптов с разными ролями/перспективами, которые дадут разнообразные решения. Затем помоги свести их в консенсусный ответ.

Формат:
ПОПЫТКА 1: [роль] → [угол анализа]
ПОПЫТКА 2: [роль] → [угол анализа]
...
ФИНАЛ: Сводка с выделением повторяющихся и уникальных инсайтов

LLM спросит:

  • Какие роли/перспективы релевантны для твоей задачи?
  • Какие углы анализа нужно покрыть?
  • Насколько критична точность (сколько попыток сделать)?

Она возьмёт паттерн Self-Consistency и адаптирует под твой контекст.


⚠️

Ограничения

⚠️ Требует ML-инфраструктуры для обучения: Сама PPN — это нейросеть, которую нужно обучать через Reinforcement Learning. Нужен доступ к API LLM, обучающим данным, и инфраструктуре для PPO. Обычный пользователь чата не может обучить PPN.

⚠️ Exploration cost: Во время обучения PPN приходится многократно запускать дорогие стратегии (SC) для сбора данных о их эффективности. Это создаёт значительные начальные затраты на токены.

⚠️ Субъективные задачи: Для задач, где точность не бинарная (креатив, написание текстов), сложно определить правильную функцию награды. Система может начать "играть" с метрикой (specification gaming).

⚠️ Ручное применение принципов — упрощение: Extractable principles (ручной выбор стратегии) не достигают той же точности, что обученная PPN, потому что человек не может точно предсказать сложность задачи для LLM. Но это лучше, чем всегда использовать одну стратегию.


🔍

Как исследовали

Исследователи взяли бенчмарки по математическим рассуждениям (GSM8K, subset MATH) и натравили на них 5 стратегий промптинга: Zero-Shot, Few-Shot, Chain-of-Thought, Gap-Filling Prompting и Self-Consistency. Для каждой стратегии засекли точность (бинарная: правильно/неправильно) и стоимость в токенах (нормализовали: ZS = 1.0, SC ≈ 20.0).

Затем обучили легковесную нейросеть PPN (encoder + policy head + value head) через PPO (Proximal Policy Optimization). Функция награды: R = α·Accuracy - β·Cost. Сеть училась выбирать оптимальную стратегию для каждого запроса, балансируя точность и затраты.

Сравнили с baseline:

  • Fixed стратегии (всегда ZS, всегда CoT, всегда SC)
  • Heuristic Adaptive (если длина запроса > 50 символов → CoT, иначе ZS)

Результаты удивили scale эффекта: PPN с α=10, β=1 показала 84.5% точности при 7.9 токенах в среднем — это 61.5% экономии против Fixed SC (89.1% точности при 20.5 токенах). Heuristic Adaptive (79.8% при 5.8 токенах) проиграла по обеим метрикам — не дотянула ни по точности, ни по экономии.

Почему такие выводы: Ключевой инсайт — простые эвристики не работают, потому что сложность задачи для LLM не коррелирует с длиной текста или другими поверхностными признаками. PPN учится находить тонкие паттерны (семантические, структурные), которые предсказывают, когда инвестиция в дорогую стратегию окупится точностью. Функция награды встраивает trade-off напрямую в оптимизацию — это принципиально сильнее ручных правил.

Парето-фронт: Варьируя α/β, PPN рисует кривую оптимальных решений (Pareto front). Любая точка на этой кривой доминирует Fixed стратегии — либо выше точность при той же стоимости, либо ниже стоимость при той же точности. Это математическое доказательство превосходства адаптивного подхода.


🔗

Ресурсы

Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning

Jiexi Xu, University of California, Irvine, School of Information & Computer Science

October 2025

Ключевые отсылки:

  • Chain-of-Thought Prompting [Wei et al., 2022]
  • Self-Consistency [Wang et al., 2022]
  • Gap-Filling Prompting [Kumar et al., 2024]
  • Proximal Policy Optimization (PPO) [Schulman et al., 2017]

📋 Дайджест исследования

Ключевая суть

Парадокс статических стратегий: всегда используешь Zero-Shot (прямой ответ) — проваливаешься на сложных задачах. Всегда используешь Self-Consistency (5 попыток + голосование) — переплачиваешь в 20 раз даже на вопросе "столица России". Метод позволяет выбирать стратегию промптинга динамически под каждую задачу, оценивая потребность в точности против затрат на токены. Ключевая формула: R = α·Точность - β·Стоимость — перед запросом оцени насколько критична точность (α) и насколько критична экономия (β). Это даёт 61.5% экономии токенов при сохранении 84.5% точности против всегда дорогой стратегии.

Принцип работы

Не бросай одну стратегию на все задачи — стройди иерархию от дешёвых к дорогим. Пять уровней: Zero-Shot (1×, прямой ответ) → Few-Shot (1.5×, с примерами) → Chain-of-Thought (4×, рассуждения по шагам) → Gap-Filling (5.5×, двухшаговая генерация) → Self-Consistency (20×, пять попыток + голосование). Перед каждой задачей мысленно взвешивай: насколько критична точность против стоимости токенов? Простой фактический вопрос — ZS достаточно. Сложная логическая задача — CoT. Критическое бизнес-решение где цена ошибки высока — SC, даже если 20× дороже. Это как покупка страховки — платишь больше только когда риск оправдывает цену.

Почему работает

LLM не оценивает сложность задачи перед генерацией — она просто начинает писать текст. Если дашь простой промпт (Zero-Shot) на сложную задачу — модель пропустит важные шаги рассуждения. Если дашь сложный промпт (Self-Consistency) на простую задачу — модель потратит 20× токенов на очевидный ответ. Формула R = α·Точность - β·Стоимость встраивает компромисс прямо в выбор стратегии — вместо жёстких эвристик ("если длина больше 50 слов → используй CoT") ты оцениваешь ожидаемую выгоду каждой стратегии для конкретного запроса. Это даёт гибкий порог вместо тупых правил. Исследование показало: обученная система экономит 61.5% токенов, теряя всего 4.6% точности (84.5% против 89.1% у Fixed SC) — это значит большинство задач не требуют дорогих стратегий.

Когда применять

Когда у тебя поток задач разной сложности и ты платишь за токены. Конкретно для работы с API LLM где каждый запрос стоит денег, особенно когда часть задач простая ("переведи email"), часть средняя ("напиши план статьи"), часть критическая ("оцени юридические риски контракта"). НЕ подходит если тебе всё равно на стоимость или все задачи одинаково критичны — тогда просто всегда используй Self-Consistency.

Мини-рецепт

1. Перед каждой задачей задай два вопроса: Насколько критична точность (α)? Низкая = 1, средняя = 10, высокая = 100. Насколько критична экономия токенов (β)? Не важна = 1, важна = 10, очень важна = 100.
2. Выбери стратегию по соотношению α/β: Если α/β < 5 (экономия важнее) — используй Zero-Shot на простых задачах, Few-Shot на средних. Если α/β = 5-20 (баланс) — используй Chain-of-Thought на большинстве задач. Если α/β > 20 (точность критична) — используй Self-Consistency на важных задачах.
3. Для критичных задач (α = 100) применяй Self-Consistency вручную: запусти 5 независимых промптов с разными ролями/перспективами (юрист, финансист, клиент, техлид, риск-менеджер). Попроси модель свести все 5 ответов в консенсусный, выделив повторяющиеся инсайты (высокая важность) и уникальные критичные (не пропустить).
4. Встрой условие выхода для экономии: Если 3 из 5 попыток SC совпадают — достаточно, не гони все 5 до конца.

Примеры

[ПЛОХО] : Напиши анализ рисков новой фичи и всегда используешь Chain-of-Thought на все задачи — переплачиваешь в 4 раза на простых вопросах, недополучаешь точность на критичных.
[ХОРОШО] : Оцениваешь задачу. Анализ рисков для бизнес-решения на сотни тысяч рублей — α = 100 (критична точность), β = 1 (стоимость токенов не важна). Соотношение α/β = 100 → нужна Self-Consistency. Запускаешь 5 промптов: ПОПЫТКА 1: Ты Chief Risk Officer крупного B2B SaaS. Назови 5 главных рисков автоматизации контрактов. Рассуждай по шагам: клиенты → процессы → юридика → технология. ПОПЫТКА 2: Ты юрист, специализирующийся на B2B SaaS. Какие юридические риски несёт автоматизация контрактов? Рассуждай через: обязательства → ответственность → регуляции. ПОПЫТКА 3: Ты CFO компании, которая внедрила автоматизацию контрактов и провалилась. Что пошло не так? Проанализируй: финансы → операции → клиенты. ПОПЫТКА 4: Ты клиент B2B SaaS, которому предлагают автоматизацию контрактов. Какие вопросы и сомнения у тебя возникают? Думай через: доверие → контроль → интеграция. ПОПЫТКА 5: Ты CTO. Назови технические риски автоматизации юридических контрактов. Анализируй: надёжность → безопасность → масштабируемость. ФИНАЛ: Сведи все 5 анализов. Какие риски повторяются чаще всего? Это главные угрозы. Какие уникальны, но критичны? Дай сводку топ-7 рисков с приоритетами. Результат: Пересекающиеся риски ("юридическая ответственность за ошибки AI") появятся в нескольких попытках — сигнал высокой важности. Уникальные критичные риски ("конфликт с корпоративным юристом как стейкхолдером") тоже видны. Финальная сводка покажет наиболее вероятные и опасные проблемы. Переплатил в 20 раз за токены, но не пропустил критичный риск который мог стоить миллионы.
Источник: Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning
ArXiv ID: 2509.25267 | Сгенерировано: 2026-01-12 06:14

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с