3,583 papers
arXiv:2603.12310 70 12 мар. 2026 г. FREE

VQQA: диагностический цикл вопросов для итеративного улучшения сложных заданий

КЛЮЧЕВАЯ СУТЬ
Просишь LLM «улучши это» — она не знает что именно плохо. Нет внутреннего приоритета. Исправляет стиль — ломает логику. Исправляет логику — теряет тон. Как правка текста без правил: починил одно, сломал другое. VQQA позволяет находить точные слабые места в первом черновике и исправлять именно их — не всё разом и без потери исходного замысла. Фишка: не проси «улучши» — попроси ответить на 6–8 конкретных вопросов с оценкой 0–100. Низкая оценка по конкретному вопросу — точный сигнал: вот что ломать, вот почему, вот куда смотреть. Работает в 3–4 цикла и останавливается, когда рост оценок прекращается.
Адаптировать под запрос

TL;DR

VQQA — техника итеративного улучшения результата через структурированную диагностику. Вместо размытого "улучши это" система генерирует конкретные вопросы о качестве, отвечает на них с оценкой 0–100, находит слабые места и переписывает промпт именно под них.

Главная находка: когда вы просите LLM "сделай лучше" — она не знает что именно плохо. Модель улучшает всё сразу и ни за что конкретно не отвечает. Это похоже на правку текста без правил — исправил одно, сломал другое. Структурированные вопросы дают модели точный диагноз: вот что не так, вот почему, вот что менять.

Дополнительная проблема — смещение от цели: итерируя, легко уйти от исходного замысла. VQQA решает это через постоянную сверку с оригинальным запросом после каждого шага. Метод работает в 3–4 итерации и останавливается, когда прирост качества перестаёт расти.


🔬

Схема метода

Три агента работают последовательно в рамках одного диалога. Каждый шаг — отдельный запрос к модели.

ШАГ 1 — Генерация вопросов (QG Agent):
  Получает: исходный запрос + текущий результат
  Генерирует: список точечных вопросов по трём измерениям:
    · Соответствие запросу (достигнуто ли то, что просили?)
    · Качество содержания (внутренняя логика, стиль, структура)
    · Соответствие условиям (тон, формат, аудитория)
  → Выводит: пронумерованный список вопросов

ШАГ 2 — Оценка (QA Agent):
  Отвечает на каждый вопрос
  Ставит оценку 0–100 по каждому пункту
  Объясняет причину низких оценок
  → Выводит: таблицу "вопрос → оценка → что конкретно не так"

ШАГ 3 — Уточнение промпта (PR Agent):
  Берёт только низко оценённые пары (вопрос + объяснение)
  Переписывает промпт, явно адресуя каждую проблему
  → Выводит: улучшенный промпт для следующей итерации

ШАГ 4 — Проверка дрейфа (Global Selector):
  Сравнивает новый результат с *оригинальным* запросом
  Ставит общую оценку 0–100
  → Оставляет лучший вариант за все итерации, не последний

СТОП: когда оценка перестала расти 2-3 цикла подряд

🚀

Пример применения

Задача: Написать питч-текст для Tinkoff стартап-трека — 3 абзаца о B2B SaaS для управления складами малого бизнеса. Нужно зацепить инвестора с первых строк, показать боль рынка, не скатиться в технический жаргон.

Промпт — Шаг 1 и 2 (диагностика первого варианта):

У меня есть задание и первый вариант текста. Сначала сыграй роль 
строгого редактора питчей для венчурных инвесторов.

ЗАДАНИЕ: [вставь исходный промпт на написание питча]
РЕЗУЛЬТАТ: [вставь первый вариант текста]

Сделай следующее:

1. ДИАГНОСТИКА — сгенерируй 6–8 конкретных вопросов по трём блокам:
   - СООТВЕТСТВИЕ ЗАДАНИЮ: выполнено ли то, что просили?
   - КАЧЕСТВО: логика, убедительность, конкретность, язык
   - АУДИТОРИЯ: подходит ли для инвестора Тинькофф, не техника?

2. ОЦЕНКА — ответь на каждый вопрос.
   Формат: Вопрос → Оценка (0–100) → Что конкретно не так

3. ИТОГ — выдели 2–3 вопроса с самой низкой оценкой.
   Это приоритеты для правки.

Промпт — Шаг 3 (улучшение):

Вот диагностика текста [вставь результат шага 2].

Теперь перепиши промпт для генерации питча, явно исправляя 
каждую из проблем с низкой оценкой. 

Не трогай то, что получило оценку выше 80.
Выведи: обновлённый промпт + краткое объяснение что изменил и почему.

Результат:

Модель покажет карту проблем первого варианта — конкретно: "абзац 2 начинается с технического термина, инвестор потеряется", "боль рынка описана абстрактно, нет цифр". Затем выдаст переработанный промпт с явными указаниями для каждой слабой точки. После 2–3 таких циклов текст будет отвечать на все диагностические вопросы с оценкой выше 80.


🧠

Почему это работает

Слабость LLM при "просто улучши": модель не знает, что именно считать плохим. У неё нет внутреннего приоритета — она может "улучшить" стиль, сломав логику. Без диагностики правки хаотичны.

Сильная сторона LLM: отвечать на конкретные бинарные и оценочные вопросы модель умеет хорошо. "Есть ли в тексте конкретная цифра рынка? Оценка 0–100?" — это точечная задача, с ней справляется лучше, чем с размытым "оцени качество".

Как метод использует это: диагностические вопросы раскладывают размытое "хорошо/плохо" на конкретные измеримые оси. Низкая оценка по конкретному вопросу = точный сигнал для правки. Модель улучшает не всё сразу, а именно слабые места.

Рычаги управления: - Число вопросов: 6–8 для сложных задач, 3–4 для коротких текстов. Меньше вопросов — быстрее, но меньше покрытие - Порог оценки: "приоритизируй вопросы ниже 60" — жёсткая правка; "ниже 80" — тонкая полировка - Блоки диагностики: меняй под задачу. Для кода: "читаемость / корректность / покрытие кейсов". Для резюме: "ясность / релевантность / тон" - Проверка дрейфа: добавь в конце каждого цикла "сравни с оригинальным заданием — не ушли ли мы в сторону?"


📋

Шаблон промпта

Я дам тебе ЗАДАНИЕ и РЕЗУЛЬТАТ. Сыграй роль строгого эксперта в области {область_экспертизы}.

ЗАДАНИЕ: {исходный_запрос}
РЕЗУЛЬТАТ: {текущий_вариант}

Шаг 1 — ДИАГНОСТИКА
Создай {число_вопросов} конкретных вопросов о качестве в трёх блоках:
· Соответствие заданию: достигнуто ли то, что просили?
· Качество содержания: {критерии_качества}
· Соответствие аудитории: {описание_аудитории}

Шаг 2 — ОЦЕНКА
Ответь на каждый вопрос по формату:
[Вопрос] → [Оценка 0–100] → [Что конкретно не так, если ниже 75]

Шаг 3 — ПРИОРИТЕТЫ
Выдели {число_приоритетов} вопроса с наименьшей оценкой.
Это точки для следующей итерации.

Шаг 4 — УЛУЧШЕННЫЙ ПРОМПТ
Перепиши исходное задание так, чтобы явно адресовать каждый приоритет.
Не трогай то, что получило оценку выше 80.

Что подставлять: - {область_экспертизы} → "питчей для инвесторов", "UX-текстов", "юридических документов" - {число_вопросов} → 6–8 для сложных задач, 3–5 для коротких - {критерии_качества} → "логика, конкретность, язык, убедительность" - {описание_аудитории} → "венчурный инвестор с фокусом на B2B SaaS" - {число_приоритетов} → 2–3, не больше — иначе правка станет хаотичной


🚀 Быстрый старт — вставь в чат:

Вот шаблон VQQA — диагностического цикла улучшения текста. 
Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно оценивать, кто аудитория и какой результат нужно улучшить — потому что без этого она не сможет сгенерировать точные диагностические вопросы. Она возьмёт структуру из шаблона и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Простые задачи: метод избыточен. Если задача однозначная ("переведи на английский", "сократи текст вдвое") — диагностический цикл только добавит токены без пользы.

⚠️ Субъективные критерии: если "хорошо" зависит от личного вкуса, а не объективных параметров, вопросы будут размытыми, а оценки — случайными. Метод работает там, где у "хорошо" есть измеримые признаки.

⚠️ Дрейф от цели: при многих итерациях без проверки против оригинала текст может "улучшиться" в неправильном направлении. Добавляй Global Selector (сверку с исходным заданием) каждые 2 цикла.

⚠️ Оригинальная система — инфраструктура: VQQA в исследовании работает как автоматизированный пайплайн для генерации видео. Без автоматизации каждый цикл — это ручная работа. Для быстрых задач это не окупится.


🔍

Как исследовали

Команда Google взяла видеогенератор CogVideoX-5B и запустила на нём три типа задач: создать видео по тексту, оживить изображение, сгенерировать сложные сцены с несколькими объектами. Сравнивали с двумя подходами: "просто выбери лучшее из N попыток" (Best-of-N) и "оптимизируй промпт по датасетным предпочтениям" (VPO).

Интересный момент дизайна: VQQA не видит внутренности видеомодели — работает только через текстовый интерфейс, как будто это чёрный ящик. Это важно, потому что большинство конкурирующих методов (EvoSearch, Video-TTT) требуют прямого доступа к весам модели. VQQA подключается к любому генератору через API — как пользователь, а не как разработчик.

Результат оказался неожиданным: 4 итерации дали прирост качества, сопоставимый с подходами, которые генерировали по 5 вариантов и выбирали лучший. При этом VQQA "знала зачем" улучшать, а не просто везло с выборкой. Отдельно проверяли качество диагностики: VQQA находила на 12% больше реальных дефектов видео, чем прямой запрос "что тут не так?"


💡

Адаптации и экстраполяции

🔧 Техника: именованные роли вместо безликих агентов → острее критика

Вместо "сыграй роль эксперта" дай конкретного персонажа с известным стилем:

Шаг 1 — ДИАГНОСТИКА (от лица Артемия Лебедева):
Что в этом тексте бесит и почему это непрофессионально?
...
Шаг 2 — ОЦЕНКА (от лица инвестора Фонда Сколково):
Каждый пункт — деньги или не деньги. Оценка 0–100.

Персонаж с заострённой позицией даёт более конкретные вопросы — потому что у него есть характер, а не нейтральность.


🔧 Техника: однопромптовый вариант для быстрых задач

Если не хочешь три отдельных запроса — сверни всё в один:

Вот задание и результат.

Сделай три вещи за один ответ:
1. Задай себе 5 конкретных вопросов о качестве (по заданию, содержанию, аудитории)
2. Ответь на каждый, поставь оценку 0–100
3. Перепиши результат, исправляя только пункты ниже 70

ЗАДАНИЕ: {задание}
РЕЗУЛЬТАТ: {текущий_вариант}

Теряешь немного в точности, выигрываешь в скорости. Подходит для коротких текстов, где три итерации — это избыточно.


🔗

Ресурсы

VQQA: An Agentic Approach for Video Evaluation and Quality Improvement Yiwen Song, Tomas Pfister, Yale Song — Google DeepMind Проектная страница: https://yiwen-song.github.io/vqqa/

Упомянутые техники: TextGrad (Yuksekgonul et al., 2024), Self-Refine (Madaan et al., 2023), Reflexion (Shinn et al., 2023)


📋 Дайджест исследования

Ключевая суть

Просишь LLM «улучши это» — она не знает что именно плохо. Нет внутреннего приоритета. Исправляет стиль — ломает логику. Исправляет логику — теряет тон. Как правка текста без правил: починил одно, сломал другое. VQQA позволяет находить точные слабые места в первом черновике и исправлять именно их — не всё разом и без потери исходного замысла. Фишка: не проси «улучши» — попроси ответить на 6–8 конкретных вопросов с оценкой 0–100. Низкая оценка по конкретному вопросу — точный сигнал: вот что ломать, вот почему, вот куда смотреть. Работает в 3–4 цикла и останавливается, когда рост оценок прекращается.

Принцип работы

Три роли в одном диалоге — каждая отдельным запросом. Первая генерирует конкретные вопросы по трём осям: соответствие заданию (достигнуто ли то, что просил?), качество содержания (логика, язык, убедительность), соответствие аудитории (тон, формат, для кого пишем). Вторая отвечает на каждый вопрос и ставит оценку 0–100 с объяснением почему низко. Третья берёт только вопросы с низкой оценкой и переписывает промпт, явно закрывая каждую проблему — не трогая то, что уже работает. Четвёртый шаг — сверка с оригинальным заданием после каждого цикла. Без этого итерации уводят текст в сторону: «улучшенный» питч вдруг перестаёт быть питчем. Модель оставляет лучший вариант за все циклы — не последний.

Почему работает

LLM хорошо справляется с точечными вопросами. «Есть ли в тексте конкретная цифра рынка? Оценка 0–100?» — простая задача, модель не путается. «Оцени качество текста» — нет, плывёт: непонятно по каким осям, что важнее, что можно проигнорировать. Диагностические вопросы разбивают размытое «хорошо/плохо» на измеримые части. Каждый вопрос — это отдельная ось оценки, а не общее ощущение. Модель больше не улучшает «вообще всё» — она видит что именно получило 40 из 100 и работает только с этим. Правки становятся прицельными, а не хаотичными.

Когда применять

Любой сложный текст с субъективным «почти хорошо, но что-то не то» — питчи для инвесторов, статьи, сценарии, описания продуктов, коммерческие предложения. Особенно полезен когда есть первый черновик и нет понимания что именно переписать. Для кода меняй блоки диагностики: «читаемость / корректность / покрытие случаев». Для резюме: «ясность / релевантность / тон». НЕ подходит для простых однозначных задач — перевод, сокращение вдвое, форматирование. Там диагностический цикл только съест лишние токены без пользы. Также не работает когда «хорошо» — это чистый личный вкус без измеримых признаков: вопросы будут размытыми, оценки случайными.

Мини-рецепт

1. Дай роль: <роль>строгий эксперт в области питчей для венчурных инвесторов — конкретная экспертиза, не «помощник».
2. Передай два текста: исходное задание + текущий черновик. Оба обязательно — без исходного задания модель не знает с чем сравнивать.
3. Попроси диагностику: сгенерировать 6–8 конкретных вопросов по трём блокам — соответствие заданию, качество содержания, соответствие аудитории.
4. Попроси оценку: ответить на каждый вопрос с оценкой 0–100 и объяснением при оценке ниже 75. Формат: вопрос → оценка → что конкретно не так.
5. Попроси правку: переписать промпт, явно закрывая только вопросы с низкой оценкой. Явно запрети трогать то, что выше 80 — иначе «улучшит» то, что уже работало.
6. Повтори 2–3 раза. Каждые 2 цикла добавляй явную проверку: «сравни новый вариант с оригинальным заданием — не ушли ли в сторону?» Оставляй лучший вариант за все циклы, не последний.

Примеры

[ПЛОХО] : Улучши этот питч для инвестора: [текст]
[ХОРОШО] : Я дам тебе задание и текущий черновик. Сыграй роль строгого эксперта по питчам для венчурных инвесторов. ЗАДАНИЕ: написать питч для Tinkoff стартап-трека — 3 абзаца о B2B SaaS для управления складами малого бизнеса. ЧЕРНОВИК: [текст] Шаг 1 — создай 6 конкретных вопросов в трёх блоках: - Соответствие заданию: три абзаца? есть боль рынка? - Качество: конкретные цифры? убедительная логика? - Аудитория: понятно инвестору без технического жаргона? Шаг 2 — ответь на каждый вопрос: [Вопрос] → [Оценка 0–100] → [Что конкретно не так при оценке ниже 75] Шаг 3 — выдели 2–3 вопроса с наименьшей оценкой. Шаг 4 — перепиши задание так, чтобы явно закрыть каждый приоритет. Не трогай то, что получило выше 80.
Источник: VQQA: An Agentic Approach for Video Evaluation and Quality Improvement
ArXiv ID: 2603.12310 | Сгенерировано: 2026-03-16 04:31

Проблемы LLM

ПроблемаСутьКак обойти
"Улучши это" не даёт модели цельПросишь "сделай лучше". Модель не знает что именно плохо. Исправляет стиль — ломает логику. Меняет структуру — теряет тон. Без явного диагноза правки хаотичны. Проблема возникает в любом итеративном улучшении: текстов, кода, промптовРазложи "хорошо/плохо" на конкретные вопросы с оценкой 0–100. Потом правь только те места, где оценка низкая. Модель знает точно что сломано — и чинит только это

Методы

МетодСуть
Диагностический цикл — точечное улучшение вместо "сделай лучше"Шаг 1 — Диагностика. Дай модели задание и текущий результат. Попроси сгенерировать 6–8 конкретных вопросов в трёх блоках: выполнено ли задание / качество содержания / соответствие аудитории. Шаг 2 — Оценка. Та же модель отвечает на каждый вопрос. Формат: Вопрос Оценка 0–100 Что конкретно не так. Шаг 3 — Правка. Перепиши промпт, явно адресуя только пункты с низкой оценкой. Всё что выше 80 — не трогай. Шаг 4 — Проверка дрейфа. Сравни результат с оригинальным заданием, не с предыдущей версией. Выбери лучший вариант за все циклы — не последний. Почему работает: модель умеет отвечать на точечные вопросы лучше чем на размытое "оцени качество". Конкретный вопрос = точный сигнал = точная правка. Когда не работает: простые задачи ("переведи", "сократи"), субъективные критерии без измеримых признаков. Рычаги: порог "ниже 60" — жёсткая правка, "ниже 80" — полировка; 3–4 цикла максимум
📖 Простыми словами

VQQA: AnAgenticApproach for Video Evaluation and Quality Improvement

arXiv: 2603.12310

Суть метода VQQA в том, что нейронки, как и люди, тупеют от абстрактных задач. Если ты скажешь модели «сделай этот текст лучше», она просто переставит слова местами, не понимая, в чем именно проблема. Метод ломает этот сценарий: вместо слепого редактирования система сначала проводит структурированную диагностику. Она сама придумывает критерии качества, выставляет себе оценки по шкале от 0 до 100 и только потом, видя конкретные дыры в логике или стиле, точечно их латает. Это превращает процесс из гадания на кофейной гуще в целенаправленную инженерную правку.

Это как если бы ты пришел к редактору и вместо «посмотри свежим взглядом» получил чек-лист из десяти вопросов: «понятно ли, на чем мы зарабатываем?» или «не слишком ли много здесь офисного жаргона?». Без такого списка редактор просто поправит запятые, а с ним — пересобьет структуру там, где она реально проседает. VQQA — это внутренний критик, который сначала бьет по рукам за конкретные косяки, а потом показывает, как их исправить, чтобы не превратить текст в бессвязную кашу.

Внутри работают три агента, и это не просто формальность, а жесткая иерархия. Первый агент генерирует острые вопросы к контенту, второй — беспристрастно на них отвечает, выставляя баллы, а третий берет этот «протокол допроса» и переписывает исходник. Например, если ты питчишь B2B SaaS для складов, система не просто добавит эпитетов, а проверит: «показана ли боль малого бизнеса?». Если оценка за этот пункт — 20 из 100, модель в следующем шаге вгрызется именно в описание проблемы, пока цифра не поползет вверх.

Этот принцип универсален и легко масштабируется с видео (где его тестировали) на любой текст, будь то пост в телеграм или стратегия для инвесторов. Проблема обычных LLM в том, что у них нет внутреннего приоритета: они могут улучшить стиль, напрочь убив смысл. VQQA навязывает модели этот приоритет извне. Тестировали на сложных визуальных задачах, но в копирайтинге и маркетинге это работает даже чище, потому что критерии успеха здесь легче превратить в конкретные вопросы.

Короче, пора завязывать с промптами в духе «напиши круто». Будущее за итерациями, где модель сначала сама себя разносит в пух и прах по пунктам, а потом исправляется. Диагностика важнее правок, потому что без понимания, где именно ты лажаешь, любое «улучшение» — это просто трата токенов впустую. Кто научит свои системы самокритике через такие цепочки, тот получит контент на голову выше конкурентов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с