3,583 papers
arXiv:2603.23937 70 25 мар. 2026 г. FREE

Диалог → Вопросы: трёхэтапный конвейер «Сжать → Сгенерировать → Отобрать»

КЛЮЧЕВАЯ СУТЬ
Модель оценивает вопросы, которые сама написала — и ставит всем высокие баллы. Конечно ставит: она их автор. Конвейер «Summarizer → Generator → Evaluator» позволяет вытащить топ-3 реально важных вопроса из любого разговора или текста — вместо первых трёх, что пришли в голову. Секрет в третьем шаге: модель сначала пишет плюс и минус каждого вопроса, и только потом ставит балл. Рассуждение перед числом ломает паттерн оптимизма — оценки становятся дифференцированными, а не равномерно высокими.
Адаптировать под запрос

TL;DR

Если попросить LLM «придумай хорошие вопросы по этому разговору» — получишь случайный результат: часть вопросов окажутся очевидными, часть нерелевантными. Исследование показывает, что лучший способ — разбить задачу на три последовательных шага: сначала очистить разговор от шума, потом сгенерировать много вопросов с разнообразием по категориям, потом самой же моделью оценить и оставить лучшие.

Главная боль: длинный диалог содержит много «пустого» контента — приветствия, повторы, нерелевантные реплики. Если сразу просить вопросы из сырого разговора, модель улавливает поверхностные темы, а не ключевые. Кроме того, если попросить «дай 3 вопроса», модель сгенерирует первое что пришло, без системного охвата разных углов.

Решение — трёхагентная цепочка в одном или нескольких запросах: Summarizer превращает разговор в структурированную выжимку, Generator создаёт 10 вопросов по шести категориям с few-shot примерами, Evaluator прогоняет через CoT-оценку (плюсы/минусы → баллы) и выбирает топ-3.


🔬

Схема метода

ШАГ 1 — SUMMARIZER (1 запрос)
Вход: разговор + контекст о человеке
Задача: извлечь ключевую информацию, убрать шум
Формат вывода: структурированные поля
(главная проблема / история / текущий статус / план)

ШАГ 2 — GENERATOR (1 запрос)
Вход: структурированная выжимка из Шага 1
Задача: сгенерировать 10 вопросов
по 6 категориям (диагноз / действия / детали / 
решения / follow-up / консультация)
с 2 few-shot примерами «хорошего вопроса»
Формат вывода: 10 пронумерованных вопросов

ШАГ 3 — EVALUATOR (1 запрос)
Вход: 10 вопросов из Шага 2
Задача: для каждого вопроса — плюсы и минусы,
потом балл по каждому критерию
Формат вывода: топ-3 по среднему баллу

Все три шага выполняются последовательно, каждый в отдельном запросе. Вывод предыдущего — вход следующего.


🚀

Пример применения

Задача: После часового созвона с потенциальным инвестором нужно понять, какие три вопроса стоит проработать перед следующей встречей — чтобы закрыть его реальные сомнения, а не гадать.


Промпт — Шаг 1 (Summarizer):

Ты — аналитик переговоров. Прочитай транскрипт 
встречи и заполни структурированный протокол.

ТРАНСКРИПТ:
{вставь текст созвона}

КОНТЕКСТ О ПРОЕКТЕ:
{краткое описание: что за стартап, на какой стадии, 
что предлагали инвестору}

Заполни поля:
— Главный запрос инвестора (что хочет понять)
— Ключевые возражения (явные и скрытые)
— Что зацепило (на что реагировал позитивно)
— Открытые вопросы (что осталось невыясненным)
— Следующий шаг (что он ждёт от тебя)

Промпт — Шаг 2 (Generator):

На основе этого протокола встречи с инвестором 
сгенерируй ровно 10 вопросов, которые мне нужно 
проработать перед следующей встречей.

ПРОТОКОЛ:
{вставь вывод Шага 1}

ПРИМЕРЫ ХОРОШЕГО ВОПРОСА:
1. "Инвестор упомянул риск низкой маржи в B2B. 
Какие данные по unit economics аналогичных 
SaaS-компаний в РФ подтвердят, что наша модель 
жизнеспособна при среднем чеке 50 000 руб.?"

2. "Он сравнил нас с конкурентом X. Чем конкретно 
наш продукт отличается в сегменте МСБ, и есть ли 
кейсы, которые это доказывают?"

Распредели вопросы по категориям:
— Данные и доказательства (3 вопроса)
— Стратегия и позиционирование (2 вопроса)  
— Риски и возражения (2 вопроса)
— Команда и исполнение (1 вопрос)
— Условия сделки (1 вопрос)
— Follow-up действия (1 вопрос)

Каждый вопрос должен быть конкретным: 
включать контекст из разговора и указывать 
что именно нужно выяснить. Не общие вопросы.

Промпт — Шаг 3 (Evaluator):

Оцени каждый из 10 вопросов ниже.

ВОПРОСЫ:
{вставь вывод Шага 2}

Для каждого вопроса:
1. Кратко — главный плюс и главный минус
2. Оцени по трём критериям (1-5):
   — Срочность (насколько критично ответить до встречи)
   — Влияние (как сильно ответ изменит подготовку)  
   — Реалистичность (можно ли найти ответ за 3 дня)
3. Средний балл

В конце: выбери топ-3 по среднему баллу.
Объясни выбор одним предложением для каждого.

Результат: Шаг 1 даст структурированный протокол — без лишних слов из разговора, только суть. Шаг 2 — 10 конкретных вопросов с привязкой к деталям встречи и распределением по категориям. Шаг 3 покажет мини-рецензию на каждый вопрос (плюс/минус + баллы) и выделит топ-3 с объяснением, почему именно они важнее остальных.


🧠

Почему это работает

LLM плохо справляется с «зашумлёнными» входными данными. Разговор — это не структурированный документ. Там есть отступления, повторы, нерелевантные реплики. Если скормить это всё сразу, модель цепляется за самое частое и поверхностное, а не за ключевое. Сначала структурировать — значит убрать шум до начала основной работы.

LLM тяготеет к первым пришедшим ответам. Если попросить «дай 3 вопроса», модель остановится на первом, что успела сгенерировать. Попросить 10 с жёсткими категориями — значит принудительно раскрыть разные углы, которые она бы проигнорировала. Generate many, select few — это обход «первого достаточного ответа».

CoT-оценка (размышление → балл) точнее, чем прямая оценка. Если попросить «оцени вопросы», LLM даёт всем высокие баллы — она сама их написала. Но если сначала написать плюсы-минусы, а потом поставить балл — оценки становятся дифференцированными. Рассуждение перед числом ломает паттерн оптимизма. Именно это показало исследование: без CoT-процедуры LLM-судья давал всем высокие оценки.

Рычаги управления: - Категории в Шаге 2 → меняй под свою задачу: для ретроспективы — категории типа «что замедляло» / «что ускоряло» / «что повторить» - Число вопросов → уменьши с 10 до 6 для коротких входных данных - Критерии в Шаге 3 → замени «срочность/влияние/реалистичность» на свои; для редакции это может быть «читательская ценность / оригинальность / объём работы» - Примеры в Шаге 2 → чем точнее примеры под твой контекст, тем острее вопросы


📋

Шаблон промпта

📌

Шаг 1 — Summarizer

Прочитай {тип_входных_данных} и заполни протокол.

ВХОДНЫЕ ДАННЫЕ:
{текст_разговора_или_документа}

КОНТЕКСТ:
{краткое_описание_ситуации}

Заполни поля:
— {поле_1}: {что_извлечь}
— {поле_2}: {что_извлечь}
— {поле_3}: {что_извлечь}
— {поле_4}: {что_извлечь}
📌

Шаг 2 — Generator

На основе этого протокола сгенерируй ровно 10 вопросов 
о {тема_вопросов}.

ПРОТОКОЛ:
{вывод_шага_1}

ПРИМЕРЫ ХОРОШЕГО ВОПРОСА:
1. {пример_1_с_контекстом}
2. {пример_2_с_контекстом}

Распредели по категориям:
— {категория_1} ({число} вопросов)
— {категория_2} ({число} вопросов)
— {категория_3} ({число} вопросов)

Каждый вопрос: конкретный, с привязкой к деталям 
из протокола, указывает что именно нужно выяснить.
📌

Шаг 3 — Evaluator

Оцени каждый из 10 вопросов:

ВОПРОСЫ:
{вывод_шага_2}

Для каждого:
1. Плюс и минус (одно предложение каждый)
2. Баллы (1-5) по критериям:
   — {критерий_1}
   — {критерий_2}
   — {критерий_3}
3. Средний балл

Выбери топ-3. Объясни выбор.

Плейсхолдеры: - {тип_входных_данных} — транскрипт встречи, статья, интервью, разбор конкурента - {поля} — подбери под задачу: для анализа текста это «главный тезис / аргументы / пробелы / вопросы автора» - {категории} — 4-6 категорий, покрывающих разные углы задачи - {примеры} — 2 реальных примера хорошего вопроса из твоей области - {критерии} — 3 параметра оценки, важных именно для тебя


🚀 Быстрый старт — вставь в чат:

Вот трёхшаговый шаблон для генерации лучших вопросов 
из текста или разговора. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип входных данных, тему вопросов и нужные категории — потому что без этого она не знает, какую структуру и примеры подставить в шаблон.


⚠️

Ограничения

⚠️ Качество примеров в Шаге 2 определяет всё: Если few-shot примеры расплывчатые — вопросы будут расплывчатыми. Два конкретных примера важнее любых инструкций.

⚠️ Не работает для субъективных или творческих оценок: LLM-судья в Шаге 3 систематически завышает баллы, когда критерии размытые («интересность», «оригинальность»). Чем конкретнее критерии — тем надёжнее оценка.

⚠️ LLM-as-judge = хороший для сравнения, ненадёжный для абсолюта: Модель правильно определяет, что одно лучше другого, но абсолютные баллы она завышает. Используй Шаг 3 чтобы выбрать лучшие из своих вариантов — не чтобы оценить «качество в вакууме».

⚠️ Слишком короткий входной текст: Метод покрывает разные категории. Если разговор был пятиминутным и однотемным — принудительное распределение по 6 категориям даст искусственные вопросы.


🔍

Как исследовали

Команда Google Research и двух университетов взяла датасет из 2000 реальных (деидентифицированных) записей визитов к врачу в США. Отфильтровали до первичной помощи, убрали выбросы по длине — осталось 810 случаев. Из них отобрали 80 для оценки. Каждый случай тестировали при трёх уровнях «обрезки» разговора: 30%, 70% и 100% от полного диалога — чтобы проверить, работает ли система в реальном времени, до окончания визита.

Что удивило: система работала одинаково хорошо при всех трёх уровнях контекста. При 30% диалога оценки были чуть выше, чем при 100% — потому что клинически важная информация часто звучит в начале, а дальше идёт шум. Это значит: не нужен полный материал, чтобы генерировать хорошие вопросы.

Шесть практикующих врачей (средний опыт 16,5 лет) провели 90+ часов, оценивая вопросы по пяти метрикам: релевантность, навигация по гайдлайнам, совпадение с клиническим мышлением, отсутствие избыточности, полезность. Менее 2% всех оценок были «вопросы не нужны» — показатель, что система генерирует реально полезный контент. Мультиэтапный фреймворк снизил долю «плохих» вопросов с 17% до 9% по сравнению с прямым zero-shot подходом.

Параллельно ту же оценку провёл Gemini 2.5 Pro. Направление эффекта совпало с оценками врачей — многоэтапный метод лучше. Но абсолютные баллы от LLM были заметно выше: модель систематически «добрее» людей. Главный риск — LLM-судья пропускал ошибки в ссылках на конкретные гайдлайны, которые врачи сразу замечали.


💡

Адаптации и экстраполяции

📌

🔧 Адаптация 1: Двухшаговая версия (без отдельного Evaluator)

Если хочешь сэкономить запросы — объедини Шаги 2 и 3 в один:

На основе протокола:
1. Сгенерируй 10 вопросов по {категориям}
2. Для каждого — одно предложение: что хорошо, что слабо
3. Выбери топ-3 по совокупности. Объясни выбор.

Теряешь немного качества отбора, но экономишь шаг.


📌

🔧 Адаптация 2: Принцип «сначала структурируй» для любого сложного текста

Исследование показывает: структурирование входа важнее, чем качество промпта для генерации. Это переносится на любую задачу с длинным шумным текстом:

  • Читаешь длинный договор и хочешь найти риски → сначала попроси выжать в «ключевые условия / обязательства / ограничения / открытые вопросы», потом анализируй
  • Читаешь большое исследование и хочешь применить идеи → сначала схема «главный тезис / механика / ограничения», потом «как применить в моём контексте»

Принцип: шумный входной текст → структурированный протокол → генерация работает лучше прямого «прочитай и скажи».


🚀

🔧 Адаптация 3: Применение инсайта про LLM-as-judge

Если используешь LLM для сравнения вариантов — доверяй ей на относительные суждения (А лучше Б?), но не на абсолютные (насколько хорошо А?). Чтобы сделать оценку точнее:

Перед тем как дать баллы — напиши для каждого варианта:
главный аргумент ЗА и главный аргумент ПРОТИВ.
Потом поставь баллы.

CoT перед числом частично компенсирует системный оптимизм модели.


🔗

Ресурсы

Название работы: Dialogue to Question Generation for Evidence-based Medical Guideline Agent Development

Публикация: Proceedings of Machine Learning Research 297, ML4H 2025

GitHub с промптами: https://github.com/Jerryji007/Dialogue2QuestionsML4H2025

Авторы: Zongliang Ji, Ziyang Zhang, Xincheng Tan, Matthew Thompson, Anna Goldenberg, Carl Yang, Rahul G. Krishnan, Fan Zhang

Организации: Google Research, University of Toronto, Vector Institute (Канада), Emory University (США)

Упомянутые системы: Gemini 2.5 Flash/Pro, AMIE (Google DeepMind)


📋 Дайджест исследования

Ключевая суть

Модель оценивает вопросы, которые сама написала — и ставит всем высокие баллы. Конечно ставит: она их автор. Конвейер «Summarizer → Generator → Evaluator» позволяет вытащить топ-3 реально важных вопроса из любого разговора или текста — вместо первых трёх, что пришли в голову. Секрет в третьем шаге: модель сначала пишет плюс и минус каждого вопроса, и только потом ставит балл. Рассуждение перед числом ломает паттерн оптимизма — оценки становятся дифференцированными, а не равномерно высокими.

Принцип работы

Три запроса, каждый делает своё — не всё разом. Шаг 1 — убрать шум. Разговор — это не документ. Там приветствия, отступления, повторы. Скормить всё сразу — модель цепляется за самое частое, а не за ключевое. Summarizer превращает хаос в структуру: главная проблема, история, текущий статус, открытые вопросы. Шаг 2 — принудительное разнообразие. Попросить «дай 3 вопроса» — модель остановится на первых трёх. Попросить 10 вопросов по 6 категориям с двумя конкретными примерами — это принуждение охватить углы, которые она бы проигнорировала. Generator не выбирает — он добывает. Шаг 3 — CoT-оценка разрушает круговую поруку. Прямая оценка → все вопросы хороши, ведь они же хорошие, правда? Сначала плюс-минус, потом балл — появляется реальная разница. Evaluator выбирает топ-3 по среднему баллу и объясняет почему.

Почему работает

LLM плохо работает с зашумлёнными входными данными. В разговоре много лишнего. Модель цепляется за поверхностное и частое — не за важное. LLM останавливается на «первом достаточном» ответе. Ограничение в три вопроса — это разрешение остановиться рано. Десять вопросов по категориям — нельзя остановиться, не заполнив все клетки. Качество примеров в Шаге 2 определяет всё. Если few-shot примеры расплывчатые — вопросы будут расплывчатыми. Два конкретных примера важнее любых инструкций. Парадокс судьи: модель надёжно определяет, что одно лучше другого, но абсолютные баллы она завышает. Используй Шаг 3 чтобы выбрать лучшее из своих вариантов — не чтобы оценить «качество вообще».

Когда применять

Везде, где есть длинный входной текст → и нужно извлечь острые вопросы, а не очевидные. Лучше всего работает для: разборов встреч и звонков (что проработать до следующего контакта), анализа интервью и исследований (какие дыры остались), подготовки к переговорам (что закрыть перед встречей), редакционного анализа текста (какие вопросы ставит автор, но не отвечает). НЕ подходит для: очень коротких разговоров (5 минут, одна тема) — принудительные категории дадут искусственные вопросы. Если критерии оценки размытые («интересность», «оригинальность») — Шаг 3 даст ненадёжные баллы.

Мини-рецепт

1. Запусти Summarizer: Дай модели роль аналитика. Скорми разговор или текст + контекст о ситуации. Попроси заполнить 4-5 конкретных полей: главная проблема, ключевые возражения или пробелы, что осталось открытым, следующий шаг. Никакой свободной формы — только структура.

2. Запусти Generator: Подай вывод Шага 1 как вход. Попроси ровно 10 вопросов, разбитых по 4-6 категориям (подбери под задачу). Добавь два реальных примера хорошего вопроса из своей области — с контекстом и конкретикой. Каждый вопрос должен содержать привязку к деталям из протокола.

3. Запусти Evaluator: Подай 10 вопросов из Шага 2. Попроси для каждого: один плюс, один минус (по предложению), потом баллы 1-5 по трём критериям (выбери сам: срочность, влияние, реалистичность — или свои). Средний балл. Топ-3 с объяснением выбора.

4. Настрой под себя: Категории в Шаге 2 — меняй под задачу. Критерии в Шаге 3 — подбирай под контекст. Число вопросов — уменьши до 6 для коротких входных данных.

Примеры

[ПЛОХО] : Придумай хорошие вопросы по итогам моей встречи с инвестором: {текст транскрипта}
[ХОРОШО] : Шаг 1: Ты — аналитик переговоров. Прочитай транскрипт встречи и заполни протокол. ТРАНСКРИПТ: {текст}. КОНТЕКСТ: {описание проекта}. Поля: — Главный запрос инвестора — Ключевые возражения (явные и скрытые) — Что его зацепило — Открытые вопросы — Что он ждёт от тебя. Шаг 2: На основе протокола сгенерируй ровно 10 вопросов для подготовки к следующей встрече. ПРОТОКОЛ: {вывод шага 1}. ПРИМЕРЫ ХОРОШЕГО ВОПРОСА: 1. «Инвестор упомянул риск низкой маржи. Какие данные по похожим компаниям в РФ подтвердят жизнеспособность нашей модели при чеке 50 000 руб.?» 2. «Он сравнил нас с конкурентом X. Чем конкретно отличается наш продукт в сегменте малого бизнеса, и есть ли кейсы доказывающие это?». Категории: — Данные и доказательства (3) — Стратегия и позиционирование (2) — Риски и возражения (2) — Команда (1) — Условия сделки (1) — Следующие шаги (1). Шаг 3: Оцени каждый из 10 вопросов. Для каждого: главный плюс и главный минус (по предложению), потом баллы 1-5 по трём критериям — срочность (насколько критично ответить до встречи), влияние (как сильно меняет подготовку), реалистичность (можно ли найти ответ за 3 дня). Средний балл. В конце — топ-3 с объяснением выбора.
Источник: Dialogue to Question Generation for Evidence-based Medical Guideline Agent Development
ArXiv ID: 2603.23937 | Сгенерировано: 2026-03-26 04:27

Проблемы LLM

ПроблемаСутьКак обойти
Модель завышает оценки своих же ответовПросишь оценить список вариантов от 1 до 5. Модель ставит всем 4–5. Особенно если сама же их сгенерировала. Ранжирования нет — есть общее одобрение. Выбрать лучшие не получаетсяПеред числовой оценкой потребуй рассуждение: сначала плюс и минус для каждого варианта, потом балл. Когда модель сначала видит минусы — она не может поставить всем высокий балл

Методы

МетодСуть
Конвейер «очисти много сгенерируй отбери» — когда нужно лучшее из текстаТри шага. Шаг 1: дай модели сырой текст, попроси заполнить структурированные поля — вытащить суть без шума. Шаг 2: на основе выжимки попроси сгенерировать в 3–4 раза больше вариантов чем нужно, с жёсткими категориями (5–6 штук) и 2 примерами хорошего варианта. Шаг 3: попроси оценить каждый вариант: плюс минус баллы по 2–3 критериям топ-N. Каждый шаг — отдельный запрос, вывод предыдущего — вход следующего. Работает: длинный текст, нужны конкретные выводы, есть критерии оценки. Не работает: короткий однотемный вход — категории придётся заполнять искусственно

Тезисы

ТезисКомментарий
Принудительные категории заставляют модель охватить все углыБез категорий модель останавливается на первом достаточном ответе. Видит одну сильную тему — выдаёт три вопроса про неё. Когда категории заданы жёстко (по одному варианту на каждую), она вынуждена искать ответ там, куда сама бы не пошла. Это обход «первого достаточного». Применяй: вместо «дай 5 вопросов» пиши «дай по 1 вопросу из каждой категории: X, Y, Z, W, V»
📖 Простыми словами

Dialogue to Question Generation for Evidence-based Medical GuidelineAgentDevelopment

arXiv: 2603.23937

Суть в том, что LLM — это не магический оракул, а скорее очень начитанный, но рассеянный стажер. Если ты вывалишь на него расшифровку часового созвона и попросишь «выдели главное», он зацепится за случайную шутку в начале или за то, что повторялось чаще всего, пропустив суть. Чтобы вытащить из рыхлого диалога реально острые и глубокие вопросы, нужно перестать кормить модель сырым текстом. Секрет в трехступенчатом фильтре: сначала мы выкидываем мусор, потом заставляем нейронку генерировать идеи веером по разным категориям, и только в конце включаем режим жесткого критика, чтобы отсеять шелуху.

Это как пытаться найти золотое кольцо в куче строительного мусора с помощью магнита. Если ты просто проведешь магнитом над кучей, он соберет ржавые гвозди и пивные крышки, потому что их тупо больше. Формально задача выполнена, но кольцо осталось на дне. Чтобы найти золото, тебе нужно сначала разгрести завалы, потом просеять остатки через разные сита и в конце внимательно рассмотреть под лупой то, что блестит. В медицине или бизнесе цена «ржавого гвоздя» вместо важного вопроса — это потерянное время или неверный диагноз.

В исследовании обкатали метод цепочки генерации, который состоит из трех конкретных фаз. Первая — очистка и структурирование: превращаем хаотичный треп в сухую выжимку фактов. Вторая — диверсифицированная генерация: заставляем модель смотреть на текст под разными углами (например, «спроси про риски», «спроси про деньги», «спроси про сроки»), чтобы не получить пачку одинаковых вопросов. Третья — саморефлексия и ранжирование: модель сама оценивает свои же варианты по критериям релевантности и полезности, оставляя только топ-3. Этот подход превращает рандомный результат в стабильный инструмент.

Хотя ученые мучили нейронку медицинскими протоколами, этот принцип универсален. Его можно и нужно втыкать в любой процесс, где есть много неструктурированной информации: от анализа интервью с пользователями до подготовки к защите проекта перед советом директоров. Вместо того чтобы гадать, о чем тебя спросят, ты прогоняешь свои заметки через этот конвейер и получаешь список критических уязвимостей. Это переход от классического «сделай как-нибудь» к инженерному подходу в промптинге.

Короче: завязывай просить нейронку «подумать» над длинными текстами в один присест — она гарантированно схалтурит. Разделяй процесс на очистку, генерацию и фильтрацию. Только так можно превратить поток сознания в работающие инсайты, а не в набор очевидных банальностей. Кто научится строить такие конвейеры, тот и будет получать от AI реальную пользу, пока остальные жалуются, что модель опять несет какую-то дичь.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с