3,583 papers
arXiv:2602.11938 83 12 фев. 2026 г. FREE

Underspecification Detection: почему LLM не понимает твой вопрос (и как это исправить)

КЛЮЧЕВАЯ СУТЬ
Обнаружено: от 16% до 50% вопросов в QA-датасетах недоопределены — пропущен год, место, критерий оценки. LLM не просит уточнить, а додумывает сам и часто промахивается. Метод underspecification detection позволяет выявить что именно пропущено в вопросе и переформулировать его так, чтобы модель поняла ЧТО ты спрашиваешь. Вместо прямого вопроса просишь модель найти пропущенную информацию — она перечисляет что неясно (время? место? критерий размытого термина?) и сама переформулирует. На уточнённые вопросы точность выросла на 9-20%.
Адаптировать под запрос

TL;DR

Недоопределённость (underspecification) — когда вопрос не содержит всей информации, необходимой для однозначного ответа. Пример из датасета Natural Questions: "Кто самый богатый клуб в чемпионате?" — непонятно какой чемпионат, в каком году, и что значит "богатый" (по доходам? по стоимости игроков?). Для человека, знающего контекст, всё очевидно. Для LLM — необходимо уточнение.

Исследователи обнаружили, что от 16% до 50% вопросов в популярных QA-бенчмарках недоопределены. На таких вопросах LLM показывает значительно хуже результаты — не потому что не знает ответ, а потому что не понимает что именно спрашивают. Модель может додумать контекст неправильно: решить что речь о Премьер-лиге 2024 года, когда в датасете имелся в виду Чемпионшип 2019.

Когда те же вопросы переписали в полностью определённые (указали чемпионат, год, критерий "богатства"), точность ответов выросла на 9-20%. Это показывает: многие "ошибки" LLM — на самом деле проблемы формулировки вопроса, не недостаток знаний модели.


📌

Схема проблемы и решения

ПРОБЛЕМА: Вопрос → недостаёт контекста → LLM додумывает неправильно → неверный ответ

РЕШЕНИЕ: 1. Определи что недоопределено (время? место? критерий? термин?) 2. Добавь недостающую информацию явно 3. Задай уточнённый вопрос → точный ответ


🚀

Пример применения

Задача: Готовишь аналитику для клиента — сеть кофеен в Москве. Спрашиваешь у ChatGPT: "Какая средняя проходимость кофейни в хорошей локации?"

Проблема: Вопрос недоопределён — "хорошая локация" может означать бизнес-центр, спальный район у метро, туристический центр. "Проходимость" — количество прохожих или количество посетителей? "Средняя" — по Москве, по России, глобально?

Промпт (вместо прямого вопроса):

Вот мой вопрос: "Какая средняя проходимость кофейни в хорошей локации?"

Какая информация в нём недостаёт для однозначного ответа? 
Переформулируй вопрос, добавив недостающий контекст.

Результат: Модель перечислит что неясно: город (Москва), тип локации (офисный центр / жилой район / туристическая зона), метрика (посетителей в день или выручка), размер заведения. Затем предложит уточнённый вопрос, например: "Сколько посетителей в день обслуживает кофейня на 20-30 мест рядом с метро в спальном районе Москвы?" — на который можно получить конкретный ответ или запрос дополнительных данных.


🧠

Почему это работает

Слабость LLM: Модель не знает твой контекст. То что очевидно для тебя (какой чемпионат, какой год, какой критерий) — для неё тёмный лес. Она пытается угадать, опираясь на статистику текстов, и часто угадывает неправильно.

Сильная сторона LLM: Модель отлично распознаёт пропущенную информацию и генерирует уточняющие вопросы. Она видит паттерны недоопределённости: отсутствие временного фрейма, размытые термины, пропущенные параметры.

Как работает решение: Вместо того чтобы заставлять LLM гадать, ты переключаешь её в режим "помоги мне уточнить вопрос". Модель сама называет что неясно и переформулирует. Ты получаешь полностью определённый вопрос, на который модель может ответить точно — либо корректный список уточнений для поиска данных.

Рычаги управления: - Глубина анализа: Можешь попросить "перечисли ВСЕ допущения" — получишь детальный разбор каждого слова - Формат вывода: Добавь "ответь списком" или "задай уточняющие вопросы" вместо переформулировки — под разные задачи - Контекст для AI: Если знаешь часть информации, сразу укажи: "Речь о Москве, 2024 год. Что ещё неясно?" — сократишь итерации


📋

Шаблон промпта

Вот мой вопрос: {твой_вопрос}

Какая информация в нём недостаёт для однозначного ответа?
Переформулируй вопрос, добавив недостающий контекст.

Где применять: - {твой_вопрос} — любой вопрос к LLM, на который получил неточный или странный ответ

Вариант для списка уточнений:

Вот мой вопрос: {твой_вопрос}

Задай мне уточняющие вопросы, чтобы ответить точно.

Этот вариант полезен когда ты сам не знаешь всех деталей — модель спросит, ты ответишь, потом она даст точный результат.


⚠️

Ограничения

⚠️ Не работает для субъективных вопросов: Если вопрос требует оценки ("лучший", "красивый", "интересный") без критериев — уточнение не поможет. Нужно задать критерий явно: "самый популярный по просмотрам" вместо "самый интересный фильм".

⚠️ Не заменяет знания фактов: Если информации нет в обучающих данных модели (свежие события, узкоспециальные данные) — даже идеальная формулировка не вытащит ответ из пустоты.

⚠️ Может быть избыточным для простых вопросов: "Столица Франции?" не требует уточнений. Используй технику когда получил неожиданный или неточный ответ, не на каждый запрос.


🔍

Как исследовали

Команда собрала 855 вопросов из датасетов про недоопределённость и неоднозначность и обучила LLM-классификатор определять недоопределённые вопросы. Лучше всех справилась Qwen3-4B (71% точность на базовом датасете, 77% на экспертно проверенном подмножестве).

Затем применили классификатор к 4 популярным QA-бенчмаркам (Natural Questions, HotpotQA, TriviaQA, FRAMES) — всего 3824 вопроса. Результат удивил: в TriviaQA только 16% недоопределённых (это викторина, вопросы специально формулируют полными), но в FRAMES — больше половины (53%). В среднем по всем датасетам около трети вопросов недоопределены.

Когда проверили как GPT-4o и Gemini-2.5-Flash справляются с ответами, обнаружили статистически значимое падение точности на недоопределённых вопросах во всех датасетах.

Финальный эксперимент — контролируемое переписывание. Взяли недоопределённые вопросы, дали LLM правильный ответ из датасета и попросили переформулировать вопрос так, чтобы он вёл к этому ответу. После переписывания 64-86% вопросов стали полностью определёнными, а точность ответов выросла на 9-20% в зависимости от датасета. Это доказывает: проблема была в формулировке, не в знаниях модели.

Ключевой инсайт: Большинство "ошибок" LLM на QA-бенчмарках — это не неспособность найти ответ, а невозможность понять какой именно ответ требуется. Модель знала факты, но не знала контекста вопроса.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Превентивная проверка → избегай итераций

Вместо цикла "спросил → получил плохой ответ → уточнил", проверяй заранее:

Перед тем как ответить на мой вопрос, проверь: вся ли информация для точного ответа в нём есть?

Вопрос: {твой_вопрос}

Если чего-то не хватает — скажи что именно. Если всё ясно — отвечай.

Экономит время когда работаешь с серией вопросов — модель либо сразу отвечает, либо сразу просит уточнений.


📌

🔧 Техника: Несколько интерпретаций → увидь что может пойти не так

Полезно для критически важных вопросов (бизнес-решения, технические спецификации):

Вот мой вопрос: {твой_вопрос}

Покажи 2-3 разные интерпретации этого вопроса. 
Затем скажи какую информацию добавить, чтобы оставить только одну правильную интерпретацию.

Модель покажет как она может понять вопрос по-разному — ты увидишь потенциальные риски неправильного понимания и добавишь контекст превентивно.


🔗

Ресурсы

Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance

Датасеты: CLAMBER, IN3, CoCoNot, AmbigNQ, Natural Questions, HotpotQA, TriviaQA, FRAMES

Yunchong Huang (ILLC, University of Amsterdam), Gianni Barlacchi (Amazon AGI), Sandro Pezzelle (ILLC, University of Amsterdam)


📋 Дайджест исследования

Ключевая суть

Обнаружено: от 16% до 50% вопросов в QA-датасетах недоопределены — пропущен год, место, критерий оценки. LLM не просит уточнить, а додумывает сам и часто промахивается. Метод underspecification detection позволяет выявить что именно пропущено в вопросе и переформулировать его так, чтобы модель поняла ЧТО ты спрашиваешь. Вместо прямого вопроса просишь модель найти пропущенную информацию — она перечисляет что неясно (время? место? критерий размытого термина?) и сама переформулирует. На уточнённые вопросы точность выросла на 9-20%.

Принцип работы

Недоопределённый вопрос → модель додумывает контекст → неправильный ответ. Решение: переключи модель в режим 'помоги уточнить вопрос'. Она сама назовёт что пропущено (временной фрейм? локация? критерий для размытого термина?) и переформулирует. Получаешь полностью определённый вопрос — модель отвечает точно или выдаёт корректный список недостающих данных.

Почему работает

LLM не видит твой контекст — то что очевидно для тебя (какой чемпионат, какой год, что значит 'богатый'), для неё тёмный лес. Она пытается угадать по статистике текстов и часто промахивается. Но модель отлично распознаёт паттерны недоопределённости — отсутствие временного фрейма, размытые термины ('хорошая локация', 'средняя проходимость'), пропущенные параметры. Переключаешь её из режима 'угадай что имелось в виду' в режим 'укажи что неясно' — получаешь точный вопрос вместо гадания на статистике.

Когда применять

Для любых запросов к LLM → конкретно когда получил неточный или странный ответ, особенно если вопрос содержит общие термины ('хорошая локация', 'богатый клуб', 'средняя проходимость', 'популярный метод'). НЕ подходит для субъективных оценок без критериев ('лучший фильм', 'красивый дизайн') — сначала задай критерий явно ('самый кассовый', 'по рейтингу Metacritic').

Мини-рецепт

1. Оберни вопрос в мета-запрос: Вот мой вопрос: {твой_вопрос}. Какая информация в нём недостаёт для однозначного ответа? Переформулируй вопрос, добавив недостающий контекст.
2. Модель перечислит: Что неясно — время, место, критерий для размытых терминов, единицы измерения, размер выборки
3. Задай уточнённый вопрос: Используй переформулированный вариант или ответь на уточняющие вопросы модели, затем получи точный ответ

Примеры

[ПЛОХО] : Какая средняя проходимость кофейни в хорошей локации? → Модель додумывает: какой город? офисный центр или спальный район? проходимость = прохожие или посетители? → неточный ответ
[ХОРОШО] : Вот вопрос: "Какая средняя проходимость кофейни в хорошей локации?" Какая информация недостаёт для однозначного ответа? Переформулируй, добавив контекст. → Модель перечисляет: город, тип локации (офисный центр / спальный район), метрика (посетителей в день или выручка), размер заведения → предлагает уточнённый вопрос: Сколько посетителей в день обслуживает кофейня на 20-30 мест рядом с метро в спальном районе Москвы? → точный ответ или запрос данных
Источник: Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance
ArXiv ID: 2602.11938 | Сгенерировано: 2026-02-13 05:30

Концепты не выделены.

📖 Простыми словами

Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance

arXiv: 2602.11938

Проблема в том, что большинство наших вопросов к нейросетям — это недоопределенная фигня. Мы привыкли, что контекст у нас в голове, и ждем от модели телепатии. Когда ты спрашиваешь «кто самый богатый клуб в чемпионате», ты подсознательно имеешь в виду Англию и текущий сезон, но для LLM это информационный вакуум. Она не знает, говоришь ты про футбол, регби или шахматы, и какой год на дворе. В итоге модель начинает гадать на кофейной гуще, выдавая уверенную, но абсолютно бесполезную чушь.

Это как зайти в аптеку и сказать: «Дайте мне таблетки от головы». Фармацевт может выдать цитрамон, а может — рецептурный препарат от мигрени, и оба будут правы, но тебе ни черта не поможет. Ты злишься, что тебя не поняли, хотя сам не уточнил, что голова болит от похмелья, а не от давления. В общении с AI происходит то же самое: мы бросаем обрывки мыслей, а потом удивляемся, почему результат — пальцем в небо.

Исследователи копнули в метод обнаружения и переписывания. Суть проста: прежде чем отвечать, модель должна просканировать вопрос на вшивость и найти в нем «дыры». Если данных не хватает, она либо просит уточнения, либо сама достраивает сценарии. Работает это через выявление неоднозначности: система понимает, что у слова «богатый» есть пять разных метрик (выручка, стоимость состава, бюджет), и пока ты не выберешь одну, нормального ответа не будет. Это превращает тупой поиск по базе в осознанный диалог.

Тестировали это на спортивных и исторических данных, но принцип универсален. Если ты просишь проанализировать «проходимость кофейни», не уточнив город, формат (to-go или посадка) и время года, ты получишь среднюю температуру по больнице. Этот подход применим везде: от написания кода до юридических консультаций. Контекст — это топливо, и если его нет, машина никуда не поедет, сколько бы параметров в ней ни было.

Короче: эпоха простых промптов заканчивается, начинается эра уточняющих систем. Главный вывод исследования в том, что LLM гораздо умнее, когда признает, что она чего-то не понимает. Вместо того чтобы плодить галлюцинации, модель должна бить тебя по рукам и заставлять конкретизировать запрос. Кто научит свои системы сначала спрашивать, а потом отвечать, тот и получит работающие инструменты, а не генераторы случайных фактов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с