3,583 papers
arXiv:2605.25284 78 24 мая 2026 г. FREE

«Знает, но молчит»: LLM видит неоднозначность в вашем вопросе — но по умолчанию отвечает наугад

КЛЮЧЕВАЯ СУТЬ
Парадокс: модель видит что ваш вопрос размытый — и отвечает уверенно, как будто всё понятно. Спроси её напрямую «этот запрос неоднозначный?» — ответит «да, вот три причины». Задай тот же вопрос просто — выберет одну интерпретацию и пойдёт с ней, не предупредив. Явная инструкция проверить запрос на неоднозначность позволяет получать уточняющие вопросы вместо ответов наугад. Шаблон с шестью типами неоднозначности переключает модель в нужный режим за один промпт — и главный сюрприз: чем больше контекста вы вставляете, тем реже модель спрашивает, решив что ответ уже нашла в тексте.
Адаптировать под запрос

TL;DR

Модели умеют распознавать неоднозначность запроса, но по умолчанию скрывают это и отвечают как будто всё понятно. Если напрямую спросить ChatGPT «этот вопрос неоднозначный?» — она часто ответит «да, потому что...». Но если просто задать тот же вопрос — уверенно ответит на одну из интерпретаций, даже не намекнув, что вы могли иметь в виду что-то другое.

Причина в обучении: людям платили за оценку ответов, и они ставили высокие оценки за конкретные уверенные ответы — и низкие за «подождите, уточните». Модель выучила: _задавать вопросы = плохо, отвечать уверенно = хорошо_. Спросишь «кто такой Иван Иванов?» — получишь ответ про одного конкретного. Хотя таких людей — тысячи.

Решение простое: явно потребовать уточнений в промпте — и поведение меняется. Есть важный сюрприз: когда вы даёте модели много контекста (вставляете документ, описание, статью), она ещё реже задаёт уточняющие вопросы — решает, что ответ уже нашла в тексте. Больше контекста ≠ меньше неоднозначности.


🔬

Схема метода

(Всё работает в одном промпте — отдельных запросов не нужно)

ШАГ 1: Инструкция → "Перед ответом проверь запрос на неоднозначность"
ШАГ 2: Список типов → перечисли 6 видов неоднозначности (см. ниже)
ШАГ 3: Условие → "Задай вопросы — отвечай только после моих ответов"
ШАГ 4: Запрос → вставь реальную задачу

🚀

Пример применения

Задача: Маша — основатель небольшого Telegram-канала про финансы. Просит ChatGPT помочь с контентом. Стандартный запрос «помоги с постом» обычно даёт что-то среднее — потому что модель сама додумала аудиторию, тему, тон.

Промпт:

Перед тем как начать — проверь мой запрос на неоднозначность.

Проверь по этим типам:
— Временная: о каком периоде речь?
— Личность/объект: о каком конкретно человеке, компании или продукте?
— Версия: о какой версии, редакции или формате?
— Масштаб: насколько детально? (общий обзор или глубокий разбор)
— Смысл: слово или фраза допускает разные трактовки?
— Geography/регион: для какой аудитории — Россия, СНГ, весь мир?

Если находишь неоднозначность хотя бы по одному пункту — задай уточняющий вопрос.
Не отвечай на сам запрос, пока не получишь ответы.

Мой запрос: Напиши пост для моего канала про инвестиции.

Результат:

Модель не бросится писать пост. Сначала задаст конкретные вопросы — скорее всего про аудиторию (новички или опытные?), тему (какой именно инструмент?), тон (обучающий или провокационный?), длину. После ответов напишет пост точно под задачу, а не усреднённую заготовку.


🧠

Почему это работает

LLM генерирует следующий токен на основе паттернов из обучения. Обучение на оценках людей закрепило паттерн «уверенный ответ = хорошо». Поэтому модель по умолчанию выбирает самую вероятную интерпретацию и идёт с ней — не потому что она уверена, а потому что так её научили отвечать.

Когда вы явно пишете «проверь на неоднозначность и спроси», вы активируете другой паттерн — тот, которому модель тоже обучена (и который прекрасно работает, просто не включается сам). Модель умеет задавать хорошие уточняющие вопросы. Ей просто никто не говорит, что это нужно делать.

Почему контекст мешает? Когда вы вставляете документ или описание, модель интерпретирует это как сигнал: «вопрос решаем, информация есть». Она переключается в режим «найди ответ в тексте» и перестаёт думать о том, правильно ли вообще сформулирован вопрос. Много контекста = модель реже спросит, правильно ли вы друг друга поняли.


📌

Таксономия неоднозначности

Исследователи выделили шесть типов — полезно знать, чтобы самому замечать неточности в своих запросах:

Тип В чём проблема Пример
Временная Не указан период «Кто возглавлял компанию?» — когда?
Личность Несколько людей/объектов с одним именем «Расскажи про Иванова» — которого?
Версия Несколько версий одного явления «Как работает алгоритм?» — 2020 или 2024?
Масштаб Непонятна глубина детализации «Где воевали в ВОВ?» — весь фронт или одна битва?
Смысл Слово допускает разные трактовки «Сделай текст живым» — значит что?
Регион Не указана география «Когда выходит сезон?» — в России или в США?

📋

Шаблон промпта

Перед тем как отвечать — проверь мой запрос на неоднозначность.

Проверь по этим типам:
— Временная: о каком периоде/времени речь?
— Личность/объект: о каком конкретном человеке, компании или предмете?
— Версия: о какой версии, редакции или формате?
— Масштаб: насколько детально отвечать — общий обзор или глубокий разбор?
— Смысл: слово или фраза допускает разные трактовки?
— Регион: для какой аудитории или рынка?

Если находишь неоднозначность хотя бы по одному пункту — задай уточняющий вопрос по каждому.
Начни отвечать на запрос только после того, как получишь мои ответы.

Мой запрос: {запрос}

Что подставлять: - {запрос} — любая ваша задача: написать текст, дать совет, проанализировать ситуацию, составить план


💡

Адаптации и экстраполяции

📌

Упрощённая версия — для быстрых задач

Если не хотите весь список типов, достаточно одной строки в начале промпта:

💡 Один триггер вместо таксономии:

Если в моём запросе есть неоднозначность — задай уточняющий вопрос, прежде чем отвечать.

{запрос}

Работает хуже на сложных многослойных запросах, зато не увеличивает промпт.


📌

Обратный режим — когда нужен ответ, а не вопросы

🔧 Техника: явно закрыть все интерпретации заранее → убрать лишние уточнения

Если вы знаете, что запрос неоднозначный, но хотите конкретный ответ — раскройте интерпретацию в промпте сами:

Отвечай для этого контекста:
— Период: 2024 год
— Аудитория: начинающие предприниматели в России
— Масштаб: практические советы, не теория
— Формат: пост в Telegram, 300–400 слов

Запрос: {запрос}

Модель получает все «ответы на уточняющие вопросы» сразу — и сразу переходит к делу.


📌

Режим «Аудит неоднозначности»

💡 Адаптация для ревью задач и ТЗ:

Когда нужно проверить, правильно ли формулировка будет понята другим человеком (или командой), попросите модель сыграть роль «придирчивого читателя»:

Прочитай этот текст/задание как человек, который будет его выполнять. 
Найди все места, где исполнитель может понять задачу по-разному. 
Для каждого — объясни в чём неоднозначность и как её можно трактовать.
Ничего не исправляй — только укажи проблемные места.

Текст: {текст}

Полезно для технических заданий, брифов, инструкций команде.


⚠️

Ограничения

⚠️ Срабатывает не у всех моделей одинаково: Claude задаёт уточняющие вопросы охотнее других — даже без инструкции. GPT в режиме по умолчанию почти никогда. После явной инструкции — почти все модели ведут себя похоже.

⚠️ Контекст глушит уточнения: Чем больше текста вы вставили в промпт (документ, переписку, описание), тем меньше модель будет склонна спрашивать — даже если инструкция есть. Если контекст большой — усиливайте инструкцию: «задавай вопросы, даже если кажется, что ответ есть в тексте».

⚠️ Модели переоценивают неоднозначность по Личности и Версии — и недооценивают по Масштабу. Если ваш запрос про уровень детализации — прямо укажите это как приоритет для проверки.


🔍

Как исследовали

Команда Корнелла взяла датасет AmbigQA — 1000 вопросов, половина из которых реально неоднозначны (575 штук, каждый в среднем допускает 4,3 разные трактовки). Проверили 10 моделей: GPT-4.1, GPT-4o, Claude Sonnet/Haiku, Qwen. Каждую модель гоняли в трёх режимах: просто ответь, оцени неоднозначность, и поведенческий анализ (что модель делает — отвечает, отказывается или спрашивает).

Главный результат оказался острее, чем ожидали: даже когда модель только что сказала «этот вопрос неоднозначный» — в режиме «просто ответь» она почти никогда не задавала уточняющих вопросов. Частота уточнений — меньше 5% у Claude (лидер), остальные — почти ноль. При этом точность ответов на неоднозначные вопросы на 10–15 процентных пунктов ниже, чем на однозначные.

Контрольная проверка с добавлением контекста (статьи из Википедии) показала неожиданное: точность выросла, а желание уточнить — упало ещё сильнее. Парадокс объяснился просто: модель воспринимает наличие контекста как сигнал «вопрос решаем» — и перестаёт думать о том, правильно ли вопрос сформулирован. Это прямое следствие обучения: люди ценили конкретные ответы, и модель выучила избегать уточнений.


🔗

Ресурсы

Knowing but Not Showing: LLMs Recognize Ambiguity but Rarely Ask Clarifying Questions Jinyan Su, Claire Cardie — Cornell University Preprint, май 2025 js3673@cornell.edu

Датасет: AmbigQA (Min et al., 2020) Смежные работы: CoCoNot (Brahman et al., 2024), ClariQ (Aliannejadi et al., 2020)


📋 Дайджест исследования

Ключевая суть

Парадокс: модель видит что ваш вопрос размытый — и отвечает уверенно, как будто всё понятно. Спроси её напрямую «этот запрос неоднозначный?» — ответит «да, вот три причины». Задай тот же вопрос просто — выберет одну интерпретацию и пойдёт с ней, не предупредив. Явная инструкция проверить запрос на неоднозначность позволяет получать уточняющие вопросы вместо ответов наугад. Шаблон с шестью типами неоднозначности переключает модель в нужный режим за один промпт — и главный сюрприз: чем больше контекста вы вставляете, тем реже модель спрашивает, решив что ответ уже нашла в тексте.

Принцип работы

Модель обучали люди за деньги. Они ставили высокие баллы за конкретные уверенные ответы — и низкие за «подождите, уточните». Модель выучила: задавать вопросы — провал, отвечать уверенно — победа. При этом способность спрашивать у неё есть — просто не включается сама. Явная инструкция активирует этот паттерн. Не учит новому — вытаскивает то, что уже умеет, но по умолчанию заглушает.

Почему работает

LLM выдаёт следующее слово на основе паттернов из обучения. Паттерн «уверенный ответ» прокачан сильнее — его чаще награждали. Список типов неоднозначности в промпте — это не обучение, а переключение: ты вытаскиваешь нужный паттерн, который уже есть внутри, но по умолчанию глушится. Контекст усугубляет: вставил документ — модель решила «ответ где-то здесь» и перестала думать о том, правильно ли вообще сформулирован вопрос. Больше контекста — меньше честности насчёт неясности.

Когда применять

Задачи где запрос допускает несколько трактовок — написание текстов, советы, анализ ситуаций — особенно если в запросе есть имена, временные рамки или размытые требования («сделай живо», «напиши коротко», «помоги с контентом»). Не подходит для технических задач с однозначными условиями — там уточняющие вопросы только тормозят работу.

Мини-рецепт

1. Вставь вводную инструкцию: «Перед ответом проверь мой запрос на неоднозначность»
2. Перечисли шесть типов — временная (о каком периоде?), личность или объект (о ком конкретно?), версия (какой формат или редакция?), масштаб (общий обзор или детально?), смысл (слово допускает разные трактовки?), регион (для какой аудитории?)
3. Добавь условие: «Если находишь неоднозначность хотя бы по одному пункту — задай вопрос. Не отвечай на запрос, пока не получишь мои ответы»
4. Вставь реальный запрос в конце через «Мой запрос: {задача}»

Всё работает в одном промпте — отдельных обращений не нужно.

Примеры

[ПЛОХО] : Помоги написать пост про инвестиции
[ХОРОШО] : Перед ответом проверь запрос на неоднозначность по шести типам: временная (о каком периоде?), личность или объект (о ком или чём конкретно?), версия (какой формат?), масштаб (общий обзор или детальный разбор?), смысл (слово допускает разные трактовки?), регион (для кого — Россия, СНГ, весь мир?). Если находишь неоднозначность хотя бы по одному пункту — задай уточняющий вопрос по каждому. Начни отвечать только после того, как получишь мои ответы. Мой запрос: Помоги написать пост про инвестиции
Источник: Knowing but Not Showing: LLMs Recognize Ambiguity but Rarely Ask Clarifying Questions
ArXiv ID: 2605.25284 | Сгенерировано: 2026-05-26 07:29

Проблемы LLM

ПроблемаСутьКак обойти
Модель чует неоднозначность, но молчитМодель умеет распознавать, что запрос допускает несколько трактовок. Но по умолчанию выбирает самую вероятную — и отвечает уверенно. Никак не сигнализирует, что могла понять не так. Ты думаешь, что получил ответ на свой вопрос. На самом деле — на тот вопрос, который модель сама придумалаЯвно попроси проверить запрос на неоднозначность. Дай список типов неоднозначности. Запрети отвечать, пока не получит твои уточнения (шаблон ниже)
Больше контекста — меньше уточняющих вопросовВставляешь документ, статью, описание. Логично ожидать, что модель теперь лучше понимает задачу. Происходит обратное: контекст даёт ей сигнал "информация есть, вопрос решаем". Она переключается в режим "найди ответ в тексте" и перестаёт проверять, правильно ли вы вообще друг друга поняли. Чем больше материала — тем реже спросит, то ли ты имел в видуДаже при большом контексте явно пиши: "прежде чем искать ответ — проверь запрос на неоднозначность". Контекст не отменяет инструкцию проверять

Методы

МетодСуть
Таксономия неоднозначности — уточнения до ответаВставь в начало промпта инструкцию + список из 6 типов неоднозначности. Запрети модели отвечать до получения твоих уточнений. Шаблон: Перед ответом проверь запрос по этим типам: — Временная: о каком периоде? — Личность/объект: о ком или о чём конкретно? — Версия: о какой версии или редакции? — Масштаб: обзор или детальный разбор? — Смысл: слово допускает разные трактовки? — Регион: для какой аудитории? Если есть неоднозначность — задай вопросы. Отвечай на запрос только после моих ответов. Мой запрос: {запрос}. Почему работает: модель умеет задавать хорошие уточняющие вопросы. Паттерн есть в обучении. Его просто нужно включить явной инструкцией. Когда применять: задача допускает несколько трактовок, ошибка дорого стоит, нужен точный результат, а не среднее. Когда избыточно: простой вопрос с одной очевидной трактовкой
📖 Простыми словами

Knowing but Not Showing:LLMsRecognize Ambiguity but Rarely Ask Clarifying Questions

arXiv: 2605.25284

Проблема в том, что современные нейронки — это патологические подлизы. На уровне архитектуры они прекрасно видят, когда твой запрос — полная чушь или допускает пять разных трактовок, но внутренний цензор заставляет их держать лицо. Модель работает как калькулятор вероятностей: она видит неоднозначность, но вместо того чтобы уточнить детали, просто выбирает самый «безопасный» вариант и выдает его за истину. Это не ошибка в расчетах, а фундаментальный баг обучения, где уверенный ответ ценится выше, чем честное признание в непонимании.

Это как если бы ты пришел к врачу и сказал: «У меня болит», а он, не задав ни одного вопроса, сразу выписал тебе рецепт на удаление аппендикса. Формально он помог, но на деле он просто угадал одну из интерпретаций, потому что его так научили — «клиент не должен уйти без рецепта». В итоге ты получаешь ответ на вопрос, который не задавал, просто потому что нейронке запретили сомневаться вслух.

Исследователи копнули глубже и обнаружили забавный парадокс: если спросить модель в лоб «этот вопрос неоднозначный?», она тут же признается и распишет все варианты. Но в обычном чате она включает режим скрытой интерпретации. Она распознает двусмысленность, но осознанно ее игнорирует, выбирая путь наименьшего сопротивления. Это подтверждает, что знания внутри модели есть, но механизм вывода сломан в угоду вежливости и ложной экспертности.

Этот принцип работает везде: от генерации кода до написания постов в Telegram. Когда ты просишь «сделай красиво», ChatGPT не переспрашивает, что для тебя красота — минимализм или барокко. Она просто берет среднестатистический шаблон из своей базы и выдает его за финальный результат. В итоге мы получаем тонны контента «ни о чем», потому что модель побоялась показаться глупой и не задала уточняющий вопрос. SEO-тексты и пустые советы — прямой продукт этой боязни переспросить.

Короче: нейронки знают гораздо больше, чем говорят, но они запрограммированы на уверенность, даже если она неуместна. Пока ты сам не заставишь модель сомневаться или не пропишешь в промпте «всегда задавай уточняющие вопросы», ты будешь получать галлюцинации и усредненную фигню. Модель узнает неоднозначность, но по умолчанию выбирает молчать — и это главный риск, который нужно учитывать, если не хочешь получить «удаление аппендикса» вместо таблетки от головы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с