TL;DR
Стандартные вопросы к LLM создают слепые пятна: спрашиваешь конкретное — получаешь конкретное, но модель умалчивает о том, о чём ты не догадался спросить. Исследователи проверили альтернативу: вместо "Когда родился X?" — "Расскажи мне всё, что ты знаешь о X". Это называется открытым запросом (open elicitation) — он заставляет модель самостоятельно решать, какие факты важны, а не ждать наводящих вопросов.
Главная находка: модели не столько ошибаются, сколько молчат. Точность того, что они говорят, как правило, приемлемая. Проблема в другом — они называют лишь малую часть того, что знают. Это значит: если ты доволен ответом модели и не копаешь дальше, ты пропускаешь большую часть картины.
Второй ключевой инсайт: структура в запросе повышает точность фактов, но убивает полноту. Попросишь модель заполнить категории — получишь более выверенные факты, но охват упадёт. Попросишь рассказать свободно — охват шире, но кое-что окажется неточным. Это управляемый рычаг, а не баг.
Схема метода
Это не пошаговый алгоритм, а два режима работы с одной темой:
РЕЖИМ 1 — Широкий охват (открытый запрос):
Запрос: "Расскажи всё что знаешь о [теме]"
→ Много фактов, широкое покрытие, некоторые могут быть неточны
РЕЖИМ 2 — Точность (структурированный запрос):
Запрос: "Расскажи о [теме] по категориям: [список]"
→ Меньше фактов, но каждый более выверен
РАБОЧИЙ ЦИКЛ:
Шаг 1: Режим 1 → получить карту того, что модель знает
Шаг 2: Выбрать интересные направления → задать уточняющие вопросы
Шаг 3: Для критичных утверждений → Режим 2 или ручная проверка
Пример применения
Задача: Ты изучаешь Авито Авто как потенциальный канал продаж для своего автобизнеса. Хочешь понять что вообще известно про этот сервис — аудитория, механика, ограничения — перед тем как идти к эксперту или читать их сайт.
Промпт (Режим 1 — сначала карта):
Расскажи мне всё, что ты знаешь об Авито Авто как рекламной
и торговой платформе для автодилеров.
Не структурируй заранее — просто перечисли всё,
что считаешь важным и фактически точным: цифры аудитории,
механика размещения, форматы объявлений, комиссии,
поведение покупателей, ограничения платформы,
сравнение с конкурентами.
Каждый факт — отдельное утверждение.
Промпт (Режим 2 — точность по приоритетам):
О платформе Авито Авто расскажи точно и структурированно
по этим категориям:
- Размер аудитории и география
- Ценообразование для дилеров
- Технические ограничения (фото, описание, категории)
- Отличия от Авто.ру
Если не уверен в факте — скажи об этом прямо.
Результат: Режим 1 даст длинный список разнородных утверждений — часть ожидаемые, часть неожиданные углы (например, поведенческие паттерны покупателей или региональные особенности), которые ты бы не додумался спросить. Режим 2 даст компактную таблицу по категориям с более высокой точностью, но без сюрпризов. После Режима 1 ты поймёшь, что именно проверить через Режим 2 или внешние источники.
Почему это работает
LLM — не поисковик. Когда ты задаёшь конкретный вопрос, модель оптимизируется под ответ на этот вопрос, а не под передачу всего релевантного знания. Это как спрашивать эксперта "сколько стоит?" — получишь цену, но не узнаешь о рисках, которые он бы сам упомянул в разговоре.
Открытый запрос меняет задачу модели. Вместо "найди ответ на вопрос" — "реши, что важно сказать". Модель начинает генерировать по другому паттерну — шире, ассоциативнее, с большим охватом. Именно по этому принципу работают "расскажи всё" и "перечисли всё что знаешь".
Рычаг управления — формат вывода. Добавь структуру ("по категориям: A, B, C") → модель фильтрует и верифицирует то, что помещает в каждую ячейку → точность растёт, но что не попало в категории — теряется. Убери структуру → модель "выгружает" свободнее → охват растёт, точность чуть снижается. Это сознательный выбор, не случайность.
Рассуждения не помогают фактам. Интуитивно кажется: если попросить модель "подумать глубже" (extended thinking, "рассуждай шаг за шагом"), она вспомнит больше. Исследование показало: нет. Разница между низким и высоким уровнем рассуждений — минимальная и непоследовательная. Фактическое знание либо есть в модели, либо нет. Дополнительные токены на рассуждение тут не помогут.
Шаблон промпта
Версия 1 — Открытый запрос (максимум охвата):
Расскажи мне всё, что ты знаешь о {тема}.
Не структурируй заранее — перечисли всё фактически важное:
{что именно интересует — направления, аспекты, углы}.
Каждый факт — отдельное утверждение.
Если в чём-то не уверен — отметь это явно.
Версия 2 — Структурированный запрос (максимум точности):
О теме {тема} расскажи точно и структурированно
по этим категориям:
- {категория 1}
- {категория 2}
- {категория 3}
Если факт неточен или устарел — скажи об этом.
Предпочти меньше фактов, но более достоверных.
Что подставлять:
- {тема} — конкретный объект: компания, человек, технология, рынок, понятие
- {что именно интересует} — необязательно, но помогает задать направление не ограничивая модель: "механика работы, аудитория, риски, конкуренты"
- {категория 1-3} — только для Версии 2, когда знаешь что именно нужно проверить
Рабочая связка: Начни с Версии 1 → получи карту → выбери что важно → уточни через Версию 2 или конкретные вопросы.
Ограничения
⚠️ Люди — слабейший домен: Модели хуже всего покрывают знание о конкретных людях. Даже топовые модели упускают большую часть известных фактов о персоне. Если исследуешь человека — открытый запрос даст лишь верхушку. Необходимы целенаправленные уточняющие вопросы.
⚠️ Открытый запрос ≠ проверка фактов: Широкий охват достигается за счёт точности. Часть утверждений в свободном режиме может быть неверной или устаревшей. Критически важные факты — проверяй в структурированном режиме или из внешних источников.
⚠️ Рассуждения не заменяют знание: Если модель не знает факт — никакой "думай глубже" не поможет. Extended thinking эффективен для логических задач, не для воспоминания фактов.
⚠️ Потолок охвата существует: Даже лучшие модели в открытом режиме покрывают лишь часть того, что существует в их обучающих данных. Не принимай полный ответ за полную картину.
Как исследовали
Команда из TU Dresden построила бенчмарк BeQu (Beyond Questions): 10 000 сущностей из Википедии — люди, события, организации, научные концепции, животные и ещё семь категорий. Для каждой сущности собрали справочный корпус из статьи Википедии и до 20 веб-документов, из которых автоматически извлекали фактические утверждения в виде троек "субъект — предикат — объект".
Дальше 20 моделей просили: "Расскажи всё что знаешь о X" — и сравнивали то, что они говорили, со справочным корпусом в двух направлениях. Точность (precision): что модель сказала — правда ли это? Полнота (recall): сколько из того, что известно — модель вообще упомянула? Судьёй выступала Llama 4 Scout, которая проверяла каждое утверждение на соответствие источникам.
Самый неожиданный эксперимент — с несуществующими сущностями. Десять выдуманных объектов ("Международный аэропорт Андорры", "iPhone 19 Pro", "Циттауское международное соглашение по ИИ") — GPT-5.4 полностью отказался генерировать о них факты, DeepSeek сгенерировал 131 галлюцинацию по четырём из десяти, Llama — 32 по семи из десяти. Это наглядный тест на галлюцинирование под давлением открытого запроса.
Отдельно проверили как меняется поведение при разных форматах промпта: свободный текст, GPTKB-формат (структурированные тройки фактов), схема Wikidata, схема Schema.org — с ограничениями и без. Схемы резко подняли точность (меньше ошибок), но охват упал: модель генерировала только то, что вписывалось в заданные категории, и молчала о всём остальном.
Адаптации и экстраполяции
🔧 Техника: Двухходовое исследование темы
Открытый запрос → анализ пробелов → точечные вопросы.
После открытого запроса добавь второй запрос:
Из того, что ты рассказал о {тема}, какие важные аспекты ты мог пропустить или знаешь недостаточно? Где твои знания об этом могут быть неполными?Модель иногда честно называет свои слепые зоны — это лучше чем не знать о них.
🔧 Техника: Калибровка под задачу через баланс
Если нужно и широко, и точно — сделай два запроса параллельно (в двух чатах или подряд):
Запрос A: "Расскажи всё о {тема} без структуры" Запрос B: "Расскажи о {тема} структурированно: [категории]"Факт, который появился в обоих ответах — скорее всего достоверен. Факт только из A — требует проверки. Факт только из B — возможно искусственно сужен форматом.
Ресурсы
Название работы: Beyond Questions: Evaluating What Large Language Models (Actually) Know
GitHub и бенчмарк: github.com/Knowledge-aware-AI/BeyondQuestions | knowledge-aware-ai.github.io/BeyondQuestions
Авторы: Luca Giordano, Simon Razniewski — ScaDS.AI Dresden/Leipzig & TU Dresden, Германия
