3,583 papers
arXiv:2605.26937 72 26 мая 2026 г. FREE

Open Knowledge Evaluation: открытый запрос вместо вопросов — как получить от модели всё что она знает

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM не столько врёт — сколько молчит. Точность того, что модель говорит, как правило, нормальная. Проблема в охвате: модель называет лишь часть того, что знает, и ждёт пока ты сам догадаешься спросить остальное. Открытый запрос — 'расскажи всё что знаешь о X' — меняет правила: модель сама решает какие факты важны, а не ждёт наводящих вопросов. Фишка: формат вывода — это управляемый рычаг, а не случайность. Попросишь структуру 'по категориям' — точность растёт, охват падает. Попросишь 'свободно' — охват шире, точность чуть ниже. Рабочая связка: сначала открытый запрос для ориентации, потом структурированный — для проверки конкретных утверждений.
Адаптировать под запрос

TL;DR

Стандартные вопросы к LLM создают слепые пятна: спрашиваешь конкретное — получаешь конкретное, но модель умалчивает о том, о чём ты не догадался спросить. Исследователи проверили альтернативу: вместо "Когда родился X?" — "Расскажи мне всё, что ты знаешь о X". Это называется открытым запросом (open elicitation) — он заставляет модель самостоятельно решать, какие факты важны, а не ждать наводящих вопросов.

Главная находка: модели не столько ошибаются, сколько молчат. Точность того, что они говорят, как правило, приемлемая. Проблема в другом — они называют лишь малую часть того, что знают. Это значит: если ты доволен ответом модели и не копаешь дальше, ты пропускаешь большую часть картины.

Второй ключевой инсайт: структура в запросе повышает точность фактов, но убивает полноту. Попросишь модель заполнить категории — получишь более выверенные факты, но охват упадёт. Попросишь рассказать свободно — охват шире, но кое-что окажется неточным. Это управляемый рычаг, а не баг.


🔬

Схема метода

Это не пошаговый алгоритм, а два режима работы с одной темой:

РЕЖИМ 1 — Широкий охват (открытый запрос):
Запрос: "Расскажи всё что знаешь о [теме]"
→ Много фактов, широкое покрытие, некоторые могут быть неточны

РЕЖИМ 2 — Точность (структурированный запрос):
Запрос: "Расскажи о [теме] по категориям: [список]"
→ Меньше фактов, но каждый более выверен

РАБОЧИЙ ЦИКЛ:
Шаг 1: Режим 1 → получить карту того, что модель знает
Шаг 2: Выбрать интересные направления → задать уточняющие вопросы
Шаг 3: Для критичных утверждений → Режим 2 или ручная проверка

🚀

Пример применения

Задача: Ты изучаешь Авито Авто как потенциальный канал продаж для своего автобизнеса. Хочешь понять что вообще известно про этот сервис — аудитория, механика, ограничения — перед тем как идти к эксперту или читать их сайт.

Промпт (Режим 1 — сначала карта):

Расскажи мне всё, что ты знаешь об Авито Авто как рекламной 
и торговой платформе для автодилеров. 

Не структурируй заранее — просто перечисли всё, 
что считаешь важным и фактически точным: цифры аудитории, 
механика размещения, форматы объявлений, комиссии, 
поведение покупателей, ограничения платформы, 
сравнение с конкурентами. 

Каждый факт — отдельное утверждение.

Промпт (Режим 2 — точность по приоритетам):

О платформе Авито Авто расскажи точно и структурированно 
по этим категориям:
- Размер аудитории и география
- Ценообразование для дилеров
- Технические ограничения (фото, описание, категории)
- Отличия от Авто.ру

Если не уверен в факте — скажи об этом прямо.

Результат: Режим 1 даст длинный список разнородных утверждений — часть ожидаемые, часть неожиданные углы (например, поведенческие паттерны покупателей или региональные особенности), которые ты бы не додумался спросить. Режим 2 даст компактную таблицу по категориям с более высокой точностью, но без сюрпризов. После Режима 1 ты поймёшь, что именно проверить через Режим 2 или внешние источники.


🧠

Почему это работает

LLM — не поисковик. Когда ты задаёшь конкретный вопрос, модель оптимизируется под ответ на этот вопрос, а не под передачу всего релевантного знания. Это как спрашивать эксперта "сколько стоит?" — получишь цену, но не узнаешь о рисках, которые он бы сам упомянул в разговоре.

Открытый запрос меняет задачу модели. Вместо "найди ответ на вопрос" — "реши, что важно сказать". Модель начинает генерировать по другому паттерну — шире, ассоциативнее, с большим охватом. Именно по этому принципу работают "расскажи всё" и "перечисли всё что знаешь".

Рычаг управления — формат вывода. Добавь структуру ("по категориям: A, B, C") → модель фильтрует и верифицирует то, что помещает в каждую ячейку → точность растёт, но что не попало в категории — теряется. Убери структуру → модель "выгружает" свободнее → охват растёт, точность чуть снижается. Это сознательный выбор, не случайность.

Рассуждения не помогают фактам. Интуитивно кажется: если попросить модель "подумать глубже" (extended thinking, "рассуждай шаг за шагом"), она вспомнит больше. Исследование показало: нет. Разница между низким и высоким уровнем рассуждений — минимальная и непоследовательная. Фактическое знание либо есть в модели, либо нет. Дополнительные токены на рассуждение тут не помогут.


📋

Шаблон промпта

Версия 1 — Открытый запрос (максимум охвата):

Расскажи мне всё, что ты знаешь о {тема}.

Не структурируй заранее — перечисли всё фактически важное: 
{что именно интересует — направления, аспекты, углы}.

Каждый факт — отдельное утверждение. 
Если в чём-то не уверен — отметь это явно.

Версия 2 — Структурированный запрос (максимум точности):

О теме {тема} расскажи точно и структурированно 
по этим категориям:
- {категория 1}
- {категория 2}
- {категория 3}

Если факт неточен или устарел — скажи об этом. 
Предпочти меньше фактов, но более достоверных.

Что подставлять: - {тема} — конкретный объект: компания, человек, технология, рынок, понятие - {что именно интересует} — необязательно, но помогает задать направление не ограничивая модель: "механика работы, аудитория, риски, конкуренты" - {категория 1-3} — только для Версии 2, когда знаешь что именно нужно проверить

Рабочая связка: Начни с Версии 1 → получи карту → выбери что важно → уточни через Версию 2 или конкретные вопросы.


⚠️

Ограничения

⚠️ Люди — слабейший домен: Модели хуже всего покрывают знание о конкретных людях. Даже топовые модели упускают большую часть известных фактов о персоне. Если исследуешь человека — открытый запрос даст лишь верхушку. Необходимы целенаправленные уточняющие вопросы.

⚠️ Открытый запрос ≠ проверка фактов: Широкий охват достигается за счёт точности. Часть утверждений в свободном режиме может быть неверной или устаревшей. Критически важные факты — проверяй в структурированном режиме или из внешних источников.

⚠️ Рассуждения не заменяют знание: Если модель не знает факт — никакой "думай глубже" не поможет. Extended thinking эффективен для логических задач, не для воспоминания фактов.

⚠️ Потолок охвата существует: Даже лучшие модели в открытом режиме покрывают лишь часть того, что существует в их обучающих данных. Не принимай полный ответ за полную картину.


🔍

Как исследовали

Команда из TU Dresden построила бенчмарк BeQu (Beyond Questions): 10 000 сущностей из Википедии — люди, события, организации, научные концепции, животные и ещё семь категорий. Для каждой сущности собрали справочный корпус из статьи Википедии и до 20 веб-документов, из которых автоматически извлекали фактические утверждения в виде троек "субъект — предикат — объект".

Дальше 20 моделей просили: "Расскажи всё что знаешь о X" — и сравнивали то, что они говорили, со справочным корпусом в двух направлениях. Точность (precision): что модель сказала — правда ли это? Полнота (recall): сколько из того, что известно — модель вообще упомянула? Судьёй выступала Llama 4 Scout, которая проверяла каждое утверждение на соответствие источникам.

Самый неожиданный эксперимент — с несуществующими сущностями. Десять выдуманных объектов ("Международный аэропорт Андорры", "iPhone 19 Pro", "Циттауское международное соглашение по ИИ") — GPT-5.4 полностью отказался генерировать о них факты, DeepSeek сгенерировал 131 галлюцинацию по четырём из десяти, Llama — 32 по семи из десяти. Это наглядный тест на галлюцинирование под давлением открытого запроса.

Отдельно проверили как меняется поведение при разных форматах промпта: свободный текст, GPTKB-формат (структурированные тройки фактов), схема Wikidata, схема Schema.org — с ограничениями и без. Схемы резко подняли точность (меньше ошибок), но охват упал: модель генерировала только то, что вписывалось в заданные категории, и молчала о всём остальном.


💡

Адаптации и экстраполяции

🔧 Техника: Двухходовое исследование темы

Открытый запрос → анализ пробелов → точечные вопросы.

После открытого запроса добавь второй запрос:

Из того, что ты рассказал о {тема}, какие важные аспекты 
ты мог пропустить или знаешь недостаточно? 
Где твои знания об этом могут быть неполными?

Модель иногда честно называет свои слепые зоны — это лучше чем не знать о них.

🔧 Техника: Калибровка под задачу через баланс

Если нужно и широко, и точно — сделай два запроса параллельно (в двух чатах или подряд):

Запрос A: "Расскажи всё о {тема} без структуры"
Запрос B: "Расскажи о {тема} структурированно: [категории]"

Факт, который появился в обоих ответах — скорее всего достоверен. Факт только из A — требует проверки. Факт только из B — возможно искусственно сужен форматом.


🔗

Ресурсы

Название работы: Beyond Questions: Evaluating What Large Language Models (Actually) Know

GitHub и бенчмарк: github.com/Knowledge-aware-AI/BeyondQuestions | knowledge-aware-ai.github.io/BeyondQuestions

Авторы: Luca Giordano, Simon Razniewski — ScaDS.AI Dresden/Leipzig & TU Dresden, Германия


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM не столько врёт — сколько молчит. Точность того, что модель говорит, как правило, нормальная. Проблема в охвате: модель называет лишь часть того, что знает, и ждёт пока ты сам догадаешься спросить остальное. Открытый запрос — 'расскажи всё что знаешь о X' — меняет правила: модель сама решает какие факты важны, а не ждёт наводящих вопросов. Фишка: формат вывода — это управляемый рычаг, а не случайность. Попросишь структуру 'по категориям' — точность растёт, охват падает. Попросишь 'свободно' — охват шире, точность чуть ниже. Рабочая связка: сначала открытый запрос для ориентации, потом структурированный — для проверки конкретных утверждений.

Принцип работы

Конкретный вопрос — конкретный ответ. Звучит нормально, но ловушка вот в чём: модель оптимизируется под ответ на твой вопрос, а не под передачу всего что знает. Как эксперт, которого спросили 'сколько стоит?' — получишь цену, но не услышишь о рисках, которые он бы сам поднял в разговоре. Открытый запрос меняет постановку задачи: не 'найди ответ на вопрос', а 'реши что важно сказать'. Модель начинает выгружать знание шире, ассоциативнее — и выдаёт углы, о которых ты не догадался бы спросить. Отдельный момент, который удивляет: просить модель 'думать глубже' или 'рассуждать шаг за шагом' не помогает вспомнить больше фактов. Если факт не всплывает в обычном режиме — никакой 'подумай ещё раз' его не вытащит. Глубокие рассуждения — инструмент для логики, не для памяти.

Почему работает

Когда задаёшь структуру ('по категориям'), модель фильтрует и перепроверяет что помещает в каждую ячейку. Отсюда рост точности: в категорию попадает только то, в чём модель уверена. Но то, что не влезает в заданные категории — теряется молча. Без структуры модель выгружает свободнее: ассоциации, пересечения, неожиданные плоскости — всё идёт в ход. Точность чуть ниже, зато карта шире. Поэтому связка 'сначала открыто, потом структурированно' бьёт любой из режимов по отдельности.

Когда применять

Разведка перед погружением в тему → когда не знаешь что именно спрашивать, особенно перед встречей с экспертом или чтением материалов. Изучение компаний, рынков, технологий → как точка входа: что вообще существует по теме, какие есть плоскости, о чём стоит думать. НЕ подходит для проверки конкретных фактов в одиночку — точность в свободном режиме ниже, критичное всегда проверяй из внешних источников. НЕ подходит для исследования конкретных людей — даже открытый запрос даст лишь верхушку, нужны целенаправленные уточнения по каждому факту.

Мини-рецепт

1. Начни открыто: запроси Расскажи всё что знаешь о [тема] без заранее заданных категорий. Попроси каждый факт отдельным утверждением — это облегчает последующую проверку.
2. Прочитай карту: отметь что удивило, что неожиданно, какие направления ты бы не додумался спросить сам.
3. Выбери приоритеты: какие из утверждений важны для твоей задачи — и могут оказаться неверными или устаревшими?
4. Уточни структурированно: задай повторный запрос строго по выбранным категориям. Добавь: Если не уверен в факте — скажи об этом прямо. Предпочти меньше фактов, но достоверных.
5. Критичное — проверяй внешне: всё что влияет на решение — ищи источник за пределами модели.

Примеры

[ПЛОХО] : Какова ежемесячная аудитория Авито? → Получишь одну цифру. Может быть верной, может устаревшей. Остальное — не узнаешь, потому что не спросил.
[ХОРОШО] : Расскажи всё что знаешь об Авито как рекламной платформе для автодилеров. Не структурируй заранее — просто перечисли всё фактически важное: аудитория, механика размещения, форматы объявлений, стоимость, поведение покупателей, ограничения платформы, сравнение с конкурентами. Каждый факт — отдельным предложением. Если в чём-то не уверен — отметь это явно. → Получишь карту: часть ожидаемых фактов и часть неожиданных углов (например, региональные особенности или поведенческие паттерны), которые ты бы не догадался запросить. После этого — отдельный структурированный запрос по тому что важно проверить.
Источник: Beyond Questions: Evaluating What Large Language Models (Actually) Know
ArXiv ID: 2605.26937 | Сгенерировано: 2026-05-27 07:26

Проблемы LLM

ПроблемаСутьКак обойти
Модель молчит о том, о чём не спросилиЗадаёшь конкретный вопрос — получаешь конкретный ответ. Но модель знает больше. Просто не называет то, о чём ты не догадался спросить. Получаешь точный, но неполный ответ. Думаешь что узнал всё — а получил малую часть. Работает так для любой темы: человек, компания, технология, рынокСмени формат запроса. Вместо конкретного вопроса пиши: "Расскажи всё что знаешь о [тема]. Каждый факт — отдельным утверждением". Модель переключается в другой режим — решает сама что важно назвать, а не ищет ответ на твой вопрос

Методы

МетодСуть
Два режима запроса — сначала карта, потом точностьШаг 1 — карта: Расскажи всё что знаешь о [тема]. Не структурируй заранее. Каждый факт — отдельное утверждение. Получишь широкий список. Часть фактов может быть неточной. Но появятся углы, о которых ты не догадался спросить. Шаг 2 — точность: О [тема] расскажи по категориям: [список]. Охват меньше, но каждый факт выверен сильнее. Почему работает: открытый запрос меняет задачу модели. Не "найди ответ" — а "реши что важно сказать". Структурированный запрос заставляет модель фильтровать перед выводом. Когда применять: сначала первый режим всегда. Второй — когда знаешь что именно нужно проверить

Тезисы

ТезисКомментарий
Структура в запросе торгует охватом ради точностиДобавь в запрос список категорий — модель станет аккуратнее. Будет помещать в каждую ячейку только то, в чём уверена. Точность растёт. Но что не попало в категории — потеряется. Убери структуру — модель "выгружает" свободнее. Охват шире, точность чуть ниже. Это управляемый рычаг. Применяй: для разведки темы — убирай структуру. Для проверки конкретных фактов — добавляй категории
📖 Простыми словами

Beyond Questions: Evaluating WhatLargeLanguageModels(Actually) Know

arXiv: 2605.26937

Традиционные тесты для нейросетей — это интеллектуальный тупик. Мы привыкли закидывать модель конкретными вопросами в духе викторины, но этот подход создает огромные слепые пятна. Проблема в том, что LLM работает как зеркало: она выдает ровно столько, сколько ты спросил, и ни граммом больше. Если ты не догадался спросить про скрытые риски или важный контекст, модель о них просто промолчит, хотя знания у нее есть. Это фундаментальный баг того, как мы вытягиваем информацию из нейронок.

Это как пытаться узнать человека, задавая ему вопросы только из анкеты на паспорт. Ты узнаешь дату рождения и прописку, но понятия не имеешь, что он гениальный скрипач или серийный маньяк. Ты не спросил — он не ответил. В итоге вместо полноценной картины ты получаешь фрагментарный огрызок, который формально верен, но по сути бесполезен для принятия серьезных решений.

Исследователи предлагают сменить тактику и использовать открытый запрос (open elicitation). Вместо того чтобы пытать модель точечными вопросами, ей дают команду: "Расскажи вообще всё, что знаешь по этой теме". В таком режиме нейронка перестает работать как справочное бюро и превращается в автономного эксперта. Она сама решает, какие факты критически важны, а какие — вторичны. Цифры показывают, что такой подход вытаскивает на свет пласты знаний, которые при обычных вопросах просто остаются «на дне» контекстного окна.

Принцип универсален: тестировали на фактах, но это работает везде — от анализа рынка до изучения новых технологий. Если ты заходишь в новую нишу, например, хочешь разобраться в механиках Авито Авто, не спрашивай про цены. Проси модель выдать полный срез знаний. Так ты узнаешь про специфику аудитории и скрытые ограничения площадки еще до того, как наткнешься на них в реальности. Конкретный вопрос ограничивает, открытый запрос — просвещает.

Короче: хватит играть с AI в «Угадай мелодию». Когда ты задаешь узкий вопрос, ты сам строишь забор вокруг ответа. Чтобы реально понять, на что способна модель и что она знает о твоем проекте, используй метод открытого извлечения. Либо ты даешь нейронке свободу структурировать знания, либо продолжаешь получать стерильные ответы, в которых нет и половины нужной правды. Кто научится правильно «распаковывать» модель, тот получит стратегическое преимущество, пока остальные ковыряются в частностях.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с