TL;DR
Исследование показывает, как именно работает встроенный веб-поиск в ChatGPT и Claude: когда модель решает искать, насколько это помогает и где ломается. Исследователи протестировали GPT-5-mini и Claude Haiku 4.5 на двух типах вопросов — те, что модель должна знать из обучения, и те, где без поиска точно не обойтись.
Главная находка: веб-поиск существенно улучшает точность (GPT — с 52% до 85%, Claude — с 41% до 75%), но при этом модели становятся переуверенными. После поиска модель заявляет высокую уверенность в ответе — даже если поиск ничего толкового не нашёл. А если первый поисковый запрос не сработал, второй почти никогда не спасает — точность даже падает.
Практический вывод: встроенный веб-поиск работает как быстрый слой верификации, а не как надёжный аналитический инструмент. Хорош для проверки фактов и простых вопросов о текущих событиях. Плох, когда нужно глубокое исследование или сложная формулировка запроса.
Схема исследования
СТАТИЧЕСКИЙ СПЛИТ (783 вопроса)
→ Факты до knowledge cutoff
→ Модель ДОЛЖНА знать ответ
→ Поиск = верификация
ДИНАМИЧЕСКИЙ СПЛИТ (288 вопросов)
→ Факты ПОСЛЕ cutoff
→ Модель НЕ МОЖЕТ знать ответ
→ Поиск = необходимость
Пример применения
Ситуация: Ты готовишь презентацию и спрашиваешь Claude: "Кто сейчас министр экономики России?"
Что происходит внутри:
- Модель распознаёт слово "сейчас" → триггер для веб-поиска
- Формулирует запрос и ищет
- Если первый результат содержит ответ → высокая точность (~70%)
- Если нет → повторный запрос редко помогает
Что это значит для тебя:
- Если модель уверенно отвечает после поиска — перепроверь. Её уверенность завышена.
- Если первый ответ неточный — переформулируй вопрос сам, а не проси "поищи ещё раз".
- Для простых фактов ("кто сейчас X?") — веб-поиск работает хорошо.
- Для сложных исследований — лучше использовать Deep Research или внешние источники.
Почему это работает (и где ломается)
Механика решения "искать или нет": Модель оценивает свою внутреннюю уверенность в ответе. Низкая уверенность + временные маркеры ("сейчас", "текущий") → триггер поиска. Исследование показало: эта связка работает неплохо — модели действительно чаще ищут там, где не знают.
Проблема калибровки: После поиска модель становится переуверенной. ECE (ошибка калибровки) растёт с 0.10 до 0.27 у GPT, с 0.14 до 0.26 у Claude. Это значит: модель говорит "я уверен на 90%", а на самом деле права в 70% случаев.
Почему второй запрос не помогает: Если первый поиск не нашёл ответ — значит, модель плохо сформулировала запрос. Второй запрос использует ту же логику → те же результаты. Модель не умеет "переосмыслить" свой подход к поиску.
Разница между моделями:
- Claude — экономнее: меньше запросов, ниже стоимость за исправленный ответ
- GPT — перестраховывается: ищет даже когда знает ответ, больше "верификационных" запросов
Ключевые цифры
| Метрика | GPT-5-mini | Claude Haiku 4.5 |
|---|---|---|
| Точность без поиска (статика) | 52.3% | 41.4% |
| Точность с поиском (статика) | 84.6% | 74.7% |
| Точность на текущих событиях | 68.4% | 60.8% |
| Доля запросов с поиском (динамика) | 87.5% | 91.0% |
Практические рекомендации (из исследования)
Когда встроенный поиск хорош:
- Простые фактические вопросы: "Кто сейчас CEO компании X?"
- Верификация: "Правда ли, что Y?"
- Быстрые справки: время, курсы, простые факты
Когда лучше другие инструменты:
- Сложные исследования с множеством источников
- Вопросы, требующие переформулировки запроса
- Когда нужна проверяемость источников (RAG-пайплайны лучше)
Confidence-gated стратегия: Исследователи показали, что селективный поиск (искать только при низкой уверенности) работает лучше, чем "всегда искать". Но пользователь не может это контролировать напрямую — это для разработчиков API.
Ограничения
⚠️ Только простые факты: Исследование тестировало короткие вопросы с одним ответом. Сложные многоходовые запросы не изучались.
⚠️ Две модели: Только GPT-5-mini и Claude Haiku 4.5. Поведение GPT-4o, Claude Sonnet/Opus может отличаться.
⚠️ Не изучали качество источников: Исследователи не анализировали, откуда модель берёт информацию — только правильность финального ответа.
Как исследовали
Команда собрала 783 вопроса с фиксированными ответами (статический сплит) из датасета TempRAGEval — это вопросы с временными привязками типа "Кто был президентом X в 2021 году?". Каждый вопрос проверяли вручную: ответ должен быть однозначным и находиться в топ-2 результатов Google.
Для динамического сплита (288 вопросов) переформулировали статические вопросы в "текущие": убрали год, добавили "сейчас" или "в настоящее время". Важно: ответ должен был измениться после knowledge cutoff модели. Например, вопрос о CEO, который сменился в 2025 году.
Интересная находка: модели вызывают поиск в 87-91% случаев для "текущих" вопросов — но точность всё равно не превышает 70%. Проблема не в том, что модель не ищет, а в том, что плохо формулирует запросы.
Эксперимент с порогами уверенности показал: если запускать поиск только при уверенности ниже порога — accuracy растёт быстрее, чем при стратегии "искать всегда". Это значит, что внутренняя уверенность модели действительно коррелирует с тем, нужен ли поиск.
Ресурсы
Работа: "Look It Up: Analysing Internal Web Search Capabilities of Modern LLMs"
Автор: Sahil Kale (sahil@k-v.ai), Atlanta, GA, USA
Код и датасет: anonymous.4open.science/r/look-it-up-0B20
