3,583 papers
arXiv:2511.18931 72 24 нояб. 2025 г. FREE

Look It Up: как LLM решают, когда искать в интернете

КЛЮЧЕВАЯ СУТЬ
Парадокс веб-поиска: ChatGPT нашёл что-то в интернете и отвечает с уверенностью 90% — но это не значит, что ответ правильный. Исследование показало: после поиска модели становятся переуверенными — ошибка калибровки уверенности растёт в 2+ раза (с 0.10 до 0.27 у GPT, с 0.14 до 0.26 у Claude). Метод позволяет понимать, когда доверять ответам с веб-поиском, а когда перепроверять вручную. Фишка: веб-поиск работает как быстрая верификация фактов, а не как глубокое исследование. Если первый поисковый запрос не нашёл ответ — второй почти никогда не спасает, точность даже падает.
Адаптировать под запрос

TL;DR

Исследование показывает, как именно работает встроенный веб-поиск в ChatGPT и Claude: когда модель решает искать, насколько это помогает и где ломается. Исследователи протестировали GPT-5-mini и Claude Haiku 4.5 на двух типах вопросов — те, что модель должна знать из обучения, и те, где без поиска точно не обойтись.

Главная находка: веб-поиск существенно улучшает точность (GPT — с 52% до 85%, Claude — с 41% до 75%), но при этом модели становятся переуверенными. После поиска модель заявляет высокую уверенность в ответе — даже если поиск ничего толкового не нашёл. А если первый поисковый запрос не сработал, второй почти никогда не спасает — точность даже падает.

Практический вывод: встроенный веб-поиск работает как быстрый слой верификации, а не как надёжный аналитический инструмент. Хорош для проверки фактов и простых вопросов о текущих событиях. Плох, когда нужно глубокое исследование или сложная формулировка запроса.


📌

Схема исследования

СТАТИЧЕСКИЙ СПЛИТ (783 вопроса)
→ Факты до knowledge cutoff
→ Модель ДОЛЖНА знать ответ
→ Поиск = верификация

ДИНАМИЧЕСКИЙ СПЛИТ (288 вопросов)  
→ Факты ПОСЛЕ cutoff
→ Модель НЕ МОЖЕТ знать ответ
→ Поиск = необходимость

🚀

Пример применения

Ситуация: Ты готовишь презентацию и спрашиваешь Claude: "Кто сейчас министр экономики России?"

Что происходит внутри:

  1. Модель распознаёт слово "сейчас" → триггер для веб-поиска
  2. Формулирует запрос и ищет
  3. Если первый результат содержит ответ → высокая точность (~70%)
  4. Если нет → повторный запрос редко помогает

Что это значит для тебя:

  • Если модель уверенно отвечает после поиска — перепроверь. Её уверенность завышена.
  • Если первый ответ неточный — переформулируй вопрос сам, а не проси "поищи ещё раз".
  • Для простых фактов ("кто сейчас X?") — веб-поиск работает хорошо.
  • Для сложных исследований — лучше использовать Deep Research или внешние источники.

🧠

Почему это работает (и где ломается)

Механика решения "искать или нет": Модель оценивает свою внутреннюю уверенность в ответе. Низкая уверенность + временные маркеры ("сейчас", "текущий") → триггер поиска. Исследование показало: эта связка работает неплохо — модели действительно чаще ищут там, где не знают.

Проблема калибровки: После поиска модель становится переуверенной. ECE (ошибка калибровки) растёт с 0.10 до 0.27 у GPT, с 0.14 до 0.26 у Claude. Это значит: модель говорит "я уверен на 90%", а на самом деле права в 70% случаев.

Почему второй запрос не помогает: Если первый поиск не нашёл ответ — значит, модель плохо сформулировала запрос. Второй запрос использует ту же логику → те же результаты. Модель не умеет "переосмыслить" свой подход к поиску.

Разница между моделями:

  • Claude — экономнее: меньше запросов, ниже стоимость за исправленный ответ
  • GPT — перестраховывается: ищет даже когда знает ответ, больше "верификационных" запросов

📌

Ключевые цифры

МетрикаGPT-5-miniClaude Haiku 4.5
Точность без поиска (статика)52.3%41.4%
Точность с поиском (статика)84.6%74.7%
Точность на текущих событиях68.4%60.8%
Доля запросов с поиском (динамика)87.5%91.0%

📌

Практические рекомендации (из исследования)

Когда встроенный поиск хорош:

  • Простые фактические вопросы: "Кто сейчас CEO компании X?"
  • Верификация: "Правда ли, что Y?"
  • Быстрые справки: время, курсы, простые факты

Когда лучше другие инструменты:

  • Сложные исследования с множеством источников
  • Вопросы, требующие переформулировки запроса
  • Когда нужна проверяемость источников (RAG-пайплайны лучше)

Confidence-gated стратегия: Исследователи показали, что селективный поиск (искать только при низкой уверенности) работает лучше, чем "всегда искать". Но пользователь не может это контролировать напрямую — это для разработчиков API.


⚠️

Ограничения

⚠️ Только простые факты: Исследование тестировало короткие вопросы с одним ответом. Сложные многоходовые запросы не изучались.

⚠️ Две модели: Только GPT-5-mini и Claude Haiku 4.5. Поведение GPT-4o, Claude Sonnet/Opus может отличаться.

⚠️ Не изучали качество источников: Исследователи не анализировали, откуда модель берёт информацию — только правильность финального ответа.


🔍

Как исследовали

Команда собрала 783 вопроса с фиксированными ответами (статический сплит) из датасета TempRAGEval — это вопросы с временными привязками типа "Кто был президентом X в 2021 году?". Каждый вопрос проверяли вручную: ответ должен быть однозначным и находиться в топ-2 результатов Google.

Для динамического сплита (288 вопросов) переформулировали статические вопросы в "текущие": убрали год, добавили "сейчас" или "в настоящее время". Важно: ответ должен был измениться после knowledge cutoff модели. Например, вопрос о CEO, который сменился в 2025 году.

Интересная находка: модели вызывают поиск в 87-91% случаев для "текущих" вопросов — но точность всё равно не превышает 70%. Проблема не в том, что модель не ищет, а в том, что плохо формулирует запросы.

Эксперимент с порогами уверенности показал: если запускать поиск только при уверенности ниже порога — accuracy растёт быстрее, чем при стратегии "искать всегда". Это значит, что внутренняя уверенность модели действительно коррелирует с тем, нужен ли поиск.


🔗

Ресурсы

Работа: "Look It Up: Analysing Internal Web Search Capabilities of Modern LLMs"

Автор: Sahil Kale (sahil@k-v.ai), Atlanta, GA, USA

Код и датасет: anonymous.4open.science/r/look-it-up-0B20


📋 Дайджест исследования

Ключевая суть

Парадокс веб-поиска: ChatGPT нашёл что-то в интернете и отвечает с уверенностью 90% — но это не значит, что ответ правильный. Исследование показало: после поиска модели становятся переуверенными — ошибка калибровки уверенности растёт в 2+ раза (с 0.10 до 0.27 у GPT, с 0.14 до 0.26 у Claude). Метод позволяет понимать, когда доверять ответам с веб-поиском, а когда перепроверять вручную. Фишка: веб-поиск работает как быстрая верификация фактов, а не как глубокое исследование. Если первый поисковый запрос не нашёл ответ — второй почти никогда не спасает, точность даже падает.

Принцип работы

Не слепо доверяй ответам после поиска — проверяй калибровку. Модель решает искать на основе внутренней уверенности: низкая уверенность + временные маркеры ("сейчас", "текущий") = триггер поиска. Проблема: после поиска модель заявляет высокую уверенность, даже если нашла мусор. Это как студент, который нагуглил первую ссылку и теперь уверенно врёт на экзамене — источник есть, но понимания нет.

Почему работает

Веб-поиск резко улучшает точность: GPT с 52% до 85% (+33%), Claude с 41% до 75% (+34%). Но цена успеха — переуверенность. Ключевой инсайт: модель не умеет отличать "нашёл ответ" от "нашёл что-то". Если первый запрос провалился — значит модель плохо сформулировала вопрос. Второй запрос использует ту же логику, те же результаты — поэтому не помогает. Исследователи протестировали 783 вопроса со статическими фактами (модель должна знать) и 288 с динамическими (после границы обучения) — паттерн одинаковый: первый запрос решает всё, второй бесполезен.

Когда применять

Для простых фактических вопросов — работает отлично: "Кто сейчас CEO компании X?", "Правда ли что Y?", текущие курсы валют. НЕ подходит для сложных исследований с множеством источников, вопросов требующих переформулировки запроса, или когда нужна проверяемость источников (тут лучше RAG-пайплайны или Deep Research).

Мини-рецепт

1. Задай вопрос и получи ответ с поиском. Обрати внимание на формулировку уверенности модели
2. Проверь логику поиска: Если модель говорит "я нашёл" с высокой уверенностью — попроси показать конкретный источник
3. Если ответ неточный — переформулируй сам. Не проси "поищи ещё раз" — модель использует ту же логику запроса
4. Для критичных фактов: Используй внешнюю проверку или явно требуй ссылки на первоисточник
5. Запомни паттерн: Временные маркеры ("сейчас", "текущий год") триггерят поиск — используй их явно для свежих данных

Примеры

[ПЛОХО] : Кто сейчас министр экономики России? → получаешь ответ с высокой уверенностью → веришь без проверки
[ХОРОШО] : Кто сейчас министр экономики России? Покажи источник и дату информации → если модель уверена на 90%, но источник косвенный (не официальный сайт) — перепроверяешь вручную. Для сложных вопросов: Какие основные изменения в налоговом законодательстве в 2025? лучше разбить на части: сначала Найди официальные источники об изменениях в налогах в 2025, потом Проанализируй каждый источник отдельно
Источник: Look It Up: Analysing Internal Web Search Capabilities of Modern LLMs
ArXiv ID: 2511.18931 | Сгенерировано: 2026-01-11 20:24

Концепты не выделены.

📖 Простыми словами

Look It Up: как LLM решают, когда искать в интернете

arXiv: 2511.18931

Современные LLM вроде ChatGPT или Claude больше не полагаются только на свою «память» — они превратились в операторов внутреннего веб-поиска. Корень механики здесь в том, что модель сама решает, когда ей достаточно знаний из обучения, а когда нужно лезть в интернет. Проблема в том, что этот выбор часто происходит наобум: нейронка может пойти искать ответ на элементарный вопрос, который и так знает, или, наоборот, начать галлюцинировать в сложной теме, решив, что она и так справится. В итоге эффективность поиска зависит не от качества гугления, а от того, насколько адекватно модель оценивает собственную тупость в конкретный момент.

Это похоже на работу стажера, которому дали доступ к архиву и Google. Если стажер самоуверен, он выдаст тебе чушь, даже не открыв браузер, просто потому что ему так кажется. А если он ленив, то пойдет гуглить «сколько будет дважды два», тратя твое время и ресурсы. В исследовании это называют проблемой триггера: модели часто игнорируют поиск там, где он жизненно необходим, и используют его как костыль там, где можно было обойтись своими силами. Формально инструмент есть, но пользуются им через одно место.

Что реально выяснили в цифрах: GPT-4o-mini и Claude 3 Haiku показывают дикий разброс в качестве. Когда вопрос касается фактов, которые модель «видела» при обучении, поиск часто только мешает, внося лишний шум. Но на свежих данных, вроде того, кто сейчас занимает пост министра, точность ответов с поиском вырастает в разы, если модель вообще догадалась его включить. Главный облом в том, что даже с доступом к сети модели лажают в синтезе информации: они находят правильную страницу, но выцепляют оттуда не тот факт или тупо игнорируют противоречия в источниках.

Хотя тестировали это на политиках и фактах, принцип универсален для любого корпоративного использования AI. Если ты встраиваешь поиск в своего чат-бота для поддержки клиентов или анализа рынка, помни: наличие доступа к данным не равно качеству ответа. Модель может смотреть прямо на нужную цифру в отчете и все равно выдать фигню, потому что её внутренний фильтр «важности» настроен криво. Это касается и написания кода, и проверки юридических документов — везде, где нужно сопоставить базу знаний с реальностью.

Короче: не надейся, что кнопка «поиск в интернете» сделает нейронку всезнающей. 15% ошибок возникают просто потому, что модель поленилась зайти в сеть, а еще часть — из-за того, что она не смогла переварить найденное. Пока что это не полноценный исследователь, а скорее быстрый, но невнимательный читатель Википедии. Если хочешь надежный результат, заставляй модель искать принудительно, иначе она продолжит уверенно врать, глядя тебе в глаза.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с