3,583 papers
arXiv:2601.05503 80 9 янв. 2026 г. FREE

Over-Searching: когда модель с поиском ищет слишком много

КЛЮЧЕВАЯ СУТЬ
Парадокс: Дай модели доступ к поиску — точность на отвечаемых вопросах растёт на 12%, но способность сказать "не знаю" на неотвечаемых падает на 7%. ChatGPT с web search видит вопрос "Кто будет президентом США в 2075?" и вместо "никто не знает" запускает 10+ поисковых запросов, тратит 2000 токенов и всё равно отвечает неправильно или неуверенно. Метод позволяет понять когда модель зря тратит токены на поиск ответа которого нет, и научить её отказываться отвечать. Фишка: корпусы описывают что мы знаем, а не что не знаем. Модель ищет "президент 2075" → находит прогнозы, статистику, мнения → интерпретирует отсутствие точного ответа как "плохо искал, надо ещё". Токенов на корректный ответ: без поиска 382, с поиском 765 — в два раза дороже за ту же точность.
Адаптировать под запрос

TL;DR

Over-searching — феномен, когда LLM с доступом к поиску (ChatGPT с web search, Perplexity, Deep Research) продолжает искать информацию даже когда это не помогает или вредит. Модель без поиска говорит "не знаю" на вопрос о будущем, а та же модель с поиском запускает цепочку из 10+ запросов, тратит тысячи токенов и всё равно отвечает неправильно или неуверенно.

Исследователи нашли парадокс: поиск улучшает точность ответов на отвечаемые вопросы, но разрушает способность отказаться от ответа на неотвечаемые. Модель видит "кто станет президентом США в 2075?" и вместо "никто не знает" начинает искать прогнозы, статистику, мнения экспертов. Чем больше reasoning (o1-style модели), тем сильнее эффект. Чем шумнее источник поиска (устаревшая Википедия, случайные веб-страницы), тем больше поисков делает модель. В диалоге эффект накапливается — если первые 3 вопроса были отвечаемыми, модель будет упорно пытаться ответить и на четвёртый, даже если он про неизвестное будущее.

Причина в асимметрии информации: корпусы описывают что мы знаем, а не что не знаем. Только 13-22% найденных документов содержат сигналы "ответа нет" (uncertainty, противоречия). Когда такие сигналы есть — модель отказывается отвечать почти идеально (90%+). Но при обычном поиске модель видит только "положительные" документы (даже если они misleading) и интерпретирует отсутствие ответа как "плохо искал, надо ещё".

📌

Схема проблемы

ANSWERABLE вопрос (столица Грузии-страны):
Без поиска: 60% точность
С поиском: 72% точность ✅ улучшение

UNANSWERABLE вопрос (президент США в 2075):
Без поиска: 55% abstention (правильно отказались)
С поиском: 48% abstention ❌ деградация

TPC (токены на корректный ответ):
Без поиска: 382 токена
С поиском: 765 токенов ❌ в 2 раза дороже

Чем сложнее модель (reasoning, deep research) — тем сильнее разрыв.

🚀

Примеры применения

📌

Пример 1: Вопрос о будущем

Ситуация: Спрашиваешь ChatGPT с web search: "Сколько будет стоить биткоин 1 января 2026?"

Что происходит (over-searching): - Модель ищет прогнозы аналитиков - Находит 5-10 противоречивых мнений - Ищет исторические данные - Ищет текущие тренды - Генерирует ответ типа "по прогнозам экспертов от $80k до $200k"

Проблема: Потрачено 2000+ токенов, 7 поисковых запросов, а ответ бесполезен — никто не знает будущего. Модель без поиска сказала бы "невозможно предсказать точно".

📌

Пример 2: Вопрос с ложной предпосылкой

Ситуация: "Сколько яиц откладывает тигр?"

Что происходит: - Модель ищет "tiger eggs" - Находит статьи про яйца (других животных) - Ищет "tiger reproduction" - Пытается синтезировать ответ из несвязанной информации

Правильно: "Тигры — млекопитающие, они не откладывают яйца."

📌

Пример 3: Амбигуозный вопрос

Ситуация: "Какая столица у Джорджии?"

Что происходит: - Модель ищет "Georgia capital" - Находит и Тбилиси (страна), и Атланту (штат) - Вместо уточнения выдаёт оба варианта или выбирает случайно

Правильно: "Уточните — страна Грузия или штат Джорджия?"

🧠

Почему это работает (и не работает)

Модель не знает границ своего незнания. Базовая модель без поиска полагается на внутреннюю уверенность — если паттерна нет, она может сказать "не знаю". Но когда добавляется поиск, логика меняется: отсутствие ответа = повод искать ещё, а не повод отказаться.

Корпусы асимметричны по своей природе. Википедия, интернет, базы знаний документируют что мы знаем, а не что не знаем. На вопрос "кто президент в 2075?" поиск найдёт прогнозы, статьи про будущее, демографию — много положительных документов (содержат слова из вопроса), но почти ноль negative evidence (явных утверждений "это неизвестно"). Модель видит 10 релевантных документов и думает "надо синтезировать ответ", а не "надо отказаться".

Reasoning усиливает проблему. Модели типа o1 обучены думать дольше и глубже. Но если задача fundamentally unanswerable, больше рассуждений ≠ лучше результат. Модель генерирует reasoning chain "может быть по аналогии с прошлым... а если учесть тренд... попробую найти экспертное мнение..." и запускает ещё 5 поисков. TPC растёт в 3-5 раз, abstention accuracy падает.

Multi-turn разговор — снежный ком. Если первые 3 вопроса были answerable, модель формирует паттерн "эта сессия про поиск ответов". Четвёртый вопрос (unanswerable) встречает уже предвзятую модель — она будет пытаться ответить упорнее, потому что контекст намекает "здесь всегда есть ответ".

Когда negative evidence есть — работает отлично. Если retrieval находит документы с явными сигналами uncertainty ("неизвестно", "нет данных", "противоречивые сведения"), модель abstains в 90%+ случаев. Проблема в том, что такие документы редки — только 13-22% в реальных корпусах.

📌

Техники митигации

📋

1. Abstention-aware промпт

Явно дай модели разрешение НЕ отвечать.

Отвечай на вопрос, используя поиск если нужно.

ВАЖНО: Если вопрос про будущее, основан на ложной предпосылке, 
или слишком неоднозначен — откажись отвечать. 
Скажи "не могу ответить" и объясни почему.

Примеры когда НЕ надо отвечать:
- Вопросы про будущее: "Кто выиграет чемпионат в 2030?"
- Ложные предпосылки: "Сколько ног у змеи?"
- Амбигуозность: "Какая столица у Джорджии?" (страна или штат?)

Вопрос: {твой_вопрос}

Эффект по исследованию: - Abstention accuracy: 50% → 60% (улучшение на 10 п.п.) - TPC снижается на ~25% - Answer accuracy почти не страдает (71% → 70%)

📌

2. Few-shot с примерами abstention

Покажи модели 2-3 примера правильного отказа.

Вот как работать с разными типами вопросов:

Пример 1 (будущее):
Q: Кто будет президентом России в 2040?
A: Это невозможно предсказать. События и выборы через 15+ лет 
зависят от множества непредсказуемых факторов.

Пример 2 (ложная предпосылка):
Q: В каком году Земля стала плоской?
A: Вопрос основан на ложной предпосылке. Земля имеет форму 
сфероида и никогда не была плоской.

Пример 3 (амбигуозность):
Q: Сколько стоит Tesla?
A: Вопрос неоднозначен. Уточните: акция компании Tesla, 
автомобиль Tesla (какая модель?), или что-то ещё?

Теперь твой вопрос: {твой_вопрос}

Эффект: - Abstention accuracy: 50% → 63% - Лучший баланс точности и стоимости

📋

3. Self-evaluation (двухшаговый промпт)

Сначала оцени отвечаемость, потом отвечай.

ШАГ 1: Оцени вопрос
Проверь:
- Это про будущее/неизвестное? 
- Есть ложная предпосылка?
- Вопрос однозначен?

Вопрос: {твой_вопрос}

Вердикт: ОТВЕЧАЕМЫЙ / НЕОТВЕЧАЕМЫЙ

---

ШАГ 2: Действуй
Если ОТВЕЧАЕМЫЙ → ищи информацию и отвечай
Если НЕОТВЕЧАЕМЫЙ → объясни почему не можешь ответить

🚀 Быстрый старт — вставь в чат:

Вот шаблон self-evaluation для уменьшения over-searching. 
Адаптируй под мою задачу: [твоя задача].

[вставить любой из шаблонов выше]

Модель спросит конкретику твоего вопроса и типа информации. Она возьмёт паттерн проверки отвечаемости и встроит в свой workflow.

📌

Когда применять

✅ Используй эти техники если: - Работаешь с ChatGPT (web search), Perplexity, Deep Research - Задаёшь вопросы где ответа может не быть - Хочешь сэкономить токены/деньги - Multi-turn диалог с накоплением контекста - Источник поиска шумный (интернет vs чистая база знаний)

⚠️ Особенно критично для: - Reasoning моделей (o1, DeepSeek-R1, Kimi-K2) — они over-search сильнее всего - Вопросов про будущее, прогнозы, неизвестное - Вопросов с потенциальной амбигуозностью - Длинных сессий (5+ сообщений) — snowball эффект

⚠️

Ограничения

⚠️ Эффект умеренный: Техники улучшают abstention accuracy на 10-13 п.п., но не решают проблему полностью. Модели всё ещё склонны искать на unanswerable вопросах.

⚠️ Trade-off с answer accuracy: Abstention-aware промпт иногда снижает точность ответов на answerable вопросах на 1-2 п.п. — модель становится осторожнее.

⚠️ Не работает для Deep Research режима: Глубокие multi-step агенты (типа o1 Deep Research) настолько нацелены на exhaustive search, что промпты почти не помогают. TPC может достигать 38,000+ токенов на вопрос.

⚠️ Зависит от корпуса: Если в retrieval корпусе мало negative evidence (сигналов "ответа нет"), эффект слабее. Работает хорошо с качественными источниками (свежая Википедия), хуже с шумными (старые данные, случайный веб).

🔍

Как исследовали

Исследователи создали OverSearchQA — бенчмарк из 1,188 вопросов, поровну answerable и unanswerable. Три категории unanswerable: (1) Answer Unknown — про будущее и нерешённые проблемы ("кто президент в 2075?"), (2) False Premise — ложные предпосылки ("сколько яиц откладывает тигр?"), (3) Underspecified Context — амбигуозность ("столица Джорджии?" — страна или штат?).

Хитрость дизайна: для каждого unanswerable вопроса подобрали answerable аналог с похожей длиной и семантикой (embedding similarity). Это убирает артефакты — если модель ошибается, это не потому что вопрос формулирован странно, а потому что проблема действительно в типе вопроса.

Тестировали 10 моделей (от GPT-4o-mini до o1, от Llama-3.2-3B до Qwen-235B) в двух режимах: без поиска (baseline) и с поиском (Wikipedia, веб, шумные корпусы). Для каждого вопроса смотрели: (1) answer accuracy на answerable (правильно ответили?), (2) abstention accuracy на unanswerable (правильно отказались?), (3) TPC — сколько токенов потратили на каждый корректный outcome.

Ключевая находка: когда разобрали naturally retrieved документы LLM-судьёй на "positive" (поддерживают ответ, даже если misleading) и "negative" (сигналы uncertainty), оказалось что negative только 13-22%. Но в экспериментах где negative documents были — abstention accuracy подскакивала до 90%+. Это показало что модели УМЕЮТ abstain, но корпусы не дают им сигналов.

Дополнительно проверили multi-turn диалоги (1-9 сообщений перед финальным вопросом). Если история диалога содержала answerable вопросы — модель упрямо пыталась ответить и на unanswerable. Если история была unanswerable — abstention даже улучшалась. Snowball эффект: модель формирует expectation из контекста.

Измеряли не только точность, но и стоимость провала. Разложили TPC по типам outcomes: correct answer, correct abstention, wrong answer, wrong non-abstention. Abstention failure (ответ на unanswerable) оказался самым дорогим — модель делает 5-10 поисков, генерирует длинный reasoning, а в итоге всё равно неправильно.

Митигации (abstention-aware, few-shot, self-eval) дали улучшение на 10-13 п.п., но не решили проблему fundamentally. Даже с промптами модели всё равно over-search, просто меньше. Reasoning модели (o1, Qwen-Thinking) показали worst results — чем глубже reasoning, тем сильнее over-searching. Deep Research режим дошёл до абсурда: 38,000 TPC — в 221 раз дороже базовой модели, при abstention accuracy всего 30%.

🔗

Ресурсы

Over-Searching in Search-Augmented Large Language Models — статья описывает феномен, метрики (TPC), бенчмарк OverSearchQA и техники митигации.

Авторы: команда из UC Berkeley, Stanford, Google Research и других (имена не указаны в excerpt, но работа из топовых лабораторий судя по качеству).


📋 Дайджест исследования

Ключевая суть

Парадокс: Дай модели доступ к поиску — точность на отвечаемых вопросах растёт на 12%, но способность сказать "не знаю" на неотвечаемых падает на 7%. ChatGPT с web search видит вопрос "Кто будет президентом США в 2075?" и вместо "никто не знает" запускает 10+ поисковых запросов, тратит 2000 токенов и всё равно отвечает неправильно или неуверенно. Метод позволяет понять когда модель зря тратит токены на поиск ответа которого нет, и научить её отказываться отвечать. Фишка: корпусы описывают что мы знаем, а не что не знаем. Модель ищет "президент 2075" → находит прогнозы, статистику, мнения → интерпретирует отсутствие точного ответа как "плохо искал, надо ещё". Токенов на корректный ответ: без поиска 382, с поиском 765 — в два раза дороже за ту же точность.

Принцип работы

Не полагайся на то что поиск сам остановится — явно дай модели разрешение НЕ отвечать. Базовая модель без поиска опирается на внутреннюю уверенность — нет паттерна, может сказать "не знаю". Но с поиском логика переворачивается: отсутствие ответа = повод искать ещё, а не повод остановиться. Reasoning модели (o1, DeepSeek-R1) делают проблему жёстче — они обучены думать дольше, генерируют цепочки рассуждений "а если по аналогии... а если учесть тренд..." и запускают ещё 5 поисков. TPC растёт в 3-5 раз, а abstention точность проседает.

Почему работает

Информационная асимметрия в корнях. Википедия, интернет, базы знаний документируют что мы знаем, а не что не знаем. На вопрос "кто президент в 2075?" поиск найдёт прогнозы, статьи про будущее, демографию — много положительных документов (содержат слова из вопроса), но почти ноль явных утверждений "это неизвестно". Только 13-22% найденных документов содержат сигналы "ответа нет". Модель видит 10 релевантных документов и думает "надо синтезировать ответ", а не "надо отказаться". Когда negative evidence есть (документы с uncertainty, противоречиями) — модель отказывается отвечать почти идеально, 90%+ abstention. В multi-turn диалоге эффект накапливается — если первые 3 вопроса были отвечаемыми, модель формирует паттерн "здесь всегда есть ответ" и будет упорнее пытаться ответить на четвёртый, даже если он про неизвестное будущее.

Когда применять

ChatGPT с web search, Perplexity, Deep Research → конкретно для задач где ответа может не быть (вопросы про будущее, ложные предпосылки, амбигуозность), особенно когда хочешь сэкономить токены и деньги. Критично для reasoning моделей (o1, DeepSeek-R1, Kimi-K2) — они делают over-search сильнее всего. В длинных сессиях (5+ сообщений) эффект накапливается как снежный ком. НЕ подходит для: Deep Research режима с exhaustive search установкой — там промпты почти не работают, TPC может достигать 38,000+ токенов на вопрос.

Мини-рецепт

1. Abstention-aware промпт: Явно разреши НЕ отвечать. Добавь в системный промпт: Если вопрос про будущее, основан на ложной предпосылке или слишком неоднозначен — откажись отвечать. Скажи "не могу ответить" и объясни почему. → abstention accuracy с 50% до 60%, TPC снижается на ~25%.

2. Few-shot с примерами отказа: Покажи 2-3 примера правильного abstention. Q: Кто будет президентом России в 2040? A: Невозможно предсказать. События через 15+ лет зависят от непредсказуемых факторов. → abstention accuracy до 63%, лучший баланс точности и стоимости.

3. Self-evaluation (двухшаговый): Сначала оцени отвечаемость, потом отвечай. ШАГ 1: Проверь — это про будущее/неизвестное? Есть ложная предпосылка? Вопрос однозначен? Вердикт: ОТВЕЧАЕМЫЙ/НЕОТВЕЧАЕМЫЙ. ШАГ 2: Если ОТВЕЧАЕМЫЙ → ищи и отвечай. Если НЕОТВЕЧАЕМЫЙ → объясни почему не можешь.

Примеры

[ПЛОХО] : Спрашиваешь ChatGPT с web search: Сколько будет стоить биткоин 1 января 2026? — модель запускает 7 поисковых запросов (прогнозы, исторические данные, тренды), тратит 2000+ токенов, выдаёт "по прогнозам от $80k до $200k". Предсказание бесполезно, токены потрачены зря.
[ХОРОШО] : Тот же вопрос с abstention-aware промптом: Отвечай на вопрос используя поиск если нужно. ВАЖНО: Если вопрос про будущее — откажись отвечать. Скажи "не могу ответить" и объясни почему. Вопрос: Сколько будет стоить биткоин 1 января 2026? — модель отвечает: "Не могу предсказать точную цену. События на крипторынке через год зависят от множества непредсказуемых факторов (регулирование, макроэкономика, технические события). Прогнозы аналитиков расходятся в 2-3 раза." → 200 токенов вместо 2000, честный ответ вместо иллюзии знания.
Источник: Over-Searching in Search-Augmented Large Language Models
ArXiv ID: 2601.05503 | Сгенерировано: 2026-01-12 05:25

Проблемы LLM

ПроблемаСутьКак обойти
Модель с поиском не умеет говорить "не знаю"Без доступа к поиску модель может сказать "не знаю" на вопрос о будущем или с ложной предпосылкой. Та же модель с поиском запускает 10+ запросов, тратит тысячи токенов и всё равно отвечает неправильно. Поиск улучшает точность на отвечаемых вопросах, но разрушает способность отказаться на неотвечаемых. Особенно сильно проявляется в reasoning-моделях (o1, DeepSeek-R1) — они думают дольше, ищут больше, стоят дорожеДобавь в промпт явное разрешение отказаться: "Если вопрос про будущее, основан на ложной предпосылке или неоднозначен — скажи 'не могу ответить' и объясни почему". Покажи 2-3 примера правильного отказа. Или используй двухшаговый промпт: сначала "оцени отвечаемость", потом "действуй"

Тезисы

ТезисКомментарий
Поиск меняет логику незнания: "нет ответа" становится сигналом "ищи ещё"Модель без поиска опирается на внутренние паттерны. Не нашла паттерн — говорит "не знаю". Модель с поиском интерпретирует отсутствие ответа как "плохо искал, надо ещё попытку". Логика переворачивается: незнание превращается в триггер для новых поисков, а не повод остановиться. Применяй: При проектировании RAG-систем добавляй явную проверку отвечаемости ДО запуска поиска, а не после
Корпусы асимметричны — описывают что знаем, не что не знаемВикипедия, интернет, базы знаний документируют факты и знания. На вопрос "кто президент в 2075?" поиск найдёт прогнозы, статистику, мнения экспертов — много документов со словами из вопроса. Но почти ноль документов с явным утверждением "это неизвестно". Модель видит 10 релевантных результатов и думает "надо синтезировать ответ", а не "надо отказаться". Только 13-22% документов содержат сигналы uncertainty. Применяй: Если строишь RAG, добавляй в корпус специальные документы-маркеры: "вопросы про будущее — неотвечаемы", "это ложная предпосылка"
Явные сигналы "ответа нет" работают почти идеальноКогда в результатах поиска есть документы с явными фразами "неизвестно", "нет данных", "противоречивые сведения" — модель правильно отказывается в 90%+ случаев. Проблема: такие документы редки в естественных корпусах. Решение работает, но требует кураторства источников. Применяй: В корпус для поиска добавь мета-документы: FAQ с явными "на этот вопрос нет ответа", списки распространённых заблуждений, границы применимости данных
📖 Простыми словами

Over-Searching: когда модель с поиском ищет слишком много

arXiv: 2601.05503

Проблема over-searching — это когда нейросеть превращается в тревожного отличника, который не может вовремя остановиться. В базе своей LLM с доступом к поиску устроены так, чтобы любой ценой найти ответ, но у них нет тормозов. Вместо того чтобы честно признать пробел в знаниях, модель начинает бесконечно гуглить, надеясь, что следующий запрос принесет чудо. Это фундаментальный баг логики: система путает наличие инструментов с возможностью решить задачу.

Это как если бы ты попросил друга узнать, какая погода будет в Париже ровно через три года, а он вместо короткого «никто не знает» ушел бы в библиотеку на неделю. Он перерыл бы все архивы, изучил графики за сто лет и в итоге выдал бы тебе неуверенный прогноз, потратив кучу времени и сил. Формально он старался, но по факту просто занимался бессмысленной имитацией деятельности, потому что ответа в природе не существует.

В реальности это выглядит как бесконечная цепочка запросов: модель видит вопрос о будущем или закрытой информации, запускает поиск, получает пустые результаты и вместо отмены операции пробует еще 10-15 вариаций того же самого. Исследование показывает, что такие системы тратят тысячи лишних токенов и кучу времени, но точность ответа при этом не растет ни на процент. Это классический пример того, как инструмент становится обузой, если у него нет критерия достаточности.

Принцип универсален и касается не только поиска в сети, но и любых агентских систем или RAG-решений. Если ты настраиваешь ИИ-ассистента для работы с базой знаний компании, он может точно так же «залипнуть», пытаясь найти в скудных документах ответ на философский вопрос. Модель просто не понимает, когда пора сдаться, и начинает галлюцинировать или выдавать мусорный контент, лишь бы оправдать затраченные ресурсы.

Короче, больше поиска не значит лучше результат, и часто краткий отказ ценнее, чем глубокое исследование ни о чем. Сейчас разработчики пичкают модели инструментами, забывая научить их главному — вовремя закрывать вкладку браузера. Если не ограничить этот «зуд поиска», мы получим медленные и дорогие системы, которые будут лажать с уверенным видом, пока у тебя не кончатся деньги на токены.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с