TL;DR
Over-searching — феномен, когда LLM с доступом к поиску (ChatGPT с web search, Perplexity, Deep Research) продолжает искать информацию даже когда это не помогает или вредит. Модель без поиска говорит "не знаю" на вопрос о будущем, а та же модель с поиском запускает цепочку из 10+ запросов, тратит тысячи токенов и всё равно отвечает неправильно или неуверенно.
Исследователи нашли парадокс: поиск улучшает точность ответов на отвечаемые вопросы, но разрушает способность отказаться от ответа на неотвечаемые. Модель видит "кто станет президентом США в 2075?" и вместо "никто не знает" начинает искать прогнозы, статистику, мнения экспертов. Чем больше reasoning (o1-style модели), тем сильнее эффект. Чем шумнее источник поиска (устаревшая Википедия, случайные веб-страницы), тем больше поисков делает модель. В диалоге эффект накапливается — если первые 3 вопроса были отвечаемыми, модель будет упорно пытаться ответить и на четвёртый, даже если он про неизвестное будущее.
Причина в асимметрии информации: корпусы описывают что мы знаем, а не что не знаем. Только 13-22% найденных документов содержат сигналы "ответа нет" (uncertainty, противоречия). Когда такие сигналы есть — модель отказывается отвечать почти идеально (90%+). Но при обычном поиске модель видит только "положительные" документы (даже если они misleading) и интерпретирует отсутствие ответа как "плохо искал, надо ещё".
Схема проблемы
ANSWERABLE вопрос (столица Грузии-страны):
Без поиска: 60% точность
С поиском: 72% точность ✅ улучшение
UNANSWERABLE вопрос (президент США в 2075):
Без поиска: 55% abstention (правильно отказались)
С поиском: 48% abstention ❌ деградация
TPC (токены на корректный ответ):
Без поиска: 382 токена
С поиском: 765 токенов ❌ в 2 раза дороже
Чем сложнее модель (reasoning, deep research) — тем сильнее разрыв.
Примеры применения
Пример 1: Вопрос о будущем
Ситуация: Спрашиваешь ChatGPT с web search: "Сколько будет стоить биткоин 1 января 2026?"
Что происходит (over-searching): - Модель ищет прогнозы аналитиков - Находит 5-10 противоречивых мнений - Ищет исторические данные - Ищет текущие тренды - Генерирует ответ типа "по прогнозам экспертов от $80k до $200k"
Проблема: Потрачено 2000+ токенов, 7 поисковых запросов, а ответ бесполезен — никто не знает будущего. Модель без поиска сказала бы "невозможно предсказать точно".
Пример 2: Вопрос с ложной предпосылкой
Ситуация: "Сколько яиц откладывает тигр?"
Что происходит: - Модель ищет "tiger eggs" - Находит статьи про яйца (других животных) - Ищет "tiger reproduction" - Пытается синтезировать ответ из несвязанной информации
Правильно: "Тигры — млекопитающие, они не откладывают яйца."
Пример 3: Амбигуозный вопрос
Ситуация: "Какая столица у Джорджии?"
Что происходит: - Модель ищет "Georgia capital" - Находит и Тбилиси (страна), и Атланту (штат) - Вместо уточнения выдаёт оба варианта или выбирает случайно
Правильно: "Уточните — страна Грузия или штат Джорджия?"
Почему это работает (и не работает)
Модель не знает границ своего незнания. Базовая модель без поиска полагается на внутреннюю уверенность — если паттерна нет, она может сказать "не знаю". Но когда добавляется поиск, логика меняется: отсутствие ответа = повод искать ещё, а не повод отказаться.
Корпусы асимметричны по своей природе. Википедия, интернет, базы знаний документируют что мы знаем, а не что не знаем. На вопрос "кто президент в 2075?" поиск найдёт прогнозы, статьи про будущее, демографию — много положительных документов (содержат слова из вопроса), но почти ноль negative evidence (явных утверждений "это неизвестно"). Модель видит 10 релевантных документов и думает "надо синтезировать ответ", а не "надо отказаться".
Reasoning усиливает проблему. Модели типа o1 обучены думать дольше и глубже. Но если задача fundamentally unanswerable, больше рассуждений ≠ лучше результат. Модель генерирует reasoning chain "может быть по аналогии с прошлым... а если учесть тренд... попробую найти экспертное мнение..." и запускает ещё 5 поисков. TPC растёт в 3-5 раз, abstention accuracy падает.
Multi-turn разговор — снежный ком. Если первые 3 вопроса были answerable, модель формирует паттерн "эта сессия про поиск ответов". Четвёртый вопрос (unanswerable) встречает уже предвзятую модель — она будет пытаться ответить упорнее, потому что контекст намекает "здесь всегда есть ответ".
Когда negative evidence есть — работает отлично. Если retrieval находит документы с явными сигналами uncertainty ("неизвестно", "нет данных", "противоречивые сведения"), модель abstains в 90%+ случаев. Проблема в том, что такие документы редки — только 13-22% в реальных корпусах.
Техники митигации
1. Abstention-aware промпт
Явно дай модели разрешение НЕ отвечать.
Отвечай на вопрос, используя поиск если нужно.
ВАЖНО: Если вопрос про будущее, основан на ложной предпосылке,
или слишком неоднозначен — откажись отвечать.
Скажи "не могу ответить" и объясни почему.
Примеры когда НЕ надо отвечать:
- Вопросы про будущее: "Кто выиграет чемпионат в 2030?"
- Ложные предпосылки: "Сколько ног у змеи?"
- Амбигуозность: "Какая столица у Джорджии?" (страна или штат?)
Вопрос: {твой_вопрос}
Эффект по исследованию: - Abstention accuracy: 50% → 60% (улучшение на 10 п.п.) - TPC снижается на ~25% - Answer accuracy почти не страдает (71% → 70%)
2. Few-shot с примерами abstention
Покажи модели 2-3 примера правильного отказа.
Вот как работать с разными типами вопросов:
Пример 1 (будущее):
Q: Кто будет президентом России в 2040?
A: Это невозможно предсказать. События и выборы через 15+ лет
зависят от множества непредсказуемых факторов.
Пример 2 (ложная предпосылка):
Q: В каком году Земля стала плоской?
A: Вопрос основан на ложной предпосылке. Земля имеет форму
сфероида и никогда не была плоской.
Пример 3 (амбигуозность):
Q: Сколько стоит Tesla?
A: Вопрос неоднозначен. Уточните: акция компании Tesla,
автомобиль Tesla (какая модель?), или что-то ещё?
Теперь твой вопрос: {твой_вопрос}
Эффект: - Abstention accuracy: 50% → 63% - Лучший баланс точности и стоимости
3. Self-evaluation (двухшаговый промпт)
Сначала оцени отвечаемость, потом отвечай.
ШАГ 1: Оцени вопрос
Проверь:
- Это про будущее/неизвестное?
- Есть ложная предпосылка?
- Вопрос однозначен?
Вопрос: {твой_вопрос}
Вердикт: ОТВЕЧАЕМЫЙ / НЕОТВЕЧАЕМЫЙ
---
ШАГ 2: Действуй
Если ОТВЕЧАЕМЫЙ → ищи информацию и отвечай
Если НЕОТВЕЧАЕМЫЙ → объясни почему не можешь ответить
🚀 Быстрый старт — вставь в чат:
Вот шаблон self-evaluation для уменьшения over-searching.
Адаптируй под мою задачу: [твоя задача].
[вставить любой из шаблонов выше]
Модель спросит конкретику твоего вопроса и типа информации. Она возьмёт паттерн проверки отвечаемости и встроит в свой workflow.
Когда применять
✅ Используй эти техники если: - Работаешь с ChatGPT (web search), Perplexity, Deep Research - Задаёшь вопросы где ответа может не быть - Хочешь сэкономить токены/деньги - Multi-turn диалог с накоплением контекста - Источник поиска шумный (интернет vs чистая база знаний)
⚠️ Особенно критично для: - Reasoning моделей (o1, DeepSeek-R1, Kimi-K2) — они over-search сильнее всего - Вопросов про будущее, прогнозы, неизвестное - Вопросов с потенциальной амбигуозностью - Длинных сессий (5+ сообщений) — snowball эффект
Ограничения
⚠️ Эффект умеренный: Техники улучшают abstention accuracy на 10-13 п.п., но не решают проблему полностью. Модели всё ещё склонны искать на unanswerable вопросах.
⚠️ Trade-off с answer accuracy: Abstention-aware промпт иногда снижает точность ответов на answerable вопросах на 1-2 п.п. — модель становится осторожнее.
⚠️ Не работает для Deep Research режима: Глубокие multi-step агенты (типа o1 Deep Research) настолько нацелены на exhaustive search, что промпты почти не помогают. TPC может достигать 38,000+ токенов на вопрос.
⚠️ Зависит от корпуса: Если в retrieval корпусе мало negative evidence (сигналов "ответа нет"), эффект слабее. Работает хорошо с качественными источниками (свежая Википедия), хуже с шумными (старые данные, случайный веб).
Как исследовали
Исследователи создали OverSearchQA — бенчмарк из 1,188 вопросов, поровну answerable и unanswerable. Три категории unanswerable: (1) Answer Unknown — про будущее и нерешённые проблемы ("кто президент в 2075?"), (2) False Premise — ложные предпосылки ("сколько яиц откладывает тигр?"), (3) Underspecified Context — амбигуозность ("столица Джорджии?" — страна или штат?).
Хитрость дизайна: для каждого unanswerable вопроса подобрали answerable аналог с похожей длиной и семантикой (embedding similarity). Это убирает артефакты — если модель ошибается, это не потому что вопрос формулирован странно, а потому что проблема действительно в типе вопроса.
Тестировали 10 моделей (от GPT-4o-mini до o1, от Llama-3.2-3B до Qwen-235B) в двух режимах: без поиска (baseline) и с поиском (Wikipedia, веб, шумные корпусы). Для каждого вопроса смотрели: (1) answer accuracy на answerable (правильно ответили?), (2) abstention accuracy на unanswerable (правильно отказались?), (3) TPC — сколько токенов потратили на каждый корректный outcome.
Ключевая находка: когда разобрали naturally retrieved документы LLM-судьёй на "positive" (поддерживают ответ, даже если misleading) и "negative" (сигналы uncertainty), оказалось что negative только 13-22%. Но в экспериментах где negative documents были — abstention accuracy подскакивала до 90%+. Это показало что модели УМЕЮТ abstain, но корпусы не дают им сигналов.
Дополнительно проверили multi-turn диалоги (1-9 сообщений перед финальным вопросом). Если история диалога содержала answerable вопросы — модель упрямо пыталась ответить и на unanswerable. Если история была unanswerable — abstention даже улучшалась. Snowball эффект: модель формирует expectation из контекста.
Измеряли не только точность, но и стоимость провала. Разложили TPC по типам outcomes: correct answer, correct abstention, wrong answer, wrong non-abstention. Abstention failure (ответ на unanswerable) оказался самым дорогим — модель делает 5-10 поисков, генерирует длинный reasoning, а в итоге всё равно неправильно.
Митигации (abstention-aware, few-shot, self-eval) дали улучшение на 10-13 п.п., но не решили проблему fundamentally. Даже с промптами модели всё равно over-search, просто меньше. Reasoning модели (o1, Qwen-Thinking) показали worst results — чем глубже reasoning, тем сильнее over-searching. Deep Research режим дошёл до абсурда: 38,000 TPC — в 221 раз дороже базовой модели, при abstention accuracy всего 30%.
Ресурсы
Over-Searching in Search-Augmented Large Language Models — статья описывает феномен, метрики (TPC), бенчмарк OverSearchQA и техники митигации.
Авторы: команда из UC Berkeley, Stanford, Google Research и других (имена не указаны в excerpt, но работа из топовых лабораторий судя по качеству).
