TL;DR
У вопросов есть срок годности — и он разный. «Какой химический символ золота?» не устареет никогда. «Кто CEO Яндекса?» — устаревает раз в несколько лет. «Какой курс доллара?» — каждый час. Это исследование вводит таксономию из 12 классов изменчивости (от «раз в час» до «никогда») плюс понятие стационарности — меняется ли сама частота обновлений в зависимости от контекста.
LLM не умеют понимать, насколько срочно нужны свежие данные для конкретного вопроса. Модель отвечает с одинаковой уверенностью на вопрос про таблицу умножения и на вопрос про актуальную ключевую ставку — хотя второй ответ может быть годовой давности. Проблема не в том, что у модели устаревший срез знаний, а в том, что она не сигнализирует, когда это критично.
Таксономия решает это через два шага: сначала классифицируй вопрос по типу изменчивости (стационарный или нет), потом реши — добавить ли модели временной контекст. Ключевое открытие: для не-стационарных вопросов контекст сильно улучшает ответ, а для стационарных — может навредить.
Схема метода
ШАГ 1: Самодиагностика вопроса (один запрос)
→ Как часто меняется ответ? (один из 12 классов: час / день / год / никогда)
→ Зависит ли частота обновлений от ситуации? (стационарный / не-стационарный)
ШАГ 2: Решение на основе типа
→ Не-стационарный → добавь временной контекст в запрос
→ Стационарный → не добавляй контекст, он мешает
ШАГ 3: Финальный запрос с явным сигналом актуальности
→ Если остро нужна свежесть → попроси модель flagнуть устаревшие данные явно
Все три шага можно выполнить в одном запросе — через prompt-классификацию перед основным вопросом.
Пример применения
Задача: Готовишься к переговорам с инвесторами — хочешь узнать у Claude, как сейчас устроено венчурное финансирование в России: условия, оценки, активность фондов.
Это не-стационарный вопрос: в тихий год венчур обновляется раз в квартал, а в кризис — каждую неделю. Без временного контекста модель может смешать данные разных периодов.
Промпт:
Перед ответом сделай классификацию:
1. Как часто меняется ответ на мой вопрос?
(варианты: раз в час / день / неделю / месяц / квартал / год / раз в несколько лет / никогда)
2. Зависит ли эта частота от текущей ситуации на рынке? (да / нет)
Контекст для ответа: сейчас вторая половина 2025 года,
российский венчурный рынок после нескольких лет переориентации
на внутренних инвесторов и азиатские фонды.
Вопрос: как сейчас устроено венчурное финансирование в России —
типичные условия сделок, активные фонды, медианные оценки стартапов на seed-стадии?
В конце ответа явно укажи: какие части ответа могут быть устаревшими
и требуют проверки перед переговорами.
Результат:
Модель сначала покажет классификацию: «обновляется раз в квартал, стационарность зависит от рыночной волатильности → не-стационарный». Затем даст структурированный ответ с использованием заданного временного контекста. В конце — явный список «точек риска»: какие данные (оценки, имена фондов, условия) стоит верифицировать независимо, потому что они быстро устаревают.
Почему это работает
Слабость LLM: модель не хранит «метку свежести» для каждого факта. Для неё ответ на «столица Франции» и «текущий CEO X» хранятся одинаково — как текст из обучающей выборки. Она не знает, что второй факт устарел через полгода. Нет внутреннего будильника: «стоп, это могло измениться».
Сильная сторона LLM: модель хорошо работает с явными инструкциями и фреймами. Если ты сам говоришь модели «смотри на это как на быстро меняющееся» — она подтягивает из обучения паттерн работы с неопределённостью, явно маркирует сомнительные части, использует временной контекст.
Как метод это использует: ты берёшь классификационную работу на себя (или делегируешь самой модели в первом шаге). Результат — модель больше не работает вслепую. Она получает сигнал об уровне срочности и отвечает соответственно: либо уверенно, либо с явными оговорками.
Рычаги управления промптом: - Убери шаг классификации → если ты уже знаешь тип вопроса, сразу давай контекст. Экономия токенов. - Добавь конкретную дату вместо «сейчас» → более точная активация релевантного знания. - Замени «укажи устаревшие части» на «оцени уверенность по каждому пункту от 1 до 5» → получишь структурированную оценку надёжности. - Для стационарных вопросов (математика, право, история) — убери временной контекст. Исследование показало: он снижает качество ответа на стабильные факты, модель начинает «прокачивать» временное измерение там, где его нет.
Шаблон промпта
Сделай классификацию моего вопроса:
— Как часто меняется ответ? (час / день / неделю / месяц / квартал / год / несколько лет / никогда)
— Зависит ли частота обновлений от текущей ситуации? (да / нет)
Если «да» — используй этот контекст: {временной контекст — дата, ситуация, период}
Если «нет» — отвечай без привязки к дате.
Вопрос: {твой вопрос}
В конце: отметь, какие части ответа могут устареть и требуют проверки.
Что подставлять:
- {временной контекст} — текущая дата + ситуация. Например: «июль 2025, ключевая ставка ЦБ только что снизилась» или «разгар предвыборной кампании»
- {твой вопрос} — любой вопрос, где актуальность важна
🚀 Быстрый старт — вставь в чат:
Вот шаблон для работы с временными вопросами к LLM.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, насколько важна актуальность для твоей задачи и какой временной контекст дать — потому что без этого невозможно определить, нужен ли дополнительный контекст или он навредит.
Ограничения
⚠️ Не решает проблему знаний: Таксономия помогает правильно сформулировать запрос, но не даёт модели свежие данные. Если ответ устарел — он останется устарелым, просто модель честнее об этом скажет.
⚠️ Классификация требует усилий: Чтобы применить метод, нужно самому думать о типе вопроса. Для быстрых запросов — лишний шаг.
⚠️ Контекст — не панацея для не-стационарных вопросов: Даже при правильном контексте точность LLM в тонкой классификации изменчивости остаётся невысокой. Модели хорошо работают с грубой оценкой («меняется редко / часто»), но не с точным классом из 12.
⚠️ Стационарные вопросы с контекстом: Если ты добавляешь временной контекст к вопросу, у которого стабильный ответ — модель может начать «переусложнять» и снизить качество ответа. Почти во всех протестированных моделях это повторяется.
Как исследовали
Команда University of Innsbruck и MEF University собрала 4 031 вопрос из трёх существующих датасетов (FreshQA, PATQA, SituatedQA) и добавила сгенерированные вопросы на основе описаний реальных событий. Каждый вопрос размечался 13 раз — не один, а тринадцать — чтобы получить распределение меток, а не одну точечную оценку. Число 13 выбрано не случайно: в таксономии 12 классов, и 13 запросов гарантируют, что всегда будет строгое большинство.
Стационарность определяли через голосование трёх моделей (GPT, Gemini, Claude), а потом перекрёстно проверяли с распределением меток — если три модели говорят «стационарный», а метки скачут между 4 классами, вопрос переклассифицировали. Это умный дизайн: логика важнее консенсуса.
Шесть моделей — от 7B до 72B параметров — тестировались в трёх режимах: zero-shot, few-shot и Chain-of-Thought. Самый интересный результат: few-shot лучше CoT для временной классификации. Это неожиданно — обычно CoT выигрывает на сложных задачах. Здесь же несколько примеров правильной классификации дают модели лучший ориентир, чем пошаговые рассуждения. Шесть аспирантов провели ручную разметку 240 вопросов — итоговое совпадение с автоматическими метками составило 76-78%, что говорит о том, что задача действительно сложная даже для людей.
Адаптации и экстраполяции
🔧 Техника: Диагностика перед большим исследованием
Если ты готовишь объёмный запрос с несколькими вопросами — сначала пропусти их через классификацию и раздели на группы:
Адаптация:
Вот список вопросов. Для каждого: укажи частоту изменения ответа (час / день / год / никогда) и нужен ли временной контекст (да / нет). 1. {вопрос 1} 2. {вопрос 2} 3. {вопрос 3}Затем: вопросы с «да» задаёшь с контекстом, вопросы с «нет» — напрямую.
Это особенно полезно при подготовке к переговорам, исследованию конкурентов или анализу рынка — где одни данные стабильны (юридическая структура компании), а другие меняются быстро (текущий раунд финансирования).
🔧 Техника: Явный запрос на маркировку устаревших данных
Вместо поиска «свежего ответа» — попроси модель маркировать риски в существующем ответе:
Проанализируй этот текст и выдели, какие утверждения могут быть устаревшими.
Для каждого укажи: как часто этот тип информации обычно меняется?
Текст: {вставь текст или свой запрос}
Это работает для проверки материалов, написанных год-два назад, или для быстрой оценки: «что из этого стоит перепроверить перед встречей».
Ресурсы
Работа: How often do Answers Change? Estimating Recency Requirements in Question Answering (SIGIR '26)
Датасет: github.com/DataScienceUIBK/RecencyQA
Авторы: Bhawna Piryani, Zehra Mert, Adam Jatowt — University of Innsbruck (Австрия) и MEF University (Стамбул, Турция)
Смежные датасеты: FreshQA, PATQA, SituatedQA, TimeQA, TEMPLAMA
