3,583 papers
arXiv:2603.16544 70 17 мар. 2026 г. FREE

Recency-Stationarity Taxonomy: как понять, когда LLM врёт из-за устаревших данных — и как это исправить

КЛЮЧЕВАЯ СУТЬ
Парадокс: добавление временного контекста к стабильным вопросам делает ответы хуже. Не наоборот. Модель получает вопрос про математику или право — и начинает «прокачивать» временное измерение там, где его нет. Зато для быстро меняющихся вопросов контекст резко повышает качество. Метод позволяет понять, когда подсовывать модели дату и ситуацию, а когда намеренно этого не делать. Фишка: сначала классифицируй вопрос по «сроку годности» — потом спрашивай. Модель перестаёт путать вечные факты с устаревшими и честно говорит, где данные могут протухнуть.
Адаптировать под запрос

TL;DR

У вопросов есть срок годности — и он разный. «Какой химический символ золота?» не устареет никогда. «Кто CEO Яндекса?» — устаревает раз в несколько лет. «Какой курс доллара?» — каждый час. Это исследование вводит таксономию из 12 классов изменчивости (от «раз в час» до «никогда») плюс понятие стационарности — меняется ли сама частота обновлений в зависимости от контекста.

LLM не умеют понимать, насколько срочно нужны свежие данные для конкретного вопроса. Модель отвечает с одинаковой уверенностью на вопрос про таблицу умножения и на вопрос про актуальную ключевую ставку — хотя второй ответ может быть годовой давности. Проблема не в том, что у модели устаревший срез знаний, а в том, что она не сигнализирует, когда это критично.

Таксономия решает это через два шага: сначала классифицируй вопрос по типу изменчивости (стационарный или нет), потом реши — добавить ли модели временной контекст. Ключевое открытие: для не-стационарных вопросов контекст сильно улучшает ответ, а для стационарных — может навредить.


🔬

Схема метода

ШАГ 1: Самодиагностика вопроса (один запрос)
  → Как часто меняется ответ? (один из 12 классов: час / день / год / никогда)
  → Зависит ли частота обновлений от ситуации? (стационарный / не-стационарный)

ШАГ 2: Решение на основе типа
  → Не-стационарный → добавь временной контекст в запрос
  → Стационарный    → не добавляй контекст, он мешает

ШАГ 3: Финальный запрос с явным сигналом актуальности
  → Если остро нужна свежесть → попроси модель flagнуть устаревшие данные явно

Все три шага можно выполнить в одном запросе — через prompt-классификацию перед основным вопросом.


🚀

Пример применения

Задача: Готовишься к переговорам с инвесторами — хочешь узнать у Claude, как сейчас устроено венчурное финансирование в России: условия, оценки, активность фондов.

Это не-стационарный вопрос: в тихий год венчур обновляется раз в квартал, а в кризис — каждую неделю. Без временного контекста модель может смешать данные разных периодов.

Промпт:

Перед ответом сделай классификацию:
1. Как часто меняется ответ на мой вопрос? 
   (варианты: раз в час / день / неделю / месяц / квартал / год / раз в несколько лет / никогда)
2. Зависит ли эта частота от текущей ситуации на рынке? (да / нет)

Контекст для ответа: сейчас вторая половина 2025 года, 
российский венчурный рынок после нескольких лет переориентации 
на внутренних инвесторов и азиатские фонды.

Вопрос: как сейчас устроено венчурное финансирование в России — 
типичные условия сделок, активные фонды, медианные оценки стартапов на seed-стадии?

В конце ответа явно укажи: какие части ответа могут быть устаревшими 
и требуют проверки перед переговорами.

Результат:

Модель сначала покажет классификацию: «обновляется раз в квартал, стационарность зависит от рыночной волатильности → не-стационарный». Затем даст структурированный ответ с использованием заданного временного контекста. В конце — явный список «точек риска»: какие данные (оценки, имена фондов, условия) стоит верифицировать независимо, потому что они быстро устаревают.


🧠

Почему это работает

Слабость LLM: модель не хранит «метку свежести» для каждого факта. Для неё ответ на «столица Франции» и «текущий CEO X» хранятся одинаково — как текст из обучающей выборки. Она не знает, что второй факт устарел через полгода. Нет внутреннего будильника: «стоп, это могло измениться».

Сильная сторона LLM: модель хорошо работает с явными инструкциями и фреймами. Если ты сам говоришь модели «смотри на это как на быстро меняющееся» — она подтягивает из обучения паттерн работы с неопределённостью, явно маркирует сомнительные части, использует временной контекст.

Как метод это использует: ты берёшь классификационную работу на себя (или делегируешь самой модели в первом шаге). Результат — модель больше не работает вслепую. Она получает сигнал об уровне срочности и отвечает соответственно: либо уверенно, либо с явными оговорками.

Рычаги управления промптом: - Убери шаг классификации → если ты уже знаешь тип вопроса, сразу давай контекст. Экономия токенов. - Добавь конкретную дату вместо «сейчас» → более точная активация релевантного знания. - Замени «укажи устаревшие части» на «оцени уверенность по каждому пункту от 1 до 5» → получишь структурированную оценку надёжности. - Для стационарных вопросов (математика, право, история) — убери временной контекст. Исследование показало: он снижает качество ответа на стабильные факты, модель начинает «прокачивать» временное измерение там, где его нет.


📋

Шаблон промпта

Сделай классификацию моего вопроса:
— Как часто меняется ответ? (час / день / неделю / месяц / квартал / год / несколько лет / никогда)
— Зависит ли частота обновлений от текущей ситуации? (да / нет)

Если «да» — используй этот контекст: {временной контекст — дата, ситуация, период}
Если «нет» — отвечай без привязки к дате.

Вопрос: {твой вопрос}

В конце: отметь, какие части ответа могут устареть и требуют проверки.

Что подставлять: - {временной контекст} — текущая дата + ситуация. Например: «июль 2025, ключевая ставка ЦБ только что снизилась» или «разгар предвыборной кампании» - {твой вопрос} — любой вопрос, где актуальность важна


🚀 Быстрый старт — вставь в чат:

Вот шаблон для работы с временными вопросами к LLM. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, насколько важна актуальность для твоей задачи и какой временной контекст дать — потому что без этого невозможно определить, нужен ли дополнительный контекст или он навредит.


⚠️

Ограничения

⚠️ Не решает проблему знаний: Таксономия помогает правильно сформулировать запрос, но не даёт модели свежие данные. Если ответ устарел — он останется устарелым, просто модель честнее об этом скажет.

⚠️ Классификация требует усилий: Чтобы применить метод, нужно самому думать о типе вопроса. Для быстрых запросов — лишний шаг.

⚠️ Контекст — не панацея для не-стационарных вопросов: Даже при правильном контексте точность LLM в тонкой классификации изменчивости остаётся невысокой. Модели хорошо работают с грубой оценкой («меняется редко / часто»), но не с точным классом из 12.

⚠️ Стационарные вопросы с контекстом: Если ты добавляешь временной контекст к вопросу, у которого стабильный ответ — модель может начать «переусложнять» и снизить качество ответа. Почти во всех протестированных моделях это повторяется.


🔍

Как исследовали

Команда University of Innsbruck и MEF University собрала 4 031 вопрос из трёх существующих датасетов (FreshQA, PATQA, SituatedQA) и добавила сгенерированные вопросы на основе описаний реальных событий. Каждый вопрос размечался 13 раз — не один, а тринадцать — чтобы получить распределение меток, а не одну точечную оценку. Число 13 выбрано не случайно: в таксономии 12 классов, и 13 запросов гарантируют, что всегда будет строгое большинство.

Стационарность определяли через голосование трёх моделей (GPT, Gemini, Claude), а потом перекрёстно проверяли с распределением меток — если три модели говорят «стационарный», а метки скачут между 4 классами, вопрос переклассифицировали. Это умный дизайн: логика важнее консенсуса.

Шесть моделей — от 7B до 72B параметров — тестировались в трёх режимах: zero-shot, few-shot и Chain-of-Thought. Самый интересный результат: few-shot лучше CoT для временной классификации. Это неожиданно — обычно CoT выигрывает на сложных задачах. Здесь же несколько примеров правильной классификации дают модели лучший ориентир, чем пошаговые рассуждения. Шесть аспирантов провели ручную разметку 240 вопросов — итоговое совпадение с автоматическими метками составило 76-78%, что говорит о том, что задача действительно сложная даже для людей.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Диагностика перед большим исследованием

Если ты готовишь объёмный запрос с несколькими вопросами — сначала пропусти их через классификацию и раздели на группы:

Адаптация:

Вот список вопросов. Для каждого: укажи частоту изменения ответа 
(час / день / год / никогда) и нужен ли временной контекст (да / нет).

1. {вопрос 1}
2. {вопрос 2}
3. {вопрос 3}

Затем: вопросы с «да» задаёшь с контекстом, вопросы с «нет» — напрямую.

Это особенно полезно при подготовке к переговорам, исследованию конкурентов или анализу рынка — где одни данные стабильны (юридическая структура компании), а другие меняются быстро (текущий раунд финансирования).


📌

🔧 Техника: Явный запрос на маркировку устаревших данных

Вместо поиска «свежего ответа» — попроси модель маркировать риски в существующем ответе:

Проанализируй этот текст и выдели, какие утверждения могут быть устаревшими.
Для каждого укажи: как часто этот тип информации обычно меняется?

Текст: {вставь текст или свой запрос}

Это работает для проверки материалов, написанных год-два назад, или для быстрой оценки: «что из этого стоит перепроверить перед встречей».


🔗

Ресурсы

Работа: How often do Answers Change? Estimating Recency Requirements in Question Answering (SIGIR '26)

Датасет: github.com/DataScienceUIBK/RecencyQA

Авторы: Bhawna Piryani, Zehra Mert, Adam Jatowt — University of Innsbruck (Австрия) и MEF University (Стамбул, Турция)

Смежные датасеты: FreshQA, PATQA, SituatedQA, TimeQA, TEMPLAMA


📋 Дайджест исследования

Ключевая суть

Парадокс: добавление временного контекста к стабильным вопросам делает ответы хуже. Не наоборот. Модель получает вопрос про математику или право — и начинает «прокачивать» временное измерение там, где его нет. Зато для быстро меняющихся вопросов контекст резко повышает качество. Метод позволяет понять, когда подсовывать модели дату и ситуацию, а когда намеренно этого не делать. Фишка: сначала классифицируй вопрос по «сроку годности» — потом спрашивай. Модель перестаёт путать вечные факты с устаревшими и честно говорит, где данные могут протухнуть.

Принцип работы

Не все вопросы стареют одинаково. Исследование вводит два понятия. Первое — класс изменчивости: как часто меняется ответ. Шкала из 12 ступеней: от «раз в час» до «никогда». Второе — стационарность: зависит ли сама частота обновлений от ситуации. Курс доллара нестационарный — в кризис обновляется каждый час, в тихий период раз в день. Химический символ золота стационарный навсегда. Алгоритм: определи класс → нестационарный — добавь контекст → стационарный — убери контекст и не мешай. Классификацию можно делегировать самой модели одним шагом перед основным вопросом.

Почему работает

LLM хранит факты как текст — без пометки когда этот текст был актуален. Для модели «CEO компании — Иванов» и «вода состоит из H₂O» лежат в одном месте. Нет внутреннего будильника: «стоп, это могло измениться». Зато модель хорошо реагирует на явные инструкции. Когда ты сам говоришь «этот вопрос меняется раз в квартал» — модель переключается в режим неопределённости: начинает маркировать сомнительные части, опирается на заданный контекст, честнее признаёт где данные могут быть годовой давности. Ты берёшь классификацию на себя — модель получает чёткий сигнал и отвечает соответственно.

Когда применять

Бизнес-аналитика → для вопросов про рынки, конкурентов, ставки, инвестиции — особенно перед переговорами, где ошибка в цифре стоит дорого. Новости и регуляторика → курсы валют, изменения в законах, политические решения. Исследовательские задачи → когда важно понять, насколько доверять конкретному факту из ответа. НЕ подходит для вопросов по математике, грамматике, фундаментальным наукам — там добавление временного контекста снижает точность.

Мини-рецепт

1. Разберись с типом вопроса: спроси себя — как часто меняется ответ? Раз в час, месяц, год, никогда? Зависит ли это от текущей ситуации?
2. Нестационарный (меняется + зависит от ситуации): добавь в запрос дату и ключевой контекст. Не просто «сейчас», а конкретно: «июль 2025, ключевая ставка только снизилась».
3. Стационарный (меняется редко или никогда): убери временные маркеры из запроса. Это не лень — это правильно.
4. Попроси маркировать риски: в конце добавь: «Укажи, какие части ответа могут устареть и требуют проверки» — или «оцени уверенность по каждому пункту от 1 до 5».
5. Лень классифицировать самому: делегируй это модели. Перед основным вопросом спроси: «Как часто меняется ответ? Зависит ли это от текущей ситуации?» — и уже по её ответу решай, давать ли контекст.

Примеры

[ПЛОХО] : Как сейчас устроено венчурное финансирование в России? Модель ответит с той же уверенностью, что и на вопрос про таблицу умножения. Не скажет, что данные могут быть двухлетней давности.
[ХОРОШО] : Сначала классифицируй мой вопрос: как часто меняется ответ на него (раз в час / месяц / год / никогда)? Зависит ли это от рыночной ситуации? Контекст: вторая половина 2025 года, российский венчурный рынок после переориентации на внутренних инвесторов и азиатские фонды. Вопрос: как устроено венчурное финансирование в России — типичные условия сделок, активные фонды, медианные оценки стартапов на посевной стадии? В конце укажи: какие части ответа могут устареть до переговоров и что стоит проверить отдельно.
Источник: How often do Answers Change? Estimating Recency Requirements in Question Answering
ArXiv ID: 2603.16544 | Сгенерировано: 2026-03-18 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель не предупреждает, когда её данные могли устаретьМодель отвечает с одинаковой уверенностью на стабильный вопрос и на быстро меняющийся. Внутри нет «метки свежести» у каждого факта. Столица Франции и состав совета директоров хранятся одинаково — как текст из обучающей выборки. Модель не знает, что второй факт мог устаретьПопроси модель самостоятельно определить тип вопроса. Добавь в промпт: «Как часто меняется ответ? Зависит ли это от текущей ситуации?» Потом — в зависимости от ответа — давай или не давай временной контекст

Методы

МетодСуть
Самоклассификация вопроса — управляет нужностью контекстаПеред основным вопросом попроси модель определить тип вопроса. Как часто меняется ответ? (час / день / неделю / месяц / год / никогда). Зависит ли частота обновлений от текущей ситуации? (да / нет). Если ответ «да» — добавляй временной контекст: дату, ситуацию, период. Если «нет» — не добавляй. Почему работает: Модель хорошо следует явным фреймам. Получив сигнал «это быстро меняется» — активирует паттерн работы с неопределённостью, явно маркирует сомнительные части. Когда применять: вопросы про рынки, ставки, людей, компании, законы. Не нужен: математика, история, физика — там классификация лишь добавит шума
📖 Простыми словами

How often do Answers Change? Estimating Recency Requirements in Question Answering

arXiv: 2603.16544

Проблема в том, что у знаний в голове нейросети есть срок годности, но сама модель об этом ни сном ни духом. Для LLM факт о том, что Земля круглая, и новость о вчерашнем курсе биткоина имеют одинаковый вес и статус «правды». Исследователи копнули в эту дыру и выкатили таксономию из 12 классов изменчивости: от вечных истин до данных, которые протухают быстрее, чем ты допьешь кофе. Главный косяк в том, что у моделей нет внутреннего будильника, который бы кричал: «Стоп, это инфа за прошлый год, она уже не катит!».

Это как если бы ты пользовался справочником, где вперемешку напечатаны законы физики и расписание электричек за 1998 год. Ты открываешь страницу и не понимаешь, можно ли верить написанному, потому что даты выпуска на обложке нет. В итоге ты либо едешь на вокзал к пустому перрону, либо вообще перестаешь доверять книге. Исследование вводит понятие стационарности — это когда частота обновлений сама по себе скачет в зависимости от контекста, превращая поиск актуального ответа в игру в рулетку.

Что реально важно: авторы выделили конкретные уровни «свежести», такие как ежечасные изменения (курсы валют, погода), событийные правки (смена CEO, трансферы в спорте) и статичные константы (химия, история). Если ты спрашиваешь Claude про венчурный рынок, она может выдать базу трехлетней давности с уверенностью очевидца. Чтобы не сесть в лужу, нужно понимать: 10 из 12 типов вопросов требуют внешнего поиска (RAG), иначе модель просто начнет уверенно галлюцинировать устаревшими данными.

Этот принцип универсален для любого ИИ-ассистента, будь то ChatGPT или Perplexity. Тестировали на вопросах и ответах, но это касается и кода, и юридических консультаций, и маркетинга. SEO-тексты устаревают, API меняются, законы переписываются. Если твоя система не умеет определять класс изменчивости запроса, она будет кормить тебя цифровой мертвечиной, выдавая её за свежий эксклюзив.

Короче: хватит ждать от нейросетей всезнания — они заперты в моменте своего обучения. Динамические данные требуют динамических решений, и без привязки к реальному времени любая LLM превращается в очень умного, но абсолютно неадекватного деда, который помнит цены при царе Горохе. Либо ты подключаешь модель к поиску, либо смиряешься с тем, что её ответы — это лотерея с плохими шансами.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с