3,583 papers
arXiv:2602.15889 74 6 фев. 2026 г. FREE

Периодическая нестабильность GPT-4o: качество ответов меняется в зависимости от времени суток и дня недели

КЛЮЧЕВАЯ СУТЬ
GPT-4o в среду в 15:00 и GPT-4o в воскресенье ночью — буквально разные уровни качества при одном и том же промпте. Исследователи зафиксировали: суточный и недельный ритм нагрузки на серверы объясняют около 20% всей изменчивости результатов. Это открытие позволяет перестать бесконечно переписывать промпт и начать управлять ещё одним реальным рычагом. Механика простая: больше пользователей одновременно — провайдер включает режим экономии, модель получает меньше ресурсов, ответ становится менее точным. Ночью и в выходные — обратная картина: нагрузка низкая, ресурсов хватает, качество выше.
Адаптировать под запрос

TL;DR

GPT-4o даёт разные по качеству ответы в зависимости от того, когда именно вы отправляете запрос — даже при абсолютно одинаковом промпте, одинаковых настройках и одинаковой версии модели. Периодические колебания качества (суточные и недельные ритмы) объясняют около 20% всей изменчивости результатов.

Большинство пользователей думает: "Ответ получился плохим — значит, плохой промпт". Но часть этой "плохости" не в промпте, а в том, что сервер перегружен. В часы пик (рабочие дни, дневное время) провайдеры вынуждены экономить вычислительные ресурсы — и незаметно для пользователя снижают "мощность" обработки запросов. Результат: не то 100 баллов, не то 70 — зависит не только от вас.

Механизм простой: больше пользователей → больше нагрузка на серверы → провайдер включает режим экономии (упрощённые версии модели, срезанный словарь, сжатие промптов) → качество ответа падает. Ночью и в выходные — обратная картина: нагрузка низкая, ресурсов больше, качество выше.


📌

Схема открытия

Нагрузка на серверы GPT высокая      →  Качество ответов ниже
(рабочие дни, дневное время)

Нагрузка на серверы GPT низкая       →  Качество ответов выше
(ночь, ранее утро, выходные)

Periodicity (периодичность): 
  Суточный цикл  → колебания внутри дня
  Недельный цикл → модулирует суточный (усиливает/ослабляет)
  Совместный вклад → ~20% всей изменчивости результатов

Стратегия пользователя:
  Важная задача      →  выбирать время + несколько запросов
  Повторный плохой ответ →  пробовать в другое время, не только другой промпт

🚀

Пример применения

⚠️ Сильная зона этого открытия: задачи, где качество вывода критично и нужна стабильность — анализ, написание важных текстов, сложные рассуждения. Слабая зона: простые фактические вопросы, где нагрузка на модель минимальна.


Задача: Илья готовит инвест-презентацию для Сбер Венчурс. Просит Claude написать убедительный раздел "Почему сейчас" — окно возможностей для рынка. Отправляет запрос в среду в 15:00 — получает общий, бледный текст. Думает, что плохо сформулировал задачу.

Промпт:

Ты — опытный автор инвест-меморандумов для российских венчурных фондов.

Напиши раздел "Почему сейчас" для презентации EdTech-стартапа. 
Стартап: платформа для корпоративного обучения с AI-тьютором.
Рынок: B2B, крупный российский бизнес.
Объём раздела: 150-200 слов.

Структура раздела:
— Главное окно возможностей (1 абзац)
— 3 конкретных триггера рынка прямо сейчас (список)
— Почему промедление = потеря позиции (1 предложение)

Пиши конкретно, с цифрами и фактами российского рынка там, где они есть.

Что делать с результатом:

Если текст получился размытым — не переписывай промпт сразу. Попробуй один из вариантов: - Отправь тот же промпт ещё 2-3 раза подряд и выбери лучший ответ - Попробуй отправить запрос вечером (после 22:00) или в выходной день - Сравни два результата — утреннего и дневного запроса

Заметишь: одинаковый промпт в разное время даёт заметно разный уровень детализации и "остроты" текста.


🧠

Почему это работает (и почему вообще происходит)

LLM — не изолированный калькулятор, а сервис на чужих серверах. Когда вы пишете в ChatGPT или Claude, ваш запрос уходит на сервер компании. Если таких запросов одновременно миллионы (в рабочее время по всему миру), серверу тяжело. Провайдер — чтобы система не легла — незаметно включает режим экономии.

Режим экономии ≠ выключение модели. Это могут быть: сжатие вашего промпта перед обработкой, маршрутизация на чуть менее мощную версию модели, сужение "словаря" из которого модель выбирает слова. Всё это чуть снижает качество — не драматично, но заметно на сложных задачах.

Отсюда два практических рычага: - Время запроса — ночь и выходные работают лучше для задач, где нужна глубина - Количество попыток — один запрос может попасть на "перегруженный момент", три-четыре попытки усредняют разброс и дают более стабильный результат


📋

Шаблон практики (не промпт, а стратегия)

Это исследование не даёт конкретный промпт — оно меняет поведение при работе с LLM. Вот чек-лист:

СТРАТЕГИЯ "УМНОЕ ВРЕМЯ" для важных задач:

Задача: {опишите свою задачу}
Критичность результата: {высокая / средняя / низкая}

Если критичность ВЫСОКАЯ:
→ Запланируй запрос на: раннее утро (6:00–9:00) или вечер (21:00–23:00)
→ Или: выходной день
→ Сделай 2-3 попытки с одним промптом → выбери лучший результат
→ Если первый ответ разочаровал — сначала попробуй другое время, потом переписывай промпт

Если результат нужен прямо сейчас (дневное время):
→ Сделай 3 запроса подряд
→ Попроси модель дать 3 варианта в одном ответе (внутри одного запроса)
→ Выбери лучший из вариантов

Плейсхолдеры: - {задача} — что именно делаете: анализ, написание текста, решение сложной проблемы - {критичность} — насколько важен результат: питч инвестору = высокая, ответ на письмо = низкая


📌

Почему несколько попыток лучше одной

Исследователи обнаружили, что одна попытка — ненадёжный измеритель качества. Они специально запрашивали по 10 ответов на один вопрос каждые 3 часа и усредняли результат — и всё равно видели колебания около 20%.

Практический вывод: если ChatGPT дал плохой ответ на хороший промпт — это не всегда ваша вина и не всегда вина промпта. Иногда это просто "не то время". Три попытки с одним промптом дадут более стабильный результат, чем одна попытка с переписанным.

Добавьте этот приём в промпт напрямую:

Дай мне 3 разных варианта [текста / анализа / ответа] на эту задачу.
Каждый вариант — самостоятельный, не сокращённый.
После трёх вариантов укажи, какой считаешь лучшим и почему.

Задача: {ваша задача}

Что получите: три независимых попытки модели — вы сами выбираете лучшую. Это работает как внутреннее усреднение, особенно когда нет времени ждать "лучшего часа".

🚀 Быстрый старт — вставь в чат:

Хочу получить стабильный результат на важную задачу. 
Дай 3 независимых варианта ответа, каждый полный.
После — скажи, какой лучший и почему.
Задавай уточняющие вопросы по моей задаче.

Моя задача: [опишите свою задачу]

LLM спросит детали задачи — потому что для трёх разных вариантов ей нужно чётко понимать критерии "хорошего" результата.


⚠️

Ограничения

⚠️ Мы не знаем точного расписания пиков нагрузки. Исследователи работали из Германии, данные — по UTC+2. Для российских пользователей пики могут быть сдвинуты. Общий принцип (ночь и выходные лучше) скорее всего работает, точного расписания нет.

⚠️ Один тип задачи, одна модель. Исследовали только GPT-4o на одной физической задаче с множественным выбором. Насколько сильно эффект проявляется в Claude, Gemini или на других типах задач — неизвестно.

⚠️ Провайдеры всё меняют. OpenAI и Anthropic постоянно обновляют инфраструктуру. Эффект, найденный в августе–октябре 2024 года, может быть меньше или больше сегодня — или иначе распределён по времени.

⚠️ 20% изменчивости — не 100%. Большая часть разброса (80%) объясняется другими факторами: случайность в генерации, температура, формулировка промпта. Время — один из факторов, не единственный.


🔍

Как исследовали

Идея была простой: взять одну и ту же задачу, один и тот же промпт, одну и ту же версию модели — и гонять это три месяца, фиксируя каждый ответ. Исследователи из Германии выбрали задачу по физике (батарейки и лампочки в разных схемах подключения) из Олимпиады по физике — достаточно сложную, чтобы модель иногда ошибалась, и достаточно простую, чтобы не ошибалась всегда. В итоге: один и тот же вопрос с одним и тем же системным промптом каждые 3 часа, по 10 ответов за раз, с августа по октябрь 2024 года. Итого — 6 930 ответов.

Качество каждого ответа оценивалось автоматически по простой схеме: верно ли модель выбрала/не выбрала каждый из четырёх вариантов ответа. Затем 10 оценок усреднялись в одну точку на графике. Получился временной ряд из 702 точек — и исследователи применили Фурье-анализ: математический инструмент, который "находит скрытые ритмы" в данных (примерно как эквалайзер, который показывает какие частоты преобладают в звуке).

Результат удивил: два чётких ритма — суточный (24 часа) и недельный (7 дней). Причём недельный ритм не просто добавляет "плоскую волну сверху", а меняет форму суточного цикла: в выходные суточные колебания качества слабее, в рабочие дни — сильнее. Вместе эти два ритма объясняют ~20% всей изменчивости результатов — при том что промпт, модель и настройки не менялись вообще. Это не погрешность и не случайность: статистическая значимость проверялась через 1000 случайных перемешиваний данных, и реальные пики на графике частот стабильно превышали шумовой порог.


📄

Оригинал из исследования

Системный промпт, который использовали исследователи (переведён авторами с немецкого):

You are a physics expert. Solve the problem. Return both the detailed 
solution path and the final answer in JSON format.

Контекст: Исследователи использовали структурированный JSON-вывод, чтобы автоматически парсить ответ модели и извлекать выбранные варианты (A/B/C/D) для автоматической проверки. В ответе модель возвращала полное решение + финальный выбор вариантов в машиночитаемом формате — это позволило проверить 6 930 ответов без ручной работы.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: "Аудит в разное время"

Если вы используете LLM для повторяющейся рабочей задачи (еженедельный отчёт, разбор звонков, проверка текстов) — запускайте в одинаковое время. Это снизит влияние временного фактора на сравнимость результатов.

Например: всегда запускаете анализ клиентских отзывов в понедельник в 10:00 — добавьте в ритуал запуск в воскресенье вечером или в понедельник до 8:00.


📌

🔧 Техника: "Несколько вариантов в одном запросе" → снижает влияние момента

Вместо одного точечного запроса — просите несколько вариантов сразу:

Дай 3 независимых варианта [задача]. Каждый — полный, не сокращённый.

Модель в рамках одного сеанса покрывает больше "пространства решений" — вы сами выбираете лучшее.


📌

🔧 Техника: "Диагностика качества" → замечаете просадку

Если вы регулярно работаете с LLM и вдруг замечаете, что ответы стали хуже — добавьте в рабочий процесс простой вопрос:

Оцени свой предыдущий ответ по шкале 1-10 по критериям: 
конкретность, полнота, точность. 
Что бы ты улучшил, если бы переписал его?

Если модель сама говорит "ответ был поверхностным" — это сигнал попробовать позже, а не переписывать промпт.


🔗

Ресурсы

Название работы: Evidence for Daily and Weekly Periodic Variability in GPT-4o Performance

Авторы: Paul Tschisgale, Peter Wulff

Организации: Leibniz Institute for Science and Mathematics Education (Кильский университет, Германия), Ludwigsburg University of Education (Людвигсбург, Германия)

Смежные работы, упомянутые в исследовании: - Chen et al. (2023) — разница в качестве GPT-4 между мартовской и июньской версиями - Gupta et al. — колебания качества LLM в радиологических вопросах при замерах раз в месяц - Tschisgale et al. (предыдущая работа авторов) — различия в распределении оценок GPT-4o при запросах с разницей в 6 недель


📋 Дайджест исследования

Ключевая суть

GPT-4o в среду в 15:00 и GPT-4o в воскресенье ночью — буквально разные уровни качества при одном и том же промпте. Исследователи зафиксировали: суточный и недельный ритм нагрузки на серверы объясняют около 20% всей изменчивости результатов. Это открытие позволяет перестать бесконечно переписывать промпт и начать управлять ещё одним реальным рычагом. Механика простая: больше пользователей одновременно — провайдер включает режим экономии, модель получает меньше ресурсов, ответ становится менее точным. Ночью и в выходные — обратная картина: нагрузка низкая, ресурсов хватает, качество выше.

Принцип работы

Нагрузка на серверы OpenAI подчиняется человеческому расписанию. Рабочие дни + дневные часы = пик запросов со всего мира = провайдер режет расходы = качество ответов незаметно проседает. Сервер не выдаёт ошибку — он просто даёт чуть менее мощный ответ. Это как трасса в час пик: машины те же, водители те же — но все едут медленнее, потому что их слишком много. Ночь и выходные — трасса пустая, модель едет в полную силу.

Почему работает

Провайдеры используют несколько механизмов экономии при пиковой нагрузке: маршрутизацию на менее мощные версии модели, сжатие промптов, сужение набора токенов при генерации. Всё это снижает качество незаметно — ответ приходит, но менее острый и детальный. Периодические колебания объясняют около 20% всего разброса — это значит, что каждый пятый провальный ответ мог прийти просто из-за часа пик, а не из-за плохого промпта. Остальные 80% — температура генерации, формулировки, случайность. Но время — реальный и управляемый рычаг, о котором большинство не думает.

Когда применять

Любая задача, где важно качество результата: написание сложных текстов, анализ данных, подготовка документов, нестандартные рассуждения — особенно когда первый ответ разочаровал и непонятно почему. Особенно актуально для задач, где нужна глубина и детализация, а не просто факт. НЕ критично для простых фактических вопросов — там разброс от нагрузки почти незаметен.

Мини-рецепт

1. Оцени критичность: если результат важен — не отправляй запрос в разгар рабочего дня. Лучшее время: раннее утро (6:00–9:00), поздний вечер (21:00–23:00), выходные.
2. Попроси несколько вариантов сразу: добавь в промпт строку Дай 3 независимых полных варианта ответа. После — укажи какой считаешь лучшим и почему. Это работает как внутреннее усреднение — прямо сейчас, без ожидания.
3. Первый ответ плохой — не переписывай промпт сразу: отправь тот же промпт ещё 2–3 раза. Если всё равно плохо и время дневное — повтори вечером или в выходной, сравни результаты.
4. Проверь на своей задаче: выполни одно и то же задание утром и в обед, сравни. Разница будет заметна — и дальше начнёшь планировать важные запросы осознанно.

Примеры

[ПЛОХО] : Напиши убедительный раздел инвест-презентации про окно возможностей рынка — отправил в среду в 15:00, получил размытый текст без конкретики, час переписывал промпт, всё равно плохо. Решил, что задача слишком сложная.
[ХОРОШО] : Дай 3 независимых полных варианта раздела «Почему сейчас» для инвест-презентации EdTech-стартапа. Рынок: корпоративное обучение с AI-тьютором, крупный российский бизнес. Каждый вариант 150–200 слов, с конкретными цифрами российского рынка. После трёх вариантов — скажи какой лучший и почему. — при слабом результате днём: тот же промпт вечером или в выходной. Не переписываешь — меняешь время.
Источник: Evidence for Daily and Weekly Periodic Variability in GPT-4o Performance
ArXiv ID: 2602.15889 | Сгенерировано: 2026-02-20 10:46

Проблемы LLM

ПроблемаСутьКак обойти
Плохой результат не всегда означает плохой запросПолучил слабый ответ — переписываешь запрос. Потратил время. Получил примерно то же. Причина была не в запросе: сервер работал под нагрузкой. Около 20% разброса в качестве ответов объясняется внешними факторами — временем суток и днём недели. Это невидимо, но стабильноПрежде чем переписывать запрос — сделай ещё 2–3 попытки с тем же текстом. Или попроси модель дать три варианта ответа в одном сообщении: Дай 3 независимых варианта [текста/анализа]. Каждый — полный. После укажи, какой лучший и почему.
📖 Простыми словами

Evidence for Daily and Weekly Periodic Variability inGPT-4o Performance

arXiv: 2602.15889

GPT-4o — это не застывший в янтаре алгоритм, а живая система, у которой есть свои циркадные ритмы. Исследователи выяснили, что качество ответов модели плавает в зависимости от времени суток и дня недели, даже если ты скармливаешь ей один и тот же промпт с нулевой температурой. Около 20% всей изменчивости результатов объясняется именно этими циклами, а не случайным шумом. По сути, нейронка ведет себя как живой организм: в один час она выдает базу, а в другой начинает откровенно лажать на ровном месте.

Это как пытаться сдать сложный отчет начальнику: если придешь в понедельник утром, когда он завален письмами, получишь сухой отлуп, а в четверг после обеда — вдумчивый фидбек. Формально начальник тот же, должностная инструкция не менялась, но контекст нагрузки и времени решает всё. С GPT-4o та же история: нагрузка на серверы и внутренние механизмы распределения ресурсов превращают модель в «уставшего сотрудника» по расписанию.

В работе четко прослеживаются суточные и недельные колебания. Когда весь мир одновременно ломится в ChatGPT, модель начинает экономить вычислительные мощности, что моментально сказывается на качестве рассуждений. Это не просто задержка в ответе, а реальное падение когнитивных способностей: GPT-4o может упрощать логику, пропускать детали или выдавать менее креативный текст просто потому, что сейчас пик активности в Сан-Франциско или Лондоне.

Хотя тест проводили на GPT-4o, этот принцип универсален для любой облачной LLM. Будь то Claude, Gemini или Perplexity — все они живут в условиях ограниченного «железа». Если ты используешь AI для критически важных задач, вроде глубокого анализа данных или написания сложного кода, время отправки запроса становится таким же важным параметром, как и сам промпт. Стабильность — это иллюзия, которую разрушает график нагрузки на дата-центры.

Главный вывод простой: если нейронка начала тупить, возможно, дело не в твоем промпте, а в том, что сейчас час пик. Для простых задач это не критично, но если на кону важный проект — избегай периодов максимальной нагрузки. Понимая эти ритмы, можно выжимать из модели максимум, просто выбирая правильное время для «разговора». Иначе рискуешь получить результат на 20% хуже просто потому, что не вовремя нажал кнопку Enter.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с