TL;DR
GPT-4o даёт разные по качеству ответы в зависимости от того, когда именно вы отправляете запрос — даже при абсолютно одинаковом промпте, одинаковых настройках и одинаковой версии модели. Периодические колебания качества (суточные и недельные ритмы) объясняют около 20% всей изменчивости результатов.
Большинство пользователей думает: "Ответ получился плохим — значит, плохой промпт". Но часть этой "плохости" не в промпте, а в том, что сервер перегружен. В часы пик (рабочие дни, дневное время) провайдеры вынуждены экономить вычислительные ресурсы — и незаметно для пользователя снижают "мощность" обработки запросов. Результат: не то 100 баллов, не то 70 — зависит не только от вас.
Механизм простой: больше пользователей → больше нагрузка на серверы → провайдер включает режим экономии (упрощённые версии модели, срезанный словарь, сжатие промптов) → качество ответа падает. Ночью и в выходные — обратная картина: нагрузка низкая, ресурсов больше, качество выше.
Схема открытия
Нагрузка на серверы GPT высокая → Качество ответов ниже
(рабочие дни, дневное время)
Нагрузка на серверы GPT низкая → Качество ответов выше
(ночь, ранее утро, выходные)
Periodicity (периодичность):
Суточный цикл → колебания внутри дня
Недельный цикл → модулирует суточный (усиливает/ослабляет)
Совместный вклад → ~20% всей изменчивости результатов
Стратегия пользователя:
Важная задача → выбирать время + несколько запросов
Повторный плохой ответ → пробовать в другое время, не только другой промпт
Пример применения
⚠️ Сильная зона этого открытия: задачи, где качество вывода критично и нужна стабильность — анализ, написание важных текстов, сложные рассуждения. Слабая зона: простые фактические вопросы, где нагрузка на модель минимальна.
Задача: Илья готовит инвест-презентацию для Сбер Венчурс. Просит Claude написать убедительный раздел "Почему сейчас" — окно возможностей для рынка. Отправляет запрос в среду в 15:00 — получает общий, бледный текст. Думает, что плохо сформулировал задачу.
Промпт:
Ты — опытный автор инвест-меморандумов для российских венчурных фондов.
Напиши раздел "Почему сейчас" для презентации EdTech-стартапа.
Стартап: платформа для корпоративного обучения с AI-тьютором.
Рынок: B2B, крупный российский бизнес.
Объём раздела: 150-200 слов.
Структура раздела:
— Главное окно возможностей (1 абзац)
— 3 конкретных триггера рынка прямо сейчас (список)
— Почему промедление = потеря позиции (1 предложение)
Пиши конкретно, с цифрами и фактами российского рынка там, где они есть.
Что делать с результатом:
Если текст получился размытым — не переписывай промпт сразу. Попробуй один из вариантов: - Отправь тот же промпт ещё 2-3 раза подряд и выбери лучший ответ - Попробуй отправить запрос вечером (после 22:00) или в выходной день - Сравни два результата — утреннего и дневного запроса
Заметишь: одинаковый промпт в разное время даёт заметно разный уровень детализации и "остроты" текста.
Почему это работает (и почему вообще происходит)
LLM — не изолированный калькулятор, а сервис на чужих серверах. Когда вы пишете в ChatGPT или Claude, ваш запрос уходит на сервер компании. Если таких запросов одновременно миллионы (в рабочее время по всему миру), серверу тяжело. Провайдер — чтобы система не легла — незаметно включает режим экономии.
Режим экономии ≠ выключение модели. Это могут быть: сжатие вашего промпта перед обработкой, маршрутизация на чуть менее мощную версию модели, сужение "словаря" из которого модель выбирает слова. Всё это чуть снижает качество — не драматично, но заметно на сложных задачах.
Отсюда два практических рычага: - Время запроса — ночь и выходные работают лучше для задач, где нужна глубина - Количество попыток — один запрос может попасть на "перегруженный момент", три-четыре попытки усредняют разброс и дают более стабильный результат
Шаблон практики (не промпт, а стратегия)
Это исследование не даёт конкретный промпт — оно меняет поведение при работе с LLM. Вот чек-лист:
СТРАТЕГИЯ "УМНОЕ ВРЕМЯ" для важных задач:
Задача: {опишите свою задачу}
Критичность результата: {высокая / средняя / низкая}
Если критичность ВЫСОКАЯ:
→ Запланируй запрос на: раннее утро (6:00–9:00) или вечер (21:00–23:00)
→ Или: выходной день
→ Сделай 2-3 попытки с одним промптом → выбери лучший результат
→ Если первый ответ разочаровал — сначала попробуй другое время, потом переписывай промпт
Если результат нужен прямо сейчас (дневное время):
→ Сделай 3 запроса подряд
→ Попроси модель дать 3 варианта в одном ответе (внутри одного запроса)
→ Выбери лучший из вариантов
Плейсхолдеры:
- {задача} — что именно делаете: анализ, написание текста, решение сложной проблемы
- {критичность} — насколько важен результат: питч инвестору = высокая, ответ на письмо = низкая
Почему несколько попыток лучше одной
Исследователи обнаружили, что одна попытка — ненадёжный измеритель качества. Они специально запрашивали по 10 ответов на один вопрос каждые 3 часа и усредняли результат — и всё равно видели колебания около 20%.
Практический вывод: если ChatGPT дал плохой ответ на хороший промпт — это не всегда ваша вина и не всегда вина промпта. Иногда это просто "не то время". Три попытки с одним промптом дадут более стабильный результат, чем одна попытка с переписанным.
Добавьте этот приём в промпт напрямую:
Дай мне 3 разных варианта [текста / анализа / ответа] на эту задачу.
Каждый вариант — самостоятельный, не сокращённый.
После трёх вариантов укажи, какой считаешь лучшим и почему.
Задача: {ваша задача}
Что получите: три независимых попытки модели — вы сами выбираете лучшую. Это работает как внутреннее усреднение, особенно когда нет времени ждать "лучшего часа".
🚀 Быстрый старт — вставь в чат:
Хочу получить стабильный результат на важную задачу.
Дай 3 независимых варианта ответа, каждый полный.
После — скажи, какой лучший и почему.
Задавай уточняющие вопросы по моей задаче.
Моя задача: [опишите свою задачу]
LLM спросит детали задачи — потому что для трёх разных вариантов ей нужно чётко понимать критерии "хорошего" результата.
Ограничения
⚠️ Мы не знаем точного расписания пиков нагрузки. Исследователи работали из Германии, данные — по UTC+2. Для российских пользователей пики могут быть сдвинуты. Общий принцип (ночь и выходные лучше) скорее всего работает, точного расписания нет.
⚠️ Один тип задачи, одна модель. Исследовали только GPT-4o на одной физической задаче с множественным выбором. Насколько сильно эффект проявляется в Claude, Gemini или на других типах задач — неизвестно.
⚠️ Провайдеры всё меняют. OpenAI и Anthropic постоянно обновляют инфраструктуру. Эффект, найденный в августе–октябре 2024 года, может быть меньше или больше сегодня — или иначе распределён по времени.
⚠️ 20% изменчивости — не 100%. Большая часть разброса (80%) объясняется другими факторами: случайность в генерации, температура, формулировка промпта. Время — один из факторов, не единственный.
Как исследовали
Идея была простой: взять одну и ту же задачу, один и тот же промпт, одну и ту же версию модели — и гонять это три месяца, фиксируя каждый ответ. Исследователи из Германии выбрали задачу по физике (батарейки и лампочки в разных схемах подключения) из Олимпиады по физике — достаточно сложную, чтобы модель иногда ошибалась, и достаточно простую, чтобы не ошибалась всегда. В итоге: один и тот же вопрос с одним и тем же системным промптом каждые 3 часа, по 10 ответов за раз, с августа по октябрь 2024 года. Итого — 6 930 ответов.
Качество каждого ответа оценивалось автоматически по простой схеме: верно ли модель выбрала/не выбрала каждый из четырёх вариантов ответа. Затем 10 оценок усреднялись в одну точку на графике. Получился временной ряд из 702 точек — и исследователи применили Фурье-анализ: математический инструмент, который "находит скрытые ритмы" в данных (примерно как эквалайзер, который показывает какие частоты преобладают в звуке).
Результат удивил: два чётких ритма — суточный (24 часа) и недельный (7 дней). Причём недельный ритм не просто добавляет "плоскую волну сверху", а меняет форму суточного цикла: в выходные суточные колебания качества слабее, в рабочие дни — сильнее. Вместе эти два ритма объясняют ~20% всей изменчивости результатов — при том что промпт, модель и настройки не менялись вообще. Это не погрешность и не случайность: статистическая значимость проверялась через 1000 случайных перемешиваний данных, и реальные пики на графике частот стабильно превышали шумовой порог.
Оригинал из исследования
Системный промпт, который использовали исследователи (переведён авторами с немецкого):
You are a physics expert. Solve the problem. Return both the detailed
solution path and the final answer in JSON format.
Контекст: Исследователи использовали структурированный JSON-вывод, чтобы автоматически парсить ответ модели и извлекать выбранные варианты (A/B/C/D) для автоматической проверки. В ответе модель возвращала полное решение + финальный выбор вариантов в машиночитаемом формате — это позволило проверить 6 930 ответов без ручной работы.
Адаптации и экстраполяции
💡 Адаптация: "Аудит в разное время"
Если вы используете LLM для повторяющейся рабочей задачи (еженедельный отчёт, разбор звонков, проверка текстов) — запускайте в одинаковое время. Это снизит влияние временного фактора на сравнимость результатов.
Например: всегда запускаете анализ клиентских отзывов в понедельник в 10:00 — добавьте в ритуал запуск в воскресенье вечером или в понедельник до 8:00.
🔧 Техника: "Несколько вариантов в одном запросе" → снижает влияние момента
Вместо одного точечного запроса — просите несколько вариантов сразу:
Дай 3 независимых варианта [задача]. Каждый — полный, не сокращённый.
Модель в рамках одного сеанса покрывает больше "пространства решений" — вы сами выбираете лучшее.
🔧 Техника: "Диагностика качества" → замечаете просадку
Если вы регулярно работаете с LLM и вдруг замечаете, что ответы стали хуже — добавьте в рабочий процесс простой вопрос:
Оцени свой предыдущий ответ по шкале 1-10 по критериям:
конкретность, полнота, точность.
Что бы ты улучшил, если бы переписал его?
Если модель сама говорит "ответ был поверхностным" — это сигнал попробовать позже, а не переписывать промпт.
Ресурсы
Название работы: Evidence for Daily and Weekly Periodic Variability in GPT-4o Performance
Авторы: Paul Tschisgale, Peter Wulff
Организации: Leibniz Institute for Science and Mathematics Education (Кильский университет, Германия), Ludwigsburg University of Education (Людвигсбург, Германия)
Смежные работы, упомянутые в исследовании: - Chen et al. (2023) — разница в качестве GPT-4 между мартовской и июньской версиями - Gupta et al. — колебания качества LLM в радиологических вопросах при замерах раз в месяц - Tschisgale et al. (предыдущая работа авторов) — различия в распределении оценок GPT-4o при запросах с разницей в 6 недель
