3,583 papers
arXiv:2601.19934 73 12 янв. 2026 г. FREE

Baseline Behavioural Drift: почему температура 0.0 не гарантирует идентичные ответы

КЛЮЧЕВАЯ СУТЬ
Ставишь temperature=0.0 — ждёшь одинаковые ответы. На практике GPT-4o-mini выдаёт новый вариант почти в каждом четвёртом запуске (~24%), даже с идентичным промптом. Исследование объясняет откуда берётся вариативность и даёт инструменты управления: переиспользование предыдущих ответов снижает дрифт, возмущение промптов (синонимы) — увеличивает. Фишка: можно намеренно усиливать или гасить разброс — для творческих задач нужно разнообразие, для критичных — стабильность.
Адаптировать под запрос

TL;DR

Baseline Behavioural Drift — измерение нестабильности выводов LLM при повторных запусках одного промпта. Исследование показало: даже при temperature=0.0 модели дают разные ответы. GPT-4o-mini выдаёт новый вариант в ~24% случаев, Llama3.1-8b — в ~9%. При температуре 0.7 почти каждый запуск уникален (до 100% новых ответов). Вариативность зависит от размера модели, способа разворачивания (API vs локально) и режима промптинга.

Пользователи ожидают что фиксированная температура даёт повторяемость. На практике один промпт → разные ответы, даже в "детерминистичном" режиме. Причины: особенности сэмплирования, инфраструктура API (батчинг, кэширование, маршрутизация запросов), размер модели. Больше параметров = больше вариативности. Запуск через API добавляет шума по сравнению с локальным развёртыванием. Одиночный запуск скрывает реальный диапазон поведения модели.

Исследователи измерили три режима: точные повторы, возмущённые входы (синонимы в промпте), переиспользование (прошлый ответ подаётся в следующий запрос). Находка: переиспользование снижает вариативность (unique fraction 0.20 vs 0.24 для точных повторов при temp=0.0), возмущение входов — увеличивает (до 0.57). Это даёт два инструмента: хочешь стабильности — переиспользуй ответ; хочешь разнообразия — перефразируй промпт.


📌

Схема измерения

Исследование НЕ предлагает метод — оно измеряет явление. Но из находок извлекаются принципы:

ПРИНЦИП 1: Множественные запуски

Один промпт → 20-30 запусков → анализ разброса

ПРИНЦИП 2: Переиспользование для стабилизации

Запрос 1 → Ответ A
Запрос 2 (с Ответом A внутри) → Ответ B (ближе к A)

ПРИНЦИП 3: Возмущение для разнообразия

"Дай совет по тайм-менеджменту" → Ответ X
"Порекомендуй как организовать время" → Ответ Y (отличается сильнее)

🚀

Пример применения

Задача: Тебе нужно написать описание для нового онлайн-курса по нейросетям. Хочешь увидеть несколько вариантов, чтобы выбрать лучший или скомбинировать идеи.

Промпт (базовый):

Напиши описание онлайн-курса "Нейросети для маркетологов" — 
3 абзаца, продающий стиль, для страницы в Tilda.

Техника множественных запусков:

Дай мне 5 разных вариантов описания онлайн-курса "Нейросети для маркетологов". 
Каждый вариант — 3 абзаца, продающий стиль, для страницы в Tilda.
Покажи варианты с разными углами подачи.

Результат: Модель выдаст 5 описаний с разными акцентами: одно про экономию времени, другое про конкурентное преимущество, третье про простоту освоения. Ты увидишь диапазон того, как модель понимает задачу, и сможешь выбрать или скомбинировать лучшее.

Альтернатива — возмущение промпта вручную: Запусти промпт 3 раза с перефразировками: - "Напиши описание курса..." - "Создай продающий текст для курса..." - "Сформулируй презентацию курса..."

Получишь больше разнообразия, чем при точном повторе.


🧠

Почему это работает

Слабость LLM: Даже при temperature=0.0 модель не детерминирована на 100%. Сэмплирование, батчинг запросов, кэширование, маршрутизация в облаке — всё это вносит шум. Один промпт может дать несколько разных ответов. Пользователи не замечают дрифт, потому что делают один запрос и получают один ответ. Реальный диапазон поведения скрыт.

Сильная сторона LLM: Модель умеет генерировать разнообразные варианты — это не баг, а фича для творческих задач. При этом модель чувствительна к контексту: если в промпте есть предыдущий ответ, она стремится к согласованности с ним. Если промпт перефразирован, модель интерпретирует по-новому, даже если смысл тот же.

Как использовать: 1. Для стабильности — подавай предыдущий ответ в новый промпт: "Вот твой ответ: [текст]. Продолжи в том же стиле/доработай/дополни". Модель зацепится за контекст и даст более согласованный вывод. 2. Для разнообразия — перефразируй промпт или запрашивай несколько вариантов явно. Модель выдаст разные углы зрения. 3. Для оценки надёжности — запусти критичный промпт 3-5 раз и проверь, насколько ответы похожи. Если разброс большой — нужна дополнительная спецификация.

Рычаги управления: - Температура: 0.0 даёт меньше вариативности (~10-24% новых ответов), 0.7 даёт почти 100% уникальных ответов - Переиспользование контекста: снижает unique fraction с 0.24 до 0.20 — небольшой, но стабилизирующий эффект - Возмущение промпта: увеличивает unique fraction до 0.57 — в 2.4 раза больше разнообразия


📋

Шаблон промпта

📌

Для получения разнообразия:

Дай мне {количество} разных вариантов {задача}.

Требования:
- {конкретные ограничения: длина, стиль, формат}
- Каждый вариант должен иметь свой угол подачи или акцент
- Покажи диапазон возможных решений

Задача: {описание задачи}

Пояснение: - {количество} — обычно 3-5 вариантов, чтобы увидеть разнообразие - {задача} — конкретная задача: "описание продукта", "сценарий холодного звонка", "intro для статьи" - {конкретные ограничения} — длина, тон, формат - {описание задачи} — детали: что продаёшь, кому пишешь, что важно

📌

Для стабилизации через переиспользование:

Вот твой предыдущий ответ:
"""
{предыдущий_ответ}
"""

Теперь {новая_инструкция}, сохраняя стиль и подход из предыдущего ответа.

Пояснение: - {предыдущий_ответ} — копируй output из первого запроса - {новая_инструкция} — "дополни ещё двумя абзацами", "перепиши короче", "добавь примеры"


⚠️

Ограничения

⚠️ Лексические метрики vs семантика: Исследование измеряло только словесное сходство (Jaccard similarity), не смысл. Два ответа могут быть написаны по-разному, но значить одно и то же — метрика посчитает это как "дрифт". Реальное смысловое расхождение может быть меньше, чем показывают цифры.

⚠️ Короткие промпты, один запрос: Измерения делали на single-turn взаимодействиях. В длинных диалогах дрифт может накапливаться — модель постепенно сдвигается от исходной задачи. Насколько сильно — неизвестно.

⚠️ Только две модели: GPT-4o-mini и Llama3.1-8b. Более крупные модели (GPT-4, Claude Opus) могут вести себя иначе. Ранее показали что 120B-параметровая модель давала идентичные ответы только в 12.5% случаев — в 2 раза хуже чем GPT-4o-mini.


🔍

Как исследовали

Команда взяла две модели: GPT-4o-mini (через OpenAI API) и Llama3.1-8b (локально на NVIDIA A100), и прогнала 125 промптов в пяти категориях — от размытых ("Дай совет начинающему садоводу") до жёстких ("Переведи и выдай ровно два предложения"). Каждый промпт запускали 20-30 раз в трёх режимах: точный повтор, с синонимами, с переиспользованием прошлого ответа. Температуры: 0.0 и 0.7.

Измеряли: сколько уникальных ответов (unique output fraction = число разных ответов / общее число запусков), лексическое сходство (Jaccard между парами ответов) и длину (среднее число слов ± разброс).

Главная находка: При temperature=0.0, которую все считают детерминистичной, GPT-4o-mini дал разные ответы в 24% случаев, Llama — в 9%. Jaccard similarity был 0.89 и 0.97 соответственно — высоко, но не 1.0. Возмущение входов (замена "дай совет" на "порекомендуй") подняло unique fraction до 57% для GPT и 27% для Llama — модели оказались чувствительны даже к синонимам. Переиспользование прошлого ответа, наоборот, снизило вариативность до 20% и 10% — контекст стабилизирует.

При температуре 0.7 картина изменилась радикально: почти 100% уникальных ответов, Jaccard упал до 0.44-0.71. Температура — главный драйвер дрифта, сильнее чем перефразирование или переиспользование.

Почему GPT-4o-mini дрифтит больше Llama3.1-8b? API добавляет шум: батчинг, маршрутизация, кэширование, оптимизации провайдера — всё это скрыто от пользователя. Локальная модель с фиксированным seed и одинаковыми настройками более предсказуема. Но даже она не идеальна — 9% дрифта говорит что детерминизм в LLM — миф.

Авторы признают: лексические метрики переоценивают дрифт. Если модель написала "начни с малого" вместо "стартуй с простого", Jaccard это засчитает как различие, хотя смысл тот же. Нужны семантические метрики (сравнение эмбеддингов, LLM-as-judge), но их пока не добавили — ограничение исследования.

Вывод для практики: запускай критичные промпты несколько раз. Одиночный запуск показывает только один образец из распределения, а не сам диапазон поведения. Если ответы сильно расходятся — промпт недоспецифицирован, добавляй ограничения.


💡

Адаптации и экстраполяции

📋

🔧 Техника: A/B-тестирование формулировок промпта

Результаты показали: перефразирование увеличивает вариативность в 2.4 раза (unique fraction с 0.24 до 0.57). Используй это для тестирования формулировок:

Я хочу получить [желаемый результат]. 

Вот три формулировки промпта:

A) [формулировка 1]
B) [формулировка 2]
C) [формулировка 3]

Выполни каждую формулировку и покажи результаты отдельно. 
Затем проанализируй: какая формулировка даёт более точный/полезный/креативный результат для моей цели?

Модель выдаст три ответа и сама оценит, какая формулировка работает лучше. Ты увидишь не только результат, но и влияние формулировки на вывод.


📌

🔧 Техника: Стабилизация через якорный пример

Вместо переиспользования всего предыдущего ответа, дай модели эталонный пример стиля/структуры в первом запросе:

Запрос 1:
Напиши описание SaaS-продукта для лендинга. 
Вот эталонный пример стиля и структуры:
"""
[образец текста который тебе нравится]
"""

Теперь напиши описание для [твой продукт].

Запрос 2 (в том же чате):
Напиши ещё два описания для того же продукта, сохраняя стиль из первого ответа.

Модель закрепится на эталоне и даст более согласованные варианты, чем при чистом переиспользовании.


🔗

Ресурсы

Quantifying non-deterministic drift in large language models

Claire Nicholson, HelixScribe.AI

Упоминаемые работы: - Atil et al. (2025) — Non-Determinism of "Deterministic" LLM Settings - Khatchadourian & Franco (2025) — LLM Output Drift: Cross-Provider Validation - Chen et al. (2024) — Citation Drift as a Reproducibility Failure in Scientific LLMs - Maxwell & Berenzweig (2025) — The Half-Life of Truth: Semantic Drift vs. Factual Degradation - Rath (2026) — Agent Drift: Quantifying Behavioural Degradation in Multi-Agent LLM Systems


📋 Дайджест исследования

Ключевая суть

Ставишь temperature=0.0 — ждёшь одинаковые ответы. На практике GPT-4o-mini выдаёт новый вариант почти в каждом четвёртом запуске (~24%), даже с идентичным промптом. Исследование объясняет откуда берётся вариативность и даёт инструменты управления: переиспользование предыдущих ответов снижает дрифт, возмущение промптов (синонимы) — увеличивает. Фишка: можно намеренно усиливать или гасить разброс — для творческих задач нужно разнообразие, для критичных — стабильность.

Принцип работы

Не делай один запрос и не жди что температура 0.0 = детерминизм. Делай 3-5 запусков и смотри диапазон. Хочешь стабильностиподавай предыдущий ответ в новый промпт: "Вот твой ответ: [текст]. Доработай в том же стиле". Модель зацепится за контекст и выдаст более согласованный вариант (unique fraction падает с 0.24 до 0.20). Хочешь разнообразия — перефразируй промпт или явно проси несколько вариантов: "Дай 5 разных подходов к [задача]". Возмущение входов поднимает unique fraction до 0.57 — в 2.4 раза больше уникальных ответов.

Почему работает

Причина дрифта — LLM не полностью детерминированы даже при нулевой температуре. Батчинг запросов, кэширование, маршрутизация в облачной инфраструктуре, особенности сэмплирования — всё это вносит шум. Больше параметров = больше вариативности: модель на 120B параметров давала идентичные ответы только в 12.5% случаев — в 2 раза хуже чем GPT-4o-mini. API добавляет шума по сравнению с локальным развёртыванием. Один запуск скрывает реальный диапазон поведения модели — ты видишь один ответ и думаешь что он единственный, а модель могла выдать 5 разных версий. Переиспользование контекста работает потому что модель стремится к согласованности с тем, что уже сгенерировала. Возмущение промпта заставляет переинтерпретировать задачу, даже если смысл не изменился.

Когда применять

Для критичных задач: медицинские рекомендации, юридические консультации, финансовые расчёты — делай 3-5 запусков и проверяй разброс. Если ответы расходятся сильно — нужна дополнительная спецификация промпта. Для творческих задач: копирайтинг, brainstorming, генерация идей — явно проси несколько вариантов или перефразируй промпт. Увидишь диапазон того, как модель понимает задачу. Для последовательной работы: редактирование текста, итеративная доработка — переиспользуй предыдущий ответ в промпте для стабильности стиля. НЕ подходит если нужен ровно один правильный ответ — дрифт показывает что модель неуверена или задача недоспецифицирована.

Мини-рецепт

Сценарий 1: Нужна стабильность (редактирование, доработка)
1. Первый запрос: Напиши intro для статьи про нейросети в маркетинге — 2 абзаца, дружеский тон
2. Получил ответ A
3. Второй запрос: Вот твой предыдущий ответ: """[вставь ответ A]""" Теперь дополни ещё одним абзацем про конкретные кейсы, сохраняя стиль
4. Результат: модель продолжит в том же ключе, дрифт снижен

Сценарий 2: Нужно разнообразие (brainstorming, выбор лучшего)
1. Запрос: Дай мне 5 разных вариантов заголовка для статьи "Как нейросети экономят время маркетолога". Каждый вариант — свой угол подачи: экономия времени, конкурентное преимущество, простота освоения, тренд, страх упустить
2. Или сделай 3 запуска с перефразировками:
- Придумай заголовок для статьи...
- Создай цепляющий заголовок...
- Сформулируй название статьи...
3. Результат: диапазон идей вместо одной

Примеры

[ПЛОХО] : Напиши описание онлайн-курса по нейросетям для страницы в Tilda → получаешь один ответ → думаешь что это единственный вариант → уходишь с ним
[ХОРОШО] : Дай 5 разных описаний курса "Нейросети для маркетологов" — 3 абзаца каждое, продающий стиль. Покажи варианты с разными акцентами: экономия времени, конкурентное преимущество, простота, тренд, кейсы → видишь диапазон того как модель понимает задачу → выбираешь лучшее или комбинируешь [ХОРОШО для стабильности]: Вот твой ответ: """[первая версия intro]""" Теперь добавь ещё один абзац с примерами, сохраняя тон и стиль → модель зацепится за контекст → продолжит согласованно
Источник: Quantifying non-deterministic drift in large language models (2601.19934)
ArXiv ID: 2601.19934 | Сгенерировано: 2026-01-29 05:42

Методы

МетодСуть
Переиспользование ответа для стабилизацииПодавай предыдущий вывод модели в новый промпт. Пиши: Вот твой ответ: """ {текст} """ Теперь дополни / продолжи / доработай, сохраняя стиль. Почему работает: Модель видит свой предыдущий вывод и стремится к согласованности с ним. Это снижает случайную вариативность. Когда применять: многошаговые задачи, нужна консистентность между частями, доработка существующего текста. Когда не работает: хочешь разнообразия, первый вывод модели неудачный

Тезисы

ТезисКомментарий
Температура 0.0 не гарантирует одинаковые ответыДаже при нулевой температуре модель выдаёт разные ответы при повторных запусках одного промпта. Причина: инфраструктура API (батчинг запросов, маршрутизация между серверами), особенности сэмплирования. Разброс примерно 10-25% новых вариантов при temp=0.0. При temp=0.7 почти каждый запуск уникален. Применяй: Для критичных задач запускай промпт 3-5 раз, проверяй разброс. Если ответы сильно отличаются — добавь конкретики или ограничений в промпт
Переиспользование контекста снижает вариативностьКогда подаёшь предыдущий ответ модели в новый промпт, она стремится к согласованности с ним. Случайная вариативность уменьшается примерно на 15-20%. Механизм: модель использует контекст как якорь, опирается на уже сгенерированный текст. Применяй: Для многошаговых задач включай предыдущий вывод: "Вот твой ответ: {текст}. Теперь продолжи в том же стиле". Модель даст более стабильное продолжение
📖 Простыми словами

Quantifying non deterministic drift inlargelanguagemodels

arXiv: 2601.19934

Нейросети — это не калькуляторы, где дважды два всегда четыре. Даже если ты выставишь temperature=0.0, что формально означает режим «будь максимально предсказуемым», модель всё равно будет выдавать разные ответы на один и тот же запрос. Этот феномен называют недетерминированным дрейфом. Суть в том, что на пути от твоего промпта до финального текста стоят десятки технических факторов: от того, как видеокарта группирует вычисления, до хитрых алгоритмов маршрутизации в облаке. В итоге LLM лажает в стабильности просто потому, что её внутренняя математика слишком сложна для идеального повторения.

Это как заказывать один и тот же кофе у бариста, который каждый раз немного меняет рецепт. Вчера пенка была гуще, сегодня зерно чуть пережарили, хотя кнопка на кофемашине нажата та же самая. Формально это всё ещё латте, но вкус гуляет. В мире AI это означает, что ты никогда не получаешь «тот самый единственный» ответ, ты просто видишь случайный срез из целого облака возможных вариантов, которые модель держит в уме.

Цифры показывают, что масштаб проблемы — не просто погрешность. Исследование Baseline Behavioural Drift выявило, что GPT-4o-mini выдаёт новый вариант в 24% случаев даже при нулевой температуре. У Llama 3.1-8b этот показатель скромнее — около 9%, но это всё равно дофига. Если же ты решишь «добавить креатива» и выставишь температуру 0.7, то стабильность улетает в трубу: почти каждый запуск будет уникальным. Модель превращается в генератор случайных чисел, который просто упаковывает их в красивые предложения.

Этот принцип применим везде: от написания кода до создания рекламных текстов. Если ты просишь нейронку составить описание курса и она выдала фигню — это не значит, что она не умеет. Это значит, что тебе выпал неудачный вариант из дрейфа. Тот же самый промпт через секунду может выдать шедевр. SEO-тексты, скрипты, суммаризация — всё это плывёт, и полагаться на один-единственный прогон нельзя. Мы привыкли доверять первому ответу, но на деле мы просто играем в казино, где правила меняются на ходу.

Главный вывод: стабильность — это миф, и 100% повторяемости не существует. Если тебе нужен критически важный результат, прогоняй промпт минимум 3-5 раз и выбирай лучшее, а не надейся на магию первого клика. Игнорировать этот дрейф — значит добровольно соглашаться на среднюю по больнице выдачу, когда под капотом у модели есть варианты получше. В мире, где каждый четвёртый ответ GPT-4o-mini — сюрприз, побеждает тот, кто умеет этот хаос контролировать.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с