3,583 papers
arXiv:2512.07795 76 8 дек. 2025 г. FREE

LLM дают разные ответы на один промпт: систематическое исследование нестабильности

КЛЮЧЕВАЯ СУТЬ
Один промпт, одна задача — 60% запусков дают правильный ответ, 40% неправильный. LLM катастрофически нестабильны при многошаговых рассуждениях. Протокол ReasonBENCH позволяет оценить надёжность вывода перед важным решением — делаешь 3-5 запусков одного промпта, собираешь разброс результатов, смотришь на худший случай вместо среднего. Выясняется: один ответ ChatGPT — это случайный сэмпл из распределения, а не истина. Исследование показало: дорогая Qwen3-235B нестабильнее дешёвой Llama 4 в 2 раза, сложный Graph of Thoughts даёт разброс в 1.5 раза выше простого CoT.
Адаптировать под запрос

TL;DR

ReasonBENCH — первое масштабное исследование нестабильности LLM: как сильно меняются ответы при повторных запусках одного промпта. Исследователи прогнали 11 техник рассуждения (CoT, ToT, React и др.) и 5 моделей по 7 задачам — каждую комбинацию 10 раз, а не один как обычно. Собрали цифры разброса, доверительные интервалы, worst-case результаты.

Главная находка: LLM катастрофически нестабильны. Один промпт на одной задаче выдаёт правильный ответ в 60% запусков, неправильный в 40%. Два метода с одинаковой средней точностью (скажем, 75%) могут иметь разброс результатов в 4 раза шире у одного. Сложные техники (Graph of Thoughts, Tree of Thoughts) часто нестабильнее простого Chain-of-Thought. Дорогие модели не обязательно стабильнее: Qwen3-235B в 20 раз дороже Llama 4, но variance в 2 раза выше. Для критичных задач важен не средний результат, а нижняя граница доверительного интервала — и она может быть на 20-30% ниже среднего.

Суть исследования: Вместо одного запуска и отчёта "точность 85%" исследователи делали 10 запусков и говорили "точность 85±8%, худший результат 68%, лучший 94%". Обнаружили: мы годами оценивали LLM по искажённым метрикам, игнорируя variance. Практический вывод: на важных задачах делай 3-5 запусков, смотри на худший результат, не на первый.


📌

Схема подхода

Это исследование, не техника — схемы как таковой нет. Вот что делали:

Для каждой комбинации [модель + метод + задача]:
  → 10 независимых запусков (не 1, как в 99% исследований)
  → Считают среднее, доверительный интервал, MAD, CV
  → Отдельно считают cost (токены, деньги, время) с variance

Результат:
  → Не "точность 85%"
  → А "точность 85±7%, 10-й перцентиль = 72%, 90-й = 93%, variance = 0.38"

📌

Ключевые находки

1. Нестабильность — норма, не исключение

На одном и том же вопросе про Мухаммеда Али разные модели и методы выдают противоречащие выводы при идентичных промптах. Variance настолько высок, что confidence interval часто в 4 раза шире у формально похожих методов.

2. Сложность ≠ стабильность

Простой Chain-of-Thought может иметь CV (coefficient of variation) = 0.38, а Graph of Thoughts (сложнейшая техника с графами) — CV = 0.58. Больше шагов → больше точек ветвления → выше разброс.

3. Цена ≠ надёжность

DeepSeek R1 (самая дорогая) показала CV = 0.29 Llama 4 Maverick (в 65 раз дешевле) — CV = 0.38 Qwen3-235B (дорогая) — CV = 0.77 (худшая)

Переплата не гарантирует стабильность.

4. Средняя точность скрывает проблемы

Два метода с точностью 75% могут иметь: - Метод А: 70-80% (стабильно) - Метод Б: 50-95% (лотерея)

В production важен worst-case, не average. А его редко публикуют.

5. Масштаб модели помогает

GPT-4.1-mini стабильнее GPT-4.1-nano при любой технике рассуждений. Большие модели не только точнее, но и предсказуемее.


🚀

Применение для работы

Задача: Ты готовишь важное решение — свернуть проект или дать ему ещё квартал. Спрашиваешь у LLM анализ финансовой модели стартапа с метриками: burn rate ₽800к/мес, runway 4 месяца, прирост MRR +15%/мес.

Что делать НЕПРАВИЛЬНО:

[копируешь метрики в ChatGPT]

Стоит ли продолжать или закрывать?

→ Получаешь ответ "рекомендую продолжить" → принял решение.

Проблема: В следующем запуске тот же промпт мог бы дать "рекомендую закрыть". Ты принял решение на сотни тысяч рублей по одному сэмплу из распределения.

Что делать ПРАВИЛЬНО (протокол multiple runs):

  1. Прогони 3-5 раз (скопируй промпт → New Chat → вставь → Enter)
  2. Собери все ответы
  3. Попроси агрегировать:
Я прогнал один промпт 5 раз, вот ответы:

Run 1: [ответ]
Run 2: [ответ]
Run 3: [ответ]
Run 4: [ответ]
Run 5: [ответ]

Задача: 
1. Покажи консенсус: по каким пунктам все ответы согласны
2. Покажи разброс: где мнения разошлись
3. Дай worst-case и best-case оценки
4. Итоговая рекомендация с указанием уровня уверенности

Результат: Ты увидишь: - Если 5/5 говорят "продолжать" → высокая уверенность - Если 3/5 "продолжать", 2/5 "закрывать" → низкая уверенность, копай глубже - Worst-case сценарий (что если модель права в пессимистичном run?) - Какие факторы стабильны (все заметили), какие — артефакт одного запуска


🧠

Почему это работает

Слабость LLM: Модель работает со стохастическим декодированием — на каждом токене она сэмплирует из распределения вероятностей. Temperature > 0 → разные выборы → разные цепочки рассуждений → разные выводы. Даже при temperature = 0 в сложных задачах путей рассуждения так много, что мелкие различия в формулировках (которые модель воспринимает по-разному при повторных runs) могут вести к противоположным выводам.

Сильная сторона LLM: Модель хорошо агрегирует противоречащие данные, если их показать явно. Она видит паттерны в разбросе, может оценить уверенность, выделить консенсус.

Как метод использует это: Вместо того чтобы слепо доверять одному сэмплу (который может быть outlier), ты собираешь несколько сэмплов вручную, потом просишь модель же проанализировать их разброс. Модель становится инструментом для оценки собственной нестабильности. Второй запрос (агрегация) — детерминистический анализ, там variance низкий.

Рычаги управления: - Число runs (3-5-10): Для быстрой проверки — 3. Для критичного решения — 5-10. Больше → точнее оценка variance, но дольше. - Temperature: Нельзя убрать variance через temperature=0 в сложных задачах (пути всё равно ветвятся). Но можешь попробовать temperature=0 для стабильности vs temperature=0.7 для креатива — и сравнить разброс. - Критерий консенсуса: "Все 5 согласны" vs "минимум 4 из 5" — под свой risk tolerance.


📋

Шаблон промпта

📌

Шаг 1: Многократный запуск (делаешь вручную)

Открой 3-5 отдельных чатов (New Chat в ChatGPT/Claude), в каждом один и тот же промпт:

{твой_вопрос_или_задача}

[Контекст, данные, условия]

{что_хочешь_получить}

Собери все ответы.


📌

Шаг 2: Агрегация и анализ разброса

Скопируй в новый чат:

Я прогнал один промпт {N} раз, чтобы проверить стабильность ответа. Вот результаты:

**Run 1:**
{ответ_1}

**Run 2:**
{ответ_2}

**Run 3:**
{ответ_3}

[Run 4, 5... если есть]

---

Задачи:

1. **Консенсус:** По каким пунктам ВСЕ запуски согласны? Это стабильные находки.

2. **Разброс:** Где мнения разошлись? Какие факторы упоминались в одних runs, но не в других?

3. **Worst-case vs Best-case:** Какой run наиболее пессимистичен? Какой наиболее оптимистичен? В чём они расходятся?

4. **Уровень уверенности:** Если бы ты оценивал, насколько стабильно LLM отвечает на этот вопрос — высокая уверенность (все runs похожи) или низкая (сильный разброс)?

5. **Итоговая рекомендация:** С учётом разброса, дай финальный ответ + укажи риски если worst-case окажется прав.

Что подставлять: - {N} — сколько раз прогнал (3, 5, 10) - {ответ_1}, {ответ_2} и т.д. — полные ответы из разных чатов - Если ответы длинные — можно скопировать только ключевые части (выводы, рекомендации)


⚠️

Ограничения

⚠️ Время на критичные задачи: 3-5 запусков займут в 3-5 раз больше времени. Протокол имеет смысл только для важных решений (инвестиции, карьера, публикации, юридические выводы). Для "напиши пост в Telegram" — overkill.

⚠️ Не для творческих задач: Variance в креативе — это фича, не баг. Для "придумай 10 идей" разброс желателен. Протокол работает там где есть объективно правильное решение или критичная ставка.

⚠️ API-стоимость растёт линейно: 5 запусков = 5× токенов. Для сложных промптов с большим контекстом может стать дорого. Но для критичных решений — оправданно.

⚠️ Простые задачи стабильнее: "Столица Франции" даст одинаковый ответ 10/10 раз. Протокол нужен для многошаговых рассуждений, планирования, оценок с субъективными критериями — там variance высокий.


🔍

Как исследовали

Исследователи взяли 11 известных техник рассуждений (Chain-of-Thought, Tree of Thoughts, ReAct, Graph of Thoughts и др.) и 5 современных моделей (DeepSeek R1, Llama 4, GPT, Qwen, Gemini). Прогнали каждую комбинацию модель+техника на 7 типах задач (математика, код, вопрос-ответ, планирование) — но не один раз как обычно, а по 10 независимых запусков.

Ключ в том что каждый run полностью независим: новый чат, новый seed, заново от начала. Это не "регенерируй ответ" в одном диалоге (где контекст влияет), а именно 10 чистых стартов.

Что измеряли: - Среднюю точность (как обычно) - Confidence interval (±X% от среднего) - Coefficient of variation CV (variance / mean — чем ниже, тем стабильнее) - Median Absolute Deviation MAD (насколько типичный результат отклоняется от медианы) - Перцентили (10-й перцентиль = worst-case из 10 runs, 90-й = best-case) - Cost variance (разброс токенов и денег — некоторые runs жрут в 3 раза больше токенов)

Удивительные находки:

  1. Graph of Thoughts — нестабильнее простого CoT, хотя в теории сложнее и "умнее". CV = 0.58 vs 0.38. Больше шагов → больше ветвлений → экспоненциальный рост путей.

  2. Qwen3-235B дороже Llama 4 в 20 раз, но variance в 2 раза выше. Цена модели не коррелирует со стабильностью.

  3. FoA (эволюционный метод) — самый стабильный: CV = 0.05 (лучший), MAD = 1.3 (лучший). Потому что усредняет по популяции решений внутри одного запуска — variance "съедается" механикой метода.

  4. Больше модель → стабильнее: GPT-4.1-mini стабильнее GPT-4.1-nano на всех техниках. Масштаб снижает variance, не только повышает точность.

Логика выводов:

Если бы variance был низкий, 10 runs давали бы почти одинаковые результаты → один run = репрезентативно. Вместо этого они увидели что разброс часто сопоставим со средним значением. Это значит традиционные бенчмарки (1 run) дают случайный сэмпл из широкого распределения — и выводы "метод А лучше метода Б на 2%" могут быть артефактом luck, а не реального превосходства.

Их инсайт для практики: нестабильность — не баг одной модели, а системное свойство LLM с temperature > 0. Единственный способ оценить надёжность — мерить не только accuracy, но и variance. Для пользователя это значит: на важных задачах делай несколько runs.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Быстрая оценка стабильности — 3 runs вместо 10

Для кого: Когда нет времени на 10 запусков, но нужна базовая проверка.

Вместо 10 runs делай 3:
  Run 1: temperature 0.7 (стандарт)
  Run 2: temperature 0.7 (повтор)
  Run 3: temperature 0 (детерминированный baseline)

Если Run 1 и Run 2 сильно расходятся → variance высокий, копай глубже
Если Run 3 (temp=0) отличается от обоих → задача амбивалентная
Если все три близки → можно доверять одному ответу

Экономия: 70% времени относительно 10 runs, но базовое понимание разброса есть.


📌

🔧 Техника: Self-consistency через явный разброс

Исследование показало что CoT-SC (Self-Consistency) стабильнее обычного CoT, потому что генерирует несколько рассуждений и голосует. Но ты можешь сделать это явно и контролируемо:

Ответь на вопрос 3 раза, каждый раз с независимым рассуждением:

**Вопрос:** {вопрос}

**Ответ 1 (рассуждай с акцентом на риски):**
[жди ответ]

**Ответ 2 (рассуждай с акцентом на возможности):**
[жди ответ]

**Ответ 3 (рассуждай строго по данным, без предположений):**
[жди ответ]

Теперь сравни три ответа:
- Где они согласны? (консенсус)
- Где расходятся? (источники разброса)
- Какой подход кажется наиболее обоснованным?
- Финальный ответ с учётом всех трёх.

Эффект: Вместо слепого voting (как в оригинальном SC) ты видишь почему разброс возник и можешь оценить какой reasoning path надёжнее.


📌

🔧 Техника: Worst-case planning для критичных решений

Исследование показало что 10-й перцентиль может быть на 20-30% хуже среднего. Используй это для risk management:

Задача: {важное решение — инвестиция, увольнение, запуск продукта}

Дай три оценки:

1. **Base case** (наиболее вероятный сценарий)
2. **Best case** (если всё пойдёт лучше ожиданий)
3. **Worst case** (10-й перцентиль — что если модель ошибается в пессимистичную сторону)

Для каждого сценария:
- Вероятность (субъективная оценка)
- Ключевые риски
- Действия если этот сценарий реализуется

Итог: могу ли я пережить worst case? Если да — решение устойчивое.

Логика: Если среднее говорит "прибыль", а worst-case "банкротство" — нужен запас прочности, а не расчёт на среднее.


🔗

Ресурсы

ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning — Nearchos Potamitis, Lars Klein, Akhil Arora (Aarhus University, EPFL). Статья на 25 страниц со всеми цифрами variance, код и датасеты: github.com/au-clan/ReasonBench

Связанные работы из исследования: - Chain-of-Thought Prompting (Wei et al., 2022) - Self-Consistency (Wang et al., 2023) - Tree of Thoughts (Yao et al., 2023) - Graph of Thoughts (Besta et al., 2024) - Frame of All (Klein et al., 2025)


📋 Дайджест исследования

Ключевая суть

Один промпт, одна задача — 60% запусков дают правильный ответ, 40% неправильный. LLM катастрофически нестабильны при многошаговых рассуждениях. Протокол ReasonBENCH позволяет оценить надёжность вывода перед важным решением — делаешь 3-5 запусков одного промпта, собираешь разброс результатов, смотришь на худший случай вместо среднего. Выясняется: один ответ ChatGPT — это случайный сэмпл из распределения, а не истина. Исследование показало: дорогая Qwen3-235B нестабильнее дешёвой Llama 4 в 2 раза, сложный Graph of Thoughts даёт разброс в 1.5 раза выше простого CoT.

Принцип работы

Протокол в три действия: копируешь промпт → прогоняешь в 3-5 отдельных чатах (New Chat каждый раз) → собираешь все ответы и просишь модель агрегировать разброс. Модель становится инструментом оценки собственной нестабильности. Второй запрос показывает консенсус (где все запуски согласны), разброс (где мнения разошлись) и worst-case (пессимистичный сценарий). Вместо слепого доверия первому ответу ты видишь диапазон возможных выводов — и принимаешь решение с учётом рисков.

Почему работает

Модель работает со случайным выбором токенов — на каждом шаге сэмплирует из распределения вероятностей. Temperature > 0 означает: разные выборы → разные цепочки рассуждений → противоположные выводы. Даже при temperature=0 в сложных задачах путей так много, что мелкие различия в формулировках ведут к разным итогам. Исследование на 11 техниках рассуждения × 5 моделей × 7 задач (каждая по 10 запусков) показало: сложные техники имеют разброс (CV) до 0.77 vs 0.38 у простого CoT. Дорогая модель Qwen3-235B нестабильнее дешёвой Llama 4 — переплата не гарантирует предсказуемость. Два метода с одинаковой средней точностью 75% могут иметь диапазон 70-80% (стабильно) vs 50-95% (лотерея).

Когда применять

Критические решения → финансовые оценки (свернуть проект или инвестировать ещё квартал), карьерные выборы (принять оффер или отказать), инвестиционные анализы — особенно когда ставка высокая: сотни тысяч рублей, репутация, необратимые последствия. Для задач где важен worst-case, а не средний результат. НЕ подходит для творческих задач (генерация идей, копирайт, брейнштормы) — там разброс желателен, это фича.

Мини-рецепт

1. Многократный запуск (вручную): Открой 3-5 отдельных чатов (New Chat в ChatGPT/Claude), в каждый скопируй идентичный промпт. Собери все ответы — скриншоты или копипаст в заметки.

2. Агрегация и worst-case анализ: В новом чате дай промпт: Я прогнал один промпт {N} раз. Вот результаты: [Run 1: {ответ_1}] [Run 2: {ответ_2}] ... Задачи: 1) Консенсус — где ВСЕ запуски согласны? 2) Разброс — где мнения разошлись? 3) Worst-case vs Best-case — какой запуск наиболее пессимистичен? 4) Уровень уверенности — высокая (все runs похожи) или низкая (сильный разброс)? 5) Итоговая рекомендация с учётом рисков если worst-case прав. Модель покажет: если 5/5 согласны → высокая уверенность, если 3/5 vs 2/5 → копай глубже.

Примеры

[ПЛОХО] : Анализ стартапа: burn rate 800к/мес, runway 4 мес, прирост MRR +15%/мес. Свернуть проект или дать квартал? → получил ответ 'продолжить' → принял решение на сотни тысяч по одному сэмплу. Следующий запуск мог дать 'свернуть'.
[ХОРОШО] : Прогоняешь промпт в 5 отдельных чатах. Собираешь: 3 ответа 'продолжить' (указывают на рост MRR), 2 'свернуть' (указывают на короткий runway). В новом чате: Прогнал 5 раз, вот результаты: [Run 1-5]. Покажи консенсус, разброс, worst-case. Итоговая рекомендация с рисками. Видишь: консенсус — MRR растёт стабильно; разброс — оценка runway (оптимисты дают 6 мес с учётом роста, пессимисты 3 мес); worst-case — если рост замедлится, денег хватит до банкротства. Принимаешь решение с пониманием диапазона исходов, а не по первому ответу.
Источник: ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning
ArXiv ID: 2512.07795 | Сгенерировано: 2026-01-08 22:46

Проблемы LLM

ПроблемаСутьКак обойти
Один промпт дает разные ответы при повторных запускахЗапускаешь один и тот же промпт 5 раз подряд. Получаешь 3 раза "да", 2 раза "нет". Или оценку от 60% до 90% при идентичном вопросе. Причина: модель сэмплирует токены из распределения вероятностей. На каждом шаге рассуждения — тысячи вариантов продолжения. Мелкое различие в выборе токена цепочка рассуждений уходит в другую сторону противоположный вывод. Проблема критична для важных решений: ты принимаешь решение на миллион рублей по одному случайному сэмплу из распределенияДля критичных задач делай 3-5 запусков одного промпта. Открой 3 отдельных чата, скопируй промпт в каждый. Собери все ответы. Попроси модель проанализировать разброс: "Вот 3 ответа на один вопрос. Где они согласны (консенсус)? Где расходятся (разброс)? Дай worst-case и best-case. Какой уровень уверенности?". Принимай решение по консенсусу, не по первому ответу

Методы

МетодСуть
Множественные запуски с агрегацией — проверка стабильности ответаВместо одного запуска делаешь 3-5 прогонов одного промпта. Собираешь все ответы. Просишь модель агрегировать: показать консенсус (где все согласны), разброс (где мнения разошлись), worst-case и best-case сценарии. Почему работает: Один запуск может быть выбросом (outlier). Модель хорошо анализирует противоречия когда их показать явно. Второй запрос (агрегация) детерминистичен — там variance низкий. Когда применять: Важные решения с высокой ценой ошибки. Многошаговые рассуждения. Оценки с субъективными критериями. Планирование. Не работает: Творческие задачи (там разброс — это фича). Простые фактологические вопросы (они стабильны). Задачи где скорость важнее надежности
📖 Простыми словами

LLM дают разные ответы на один промпт: систематическое исследование нестабильности

arXiv: 2512.07795

Суть в том, что современные нейронки — это не калькуляторы, а генераторы случайных чисел с очень умным лицом. Когда ты просишь модель порассуждать, она не идет по жесткому алгоритму, а буквально гадает, какое слово поставить следующим, выбирая из списка вероятностей. Это называется стохастическим декодированием. Проблема в том, что даже при минимальных отклонениях в начале цепочки, итоговый вывод может улететь в космос. Исследование ReasonBENCH доказало: если модель один раз ответила правильно, это вообще не значит, что она «поняла» задачу — возможно, ей просто повезло в этой конкретной итерации.

Это как если бы ты нанял бухгалтера, который каждое утро подбрасывает монетку, чтобы решить, ставить ли минус в твоем балансе. В понедельник он говорит, что ты миллионер, а во вторник — что ты банкрот, хотя цифры в отчетах не менялись. Формально он работает, но толку от такого специалиста ноль, потому что его логика зависит от того, как сегодня легли карты. В LLM происходит то же самое: мелкие различия в путях рассуждения превращают «умную» модель в гадалку на кофейной гуще.

Авторы прогнали 11 популярных техник, включая Chain-of-Thought (CoT) и ReAct, через 5 топовых моделей по 10 раз на каждую задачу. Выяснилось, что стандартные замеры производительности — это полная фигня и пыль в глаза. Обычно модель тестируют один раз и радуются высокому баллу, но ReasonBENCH показал огромный разброс: одна и та же модель на одном и том же промпте может выдавать правильный ответ в 3 случаях из 10, а в остальных — нести чушь. Исследователи ввели понятие worst-case результатов, и там цифры выглядят просто жалко по сравнению с официальными бенчмарками.

Хотя тест проводили на сложных логических задачах, этот принцип нестабильности универсален. Он касается всего: от написания кода до юридических консультаций через AI. Если твоя система завязана на один прогон промпта, ты играешь в рулетку. Нестабильность рассуждений означает, что любой бизнес-процесс, построенный на «голой» LLM без многократных проверок, — это мина замедленного действия, которая рванет, как только сэмплирование выдаст неудачный токен.

Главный вывод: пора перестать верить красивым таблицам в статьях OpenAI или Google. Если хочешь надежности, нужно внедрять доверительные интервалы и прогонять промпты по несколько раз, выбирая среднее или самое частое решение. 10 запусков вместо одного — вот новый стандарт адекватности. Пока мы не победим этот хаос в логике, нейронки так и останутся талантливыми, но дико безответственными стажерами, за которыми нужно постоянно перепроверять каждый шаг.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с