TL;DR
ReasonBENCH — первое масштабное исследование нестабильности LLM: как сильно меняются ответы при повторных запусках одного промпта. Исследователи прогнали 11 техник рассуждения (CoT, ToT, React и др.) и 5 моделей по 7 задачам — каждую комбинацию 10 раз, а не один как обычно. Собрали цифры разброса, доверительные интервалы, worst-case результаты.
Главная находка: LLM катастрофически нестабильны. Один промпт на одной задаче выдаёт правильный ответ в 60% запусков, неправильный в 40%. Два метода с одинаковой средней точностью (скажем, 75%) могут иметь разброс результатов в 4 раза шире у одного. Сложные техники (Graph of Thoughts, Tree of Thoughts) часто нестабильнее простого Chain-of-Thought. Дорогие модели не обязательно стабильнее: Qwen3-235B в 20 раз дороже Llama 4, но variance в 2 раза выше. Для критичных задач важен не средний результат, а нижняя граница доверительного интервала — и она может быть на 20-30% ниже среднего.
Суть исследования: Вместо одного запуска и отчёта "точность 85%" исследователи делали 10 запусков и говорили "точность 85±8%, худший результат 68%, лучший 94%". Обнаружили: мы годами оценивали LLM по искажённым метрикам, игнорируя variance. Практический вывод: на важных задачах делай 3-5 запусков, смотри на худший результат, не на первый.
Схема подхода
Это исследование, не техника — схемы как таковой нет. Вот что делали:
Для каждой комбинации [модель + метод + задача]:
→ 10 независимых запусков (не 1, как в 99% исследований)
→ Считают среднее, доверительный интервал, MAD, CV
→ Отдельно считают cost (токены, деньги, время) с variance
Результат:
→ Не "точность 85%"
→ А "точность 85±7%, 10-й перцентиль = 72%, 90-й = 93%, variance = 0.38"
Ключевые находки
1. Нестабильность — норма, не исключение
На одном и том же вопросе про Мухаммеда Али разные модели и методы выдают противоречащие выводы при идентичных промптах. Variance настолько высок, что confidence interval часто в 4 раза шире у формально похожих методов.
2. Сложность ≠ стабильность
Простой Chain-of-Thought может иметь CV (coefficient of variation) = 0.38, а Graph of Thoughts (сложнейшая техника с графами) — CV = 0.58. Больше шагов → больше точек ветвления → выше разброс.
3. Цена ≠ надёжность
DeepSeek R1 (самая дорогая) показала CV = 0.29 Llama 4 Maverick (в 65 раз дешевле) — CV = 0.38 Qwen3-235B (дорогая) — CV = 0.77 (худшая)
Переплата не гарантирует стабильность.
4. Средняя точность скрывает проблемы
Два метода с точностью 75% могут иметь: - Метод А: 70-80% (стабильно) - Метод Б: 50-95% (лотерея)
В production важен worst-case, не average. А его редко публикуют.
5. Масштаб модели помогает
GPT-4.1-mini стабильнее GPT-4.1-nano при любой технике рассуждений. Большие модели не только точнее, но и предсказуемее.
Применение для работы
Задача: Ты готовишь важное решение — свернуть проект или дать ему ещё квартал. Спрашиваешь у LLM анализ финансовой модели стартапа с метриками: burn rate ₽800к/мес, runway 4 месяца, прирост MRR +15%/мес.
Что делать НЕПРАВИЛЬНО:
[копируешь метрики в ChatGPT]
Стоит ли продолжать или закрывать?
→ Получаешь ответ "рекомендую продолжить" → принял решение.
Проблема: В следующем запуске тот же промпт мог бы дать "рекомендую закрыть". Ты принял решение на сотни тысяч рублей по одному сэмплу из распределения.
Что делать ПРАВИЛЬНО (протокол multiple runs):
- Прогони 3-5 раз (скопируй промпт → New Chat → вставь → Enter)
- Собери все ответы
- Попроси агрегировать:
Я прогнал один промпт 5 раз, вот ответы:
Run 1: [ответ]
Run 2: [ответ]
Run 3: [ответ]
Run 4: [ответ]
Run 5: [ответ]
Задача:
1. Покажи консенсус: по каким пунктам все ответы согласны
2. Покажи разброс: где мнения разошлись
3. Дай worst-case и best-case оценки
4. Итоговая рекомендация с указанием уровня уверенности
Результат: Ты увидишь: - Если 5/5 говорят "продолжать" → высокая уверенность - Если 3/5 "продолжать", 2/5 "закрывать" → низкая уверенность, копай глубже - Worst-case сценарий (что если модель права в пессимистичном run?) - Какие факторы стабильны (все заметили), какие — артефакт одного запуска
Почему это работает
Слабость LLM: Модель работает со стохастическим декодированием — на каждом токене она сэмплирует из распределения вероятностей. Temperature > 0 → разные выборы → разные цепочки рассуждений → разные выводы. Даже при temperature = 0 в сложных задачах путей рассуждения так много, что мелкие различия в формулировках (которые модель воспринимает по-разному при повторных runs) могут вести к противоположным выводам.
Сильная сторона LLM: Модель хорошо агрегирует противоречащие данные, если их показать явно. Она видит паттерны в разбросе, может оценить уверенность, выделить консенсус.
Как метод использует это: Вместо того чтобы слепо доверять одному сэмплу (который может быть outlier), ты собираешь несколько сэмплов вручную, потом просишь модель же проанализировать их разброс. Модель становится инструментом для оценки собственной нестабильности. Второй запрос (агрегация) — детерминистический анализ, там variance низкий.
Рычаги управления: - Число runs (3-5-10): Для быстрой проверки — 3. Для критичного решения — 5-10. Больше → точнее оценка variance, но дольше. - Temperature: Нельзя убрать variance через temperature=0 в сложных задачах (пути всё равно ветвятся). Но можешь попробовать temperature=0 для стабильности vs temperature=0.7 для креатива — и сравнить разброс. - Критерий консенсуса: "Все 5 согласны" vs "минимум 4 из 5" — под свой risk tolerance.
Шаблон промпта
Шаг 1: Многократный запуск (делаешь вручную)
Открой 3-5 отдельных чатов (New Chat в ChatGPT/Claude), в каждом один и тот же промпт:
{твой_вопрос_или_задача}
[Контекст, данные, условия]
{что_хочешь_получить}
Собери все ответы.
Шаг 2: Агрегация и анализ разброса
Скопируй в новый чат:
Я прогнал один промпт {N} раз, чтобы проверить стабильность ответа. Вот результаты:
**Run 1:**
{ответ_1}
**Run 2:**
{ответ_2}
**Run 3:**
{ответ_3}
[Run 4, 5... если есть]
---
Задачи:
1. **Консенсус:** По каким пунктам ВСЕ запуски согласны? Это стабильные находки.
2. **Разброс:** Где мнения разошлись? Какие факторы упоминались в одних runs, но не в других?
3. **Worst-case vs Best-case:** Какой run наиболее пессимистичен? Какой наиболее оптимистичен? В чём они расходятся?
4. **Уровень уверенности:** Если бы ты оценивал, насколько стабильно LLM отвечает на этот вопрос — высокая уверенность (все runs похожи) или низкая (сильный разброс)?
5. **Итоговая рекомендация:** С учётом разброса, дай финальный ответ + укажи риски если worst-case окажется прав.
Что подставлять:
- {N} — сколько раз прогнал (3, 5, 10)
- {ответ_1}, {ответ_2} и т.д. — полные ответы из разных чатов
- Если ответы длинные — можно скопировать только ключевые части (выводы, рекомендации)
Ограничения
⚠️ Время на критичные задачи: 3-5 запусков займут в 3-5 раз больше времени. Протокол имеет смысл только для важных решений (инвестиции, карьера, публикации, юридические выводы). Для "напиши пост в Telegram" — overkill.
⚠️ Не для творческих задач: Variance в креативе — это фича, не баг. Для "придумай 10 идей" разброс желателен. Протокол работает там где есть объективно правильное решение или критичная ставка.
⚠️ API-стоимость растёт линейно: 5 запусков = 5× токенов. Для сложных промптов с большим контекстом может стать дорого. Но для критичных решений — оправданно.
⚠️ Простые задачи стабильнее: "Столица Франции" даст одинаковый ответ 10/10 раз. Протокол нужен для многошаговых рассуждений, планирования, оценок с субъективными критериями — там variance высокий.
Как исследовали
Исследователи взяли 11 известных техник рассуждений (Chain-of-Thought, Tree of Thoughts, ReAct, Graph of Thoughts и др.) и 5 современных моделей (DeepSeek R1, Llama 4, GPT, Qwen, Gemini). Прогнали каждую комбинацию модель+техника на 7 типах задач (математика, код, вопрос-ответ, планирование) — но не один раз как обычно, а по 10 независимых запусков.
Ключ в том что каждый run полностью независим: новый чат, новый seed, заново от начала. Это не "регенерируй ответ" в одном диалоге (где контекст влияет), а именно 10 чистых стартов.
Что измеряли: - Среднюю точность (как обычно) - Confidence interval (±X% от среднего) - Coefficient of variation CV (variance / mean — чем ниже, тем стабильнее) - Median Absolute Deviation MAD (насколько типичный результат отклоняется от медианы) - Перцентили (10-й перцентиль = worst-case из 10 runs, 90-й = best-case) - Cost variance (разброс токенов и денег — некоторые runs жрут в 3 раза больше токенов)
Удивительные находки:
Graph of Thoughts — нестабильнее простого CoT, хотя в теории сложнее и "умнее". CV = 0.58 vs 0.38. Больше шагов → больше ветвлений → экспоненциальный рост путей.
Qwen3-235B дороже Llama 4 в 20 раз, но variance в 2 раза выше. Цена модели не коррелирует со стабильностью.
FoA (эволюционный метод) — самый стабильный: CV = 0.05 (лучший), MAD = 1.3 (лучший). Потому что усредняет по популяции решений внутри одного запуска — variance "съедается" механикой метода.
Больше модель → стабильнее: GPT-4.1-mini стабильнее GPT-4.1-nano на всех техниках. Масштаб снижает variance, не только повышает точность.
Логика выводов:
Если бы variance был низкий, 10 runs давали бы почти одинаковые результаты → один run = репрезентативно. Вместо этого они увидели что разброс часто сопоставим со средним значением. Это значит традиционные бенчмарки (1 run) дают случайный сэмпл из широкого распределения — и выводы "метод А лучше метода Б на 2%" могут быть артефактом luck, а не реального превосходства.
Их инсайт для практики: нестабильность — не баг одной модели, а системное свойство LLM с temperature > 0. Единственный способ оценить надёжность — мерить не только accuracy, но и variance. Для пользователя это значит: на важных задачах делай несколько runs.
Адаптации и экстраполяции
🔧 Техника: Быстрая оценка стабильности — 3 runs вместо 10
Для кого: Когда нет времени на 10 запусков, но нужна базовая проверка.
Вместо 10 runs делай 3:
Run 1: temperature 0.7 (стандарт)
Run 2: temperature 0.7 (повтор)
Run 3: temperature 0 (детерминированный baseline)
Если Run 1 и Run 2 сильно расходятся → variance высокий, копай глубже
Если Run 3 (temp=0) отличается от обоих → задача амбивалентная
Если все три близки → можно доверять одному ответу
Экономия: 70% времени относительно 10 runs, но базовое понимание разброса есть.
🔧 Техника: Self-consistency через явный разброс
Исследование показало что CoT-SC (Self-Consistency) стабильнее обычного CoT, потому что генерирует несколько рассуждений и голосует. Но ты можешь сделать это явно и контролируемо:
Ответь на вопрос 3 раза, каждый раз с независимым рассуждением:
**Вопрос:** {вопрос}
**Ответ 1 (рассуждай с акцентом на риски):**
[жди ответ]
**Ответ 2 (рассуждай с акцентом на возможности):**
[жди ответ]
**Ответ 3 (рассуждай строго по данным, без предположений):**
[жди ответ]
Теперь сравни три ответа:
- Где они согласны? (консенсус)
- Где расходятся? (источники разброса)
- Какой подход кажется наиболее обоснованным?
- Финальный ответ с учётом всех трёх.
Эффект: Вместо слепого voting (как в оригинальном SC) ты видишь почему разброс возник и можешь оценить какой reasoning path надёжнее.
🔧 Техника: Worst-case planning для критичных решений
Исследование показало что 10-й перцентиль может быть на 20-30% хуже среднего. Используй это для risk management:
Задача: {важное решение — инвестиция, увольнение, запуск продукта}
Дай три оценки:
1. **Base case** (наиболее вероятный сценарий)
2. **Best case** (если всё пойдёт лучше ожиданий)
3. **Worst case** (10-й перцентиль — что если модель ошибается в пессимистичную сторону)
Для каждого сценария:
- Вероятность (субъективная оценка)
- Ключевые риски
- Действия если этот сценарий реализуется
Итог: могу ли я пережить worst case? Если да — решение устойчивое.
Логика: Если среднее говорит "прибыль", а worst-case "банкротство" — нужен запас прочности, а не расчёт на среднее.
Ресурсы
ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning — Nearchos Potamitis, Lars Klein, Akhil Arora (Aarhus University, EPFL). Статья на 25 страниц со всеми цифрами variance, код и датасеты: github.com/au-clan/ReasonBench
Связанные работы из исследования: - Chain-of-Thought Prompting (Wei et al., 2022) - Self-Consistency (Wang et al., 2023) - Tree of Thoughts (Yao et al., 2023) - Graph of Thoughts (Besta et al., 2024) - Frame of All (Klein et al., 2025)
