3,583 papers
arXiv:2606.24381 70 23 июня 2026 г. FREE

Стабильность рейтинга промптов: почему «лучший промпт» меняется при каждом тесте

КЛЮЧЕВАЯ СУТЬ
Парадокс: промпт стабильно держится в тройке лучших — и при этом занимает первое место случайно. В 40-60% случаев «победитель» одного теста проигрывает на следующем наборе задач. Метод стабильно-ориентированного выбора позволяет найти промпт, который надёжно хорош — а не тот, кто однажды выстрелил. Фишка: ищи не максимум, а минимальный разброс — итоговый балл = среднее минус штраф за непостоянство. Промпт, стабильно дающий 4 из 5, бьёт того, кто раз выдал 5 и дважды — 2.
Адаптировать под запрос

TL;DR

«Лучший промпт» — понятие нестабильное. Одни и те же промпты тестировались на разных выборках вопросов из одного бенчмарка: при каждом тесте победитель менялся. В 40–60% случаев промпт, занявший первое место на одном наборе примеров, уступал другому на следующем наборе. То есть тест-победитель может быть просто удачей, а не реальным преимуществом.

Главная ловушка: высокая общая согласованность рейтинга не защищает от нестабильности на первом месте. Промпты A, B, C могут стабильно занимать места 1–3 в общем зачёте, но конкретно первое место каждый раз у разного. Это значит — если ты выбираешь «лучший по одному тесту», ты выбираешь случайного победителя среди примерно равных вариантов. Причина: LLM ведёт себя по-разному на разных примерах одного типа, особенно для задач с цепочкой рассуждений.

Решение — стабильно-ориентированный выбор: оценивать каждый промпт несколько раз на разных примерах, а победителем считать не того, у кого максимальный средний балл, а того, у кого высокий средний балл при низком разбросе. Формула выбора: средний балл минус штраф за непостоянство. Промпт, который раз блеснул — хуже промпта, который стабильно хорош.


🔬

Схема метода

ШАГ 1: Подготовка кандидатов
  → Составь 3–5 вариантов промпта для одной задачи (разная формулировка, 
    разная структура инструкции)

ШАГ 2: Множественный тест (в одном чате или разных)
  → Прогони КАЖДЫЙ промпт на 5–10 разных, но однотипных примерах
  → Для каждого результата выставь оценку 1–5

ШАГ 3: Подсчёт стабильности
  → Для каждого промпта: средний балл + разброс (насколько оценки отличаются)
  → Итоговый рейтинг = средний балл - штраф за разброс

ШАГ 4: Выбор победителя
  → Победитель = промпт с лучшим соотношением среднее/разброс
  → Не тот, кто один раз выдал 5/5, а тот, кто держит 4/5 стабильно

Все шаги — вручную или с помощью LLM как судьи (один чат).

🚀

Пример применения

Задача: Ты ведёшь Telegram-канал об инвестициях. Хочешь найти лучший промпт для написания постов в стиле «разбор компании за 5 минут». Протестировал два варианта на одной теме — Сбербанк — и промпт А выиграл. Но правильно ли ты сравнил?

Промпт:

Я сравниваю несколько вариантов промпта для написания постов в Telegram-канале 
об инвестициях. Помоги провести честный тест.

Вот 3 варианта промпта:

[Вариант А]: {текст промпта А}
[Вариант Б]: {текст промпта Б}  
[Вариант В]: {текст промпта В}

Вот 5 тестовых задач (разные компании для разбора):
1. {компания 1 — например, Сбербанк}
2. {компания 2 — например, Яндекс}
3. {компания 3 — например, Ozon}
4. {компания 4 — например, Лукойл}
5. {компания 5 — например, ВкусВилл}

Для каждого варианта промпта примени его к каждой из 5 задач. 
Оцени результат по шкале 1–5 (5 = отлично: структурно, полезно, в нужном стиле).

Затем для каждого варианта:
- Подсчитай средний балл
- Подсчитай разброс (насколько оценки отличаются между задачами)
- Вычисли итоговый балл = средний балл - (разброс × 0.5)

Выведи таблицу и скажи, какой вариант промпта выбрать.

Результат: Модель последовательно применит каждый из трёх вариантов к пяти компаниям и выставит оценки. Ты увидишь таблицу: средний балл, разброс и итоговый рейтинг для каждого варианта. Часто окажется, что промпт, который «выиграл» на Сбербанке, провалится на ВкусВилле — и в итоге победит более скромный, но стабильный вариант.


🧠

Почему это работает

Слабость LLM: Модель не обрабатывает все задачи одинаково. На одних примерах структура промпта совпадает с её «привычным» паттерном, на других — нет. Результат одного и того же промпта может быть блестящим для Сбербанка и посредственным для ВкусВилла — не потому что промпт плохой, а потому что один тест — это слишком мало данных.

Сильная сторона LLM: Модель хорошо справляется с ролью судьи и аналитика. Она может прогнать несколько промптов на нескольких примерах, выставить оценки и посчитать итог — всё в одном чате. То есть LLM помогает тебе провести тот самый многократный тест, который убирает случайность.

Как метод использует это: Вместо одного теста — матрица: несколько промптов × несколько примеров. Победитель выбирается не по пику, а по среднее минус штраф за нестабильность. Промпт, который один раз блеснул на 5/5, но потом дал 2/5 и 3/5 — хуже промпта, который стабильно держит 4/5.

Рычаги управления: - Количество тестовых задач → 3 задачи — минимум для сигнала, 10+ — надёжный результат - Коэффициент штрафа (0.5 в примере) → увеличь до 1.0, если тебе важна стабильность, уменьши до 0.2, если задача критичная и нужен максимальный пик один раз - Критерий оценки → замени «структурно и полезно» на свой критерий качества под задачу


📋

Шаблон промпта

Я сравниваю {число} вариантов промпта для задачи: {описание задачи}.

Варианты промптов:
[Вариант 1]: {текст}
[Вариант 2]: {текст}
[Вариант 3]: {текст}

Тестовые примеры:
1. {пример 1}
2. {пример 2}
3. {пример 3}
4. {пример 4}
5. {пример 5}

Для каждого варианта промпта последовательно примени его к каждому из {число_примеров} тестовых примеров.

Критерий оценки: {что считается хорошим результатом}
Оценочная шкала: 1 (плохо) — 5 (отлично)

После всех тестов:
— Рассчитай средний балл каждого варианта
— Рассчитай разброс оценок (макс минус мин)
— Итоговый балл = средний балл - (разброс × {штраф: 0.3–1.0})

Выведи итоговую таблицу и финальную рекомендацию.

Что подставлять: - {описание задачи} — например: «написание постов для Telegram», «ответы на жалобы клиентов» - {пример 1–5} — разные, но однотипные входные данные: разные компании, разные жалобы, разные темы постов - {что считается хорошим результатом} — твой критерий: «структурно, по делу, в нужном тоне» - {штраф: 0.3–1.0} — 0.3 если нужен пик, 1.0 если нужна стабильность


🚀 Быстрый старт — вставь в чат:

Вот шаблон для стабильного сравнения промптов. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит какие у тебя варианты промптов и какие тестовые примеры использовать — потому что без этого нельзя построить матрицу сравнения. Она возьмёт структуру теста и применит к твоим данным.


⚠️

Ограничения

⚠️ Равные промпты: Метод работает только когда промпты приблизительно одинаково хороши. Если один вариант явно плохой — даже единственный тест это покажет. Стабильный выбор нужен при выборе среди сильных кандидатов.

⚠️ Трудоёмкость: Тест 3 промптов × 5 примеров = 15 результатов для оценки. Это занимает время. Для разовой задачи может быть излишним — метод оправдан когда промпт будет использоваться систематически (регулярные посты, шаблоны для команды, онбординг-скрипты).

⚠️ Задачи с объективным ответом vs субъективные: Исследование проверялось на задачах с однозначным правильным ответом (математика, тесты). Для субъективных задач (тон текста, творчество) оценочная шкала требует чёткого критерия — иначе «дисперсия» оценок будет отражать непоследовательность судьи, а не промпта.

⚠️ LCB слабее на стабильных задачах: Если задача простая и все промпты работают одинаково хорошо, штраф за дисперсию может привести к выбору чуть менее сильного, но «скромного» варианта. На практике — небольшая цена за надёжность.


🔍

Как исследовали

Идея была простой: взять 20 вариантов промпта для одной задачи, запустить их не один раз, а многократно — на разных случайных выборках примеров из бенчмарка. Команда проверила три открытых модели (Mistral, Phi, Qwen весом ~7B) на двух задачах: математические задачи в несколько шагов (GSM8K) и тесты по разным дисциплинам (MMLU). Каждая серия тестов — это 50, 100 или 200 случайных вопросов, и так 5–10 раз с разными «случайными семенами» (разные выборки вопросов из одного и того же набора данных).

Результат удивил: общая корреляция рейтингов была умеренно высокой — то есть сильные промпты оставались в верхней части, слабые в нижней. Но конкретно первое место менялось в 40–60% случаев в зависимости от выборки. На математике нестабильность была выше — задачи с цепочкой шагов сильнее зависят от конкретных примеров. На MMLU стабильность чуть лучше, но и там первое место прыгало.

Ключевой инсайт авторов: «стабильная корреляция» и «стабильный победитель» — разные вещи. Можно видеть красивые цифры общего согласия между тестами и всё равно каждый раз выбирать другой промпт. Когда ввели LCB-стратегию (выбор с поправкой на дисперсию), она выиграла или сыграла вничью на большинстве задач — особенно сильно на маленьких выборках: разница доходила до +37% по точности (0.312 против 0.228 для Qwen на 50 примерах).


💡

Адаптации и экстраполяции

🔧 Техника: использовать LLM как «жюри с памятью» → отслеживать нестабильность в реальном времени

Если ты замечаешь, что ответы на похожие задачи получаются разного качества — это сигнал нестабильного промпта. Попроси LLM самому отследить:

Ты будешь несколько раз применять этот промпт и потом оценишь, насколько 
результаты были похожи по качеству.

Промпт для теста: {твой промпт}

Применяй его к этим 5 примерам по очереди, после каждого выставляй оценку 1-5. 
В конце скажи: "Разброс высокий" (оценки сильно отличались) или 
"Разброс низкий" (результаты стабильны). 

Примеры: {список примеров}

🔧 Техника: «Стресс-тест» нового промпта перед использованием

Прежде чем брать промпт в работу — прогони его на «неудобных» примерах:

Перед тем как я начну использовать этот промпт регулярно, проверь его на 
5 нестандартных или «граничных» примерах в рамках задачи {тип задачи}.

Промпт: {текст промпта}

Придумай 5 примеров, где он может «споткнуться»: нетипичный ввод, 
пограничный случай, неожиданный контекст. Примени промпт к каждому, 
оцени результат и скажи — держится ли промпт или разваливается.

🔗

Ресурсы

  • Статья: On the Stability of Prompt Ranking in Large Language Model Evaluation
  • GitHub: https://github.com/shaoshuaidu/prompt_stability
  • Авторы: Shaoshuai Du (University of Amsterdam), Penghao Liang (Northeastern University), Yixian Shen (University of Amsterdam), Chuanqi Shi, Hang Zhang (UC San Diego), Lun Wang (Duke University)

📋 Дайджест исследования

Ключевая суть

Парадокс: промпт стабильно держится в тройке лучших — и при этом занимает первое место случайно. В 40-60% случаев «победитель» одного теста проигрывает на следующем наборе задач. Метод стабильно-ориентированного выбора позволяет найти промпт, который надёжно хорош — а не тот, кто однажды выстрелил. Фишка: ищи не максимум, а минимальный разброс — итоговый балл = среднее минус штраф за непостоянство. Промпт, стабильно дающий 4 из 5, бьёт того, кто раз выдал 5 и дважды — 2.

Принцип работы

Обычный подход: тест на одном примере → победитель → готово. Проблема: LLM обрабатывает разные примеры одного типа по-разному. Один промпт попадает в паттерн модели на задаче про Сбербанк. Но плывёт на задаче про ВкусВилл. Один тест — это не выбор лучшего, это лотерея среди примерно равных. Правильный подход: матрица «несколько промптов × несколько примеров». Победитель выбирается по формуле средний балл минус штраф за разброс.

Почему работает

LLM не обрабатывает все задачи с одинаковым качеством. На одних примерах структура промпта совпадает с привычным паттерном модели, на других — нет. Результат: тот же промпт даёт 5 из 5 на одном примере и 2 из 5 на следующем. Это не плохой промпт — просто один тест слишком мало данных. Штраф за разброс фильтрует промпты-однодневки: хороший промпт работает не когда звёзды сошлись, а когда задача типичная и ничего особенного.

Когда применять

Систематическое использование → для промптов, которые будут работать раз за разом: регулярные посты, шаблоны для команды, скрипты для клиентских ответов. Особенно когда несколько вариантов кажутся примерно одинаково хорошими и непонятно какой выбрать. НЕ подходит для разовой задачи — трудоёмко ради одного результата. И бессмысленно когда один вариант явно слабее: там одного теста хватит.

Мини-рецепт

1. Подготовь кандидатов: 3-5 вариантов промпта с разной формулировкой или структурой инструкции
2. Выбери 5 тестовых примеров: разные, но однотипные входные данные — разные компании, темы, кейсы одного типа
3. Прогони матрицу: попроси LLM применить каждый вариант к каждому примеру и выставить оценку 1-5
4. Задай критерий: скажи модели что считается хорошим результатом — например: <критерий>структурно, по делу, в нужном тоне
5. Считай итог: средний балл минус (разброс × 0.5). Увеличь коэффициент до 1.0 если нужна максимальная стабильность, снизь до 0.2 если задача разовая и нужен пик

Примеры

[ПЛОХО] : Какой промпт лучше для разбора компании: [вариант А] или [вариант Б]? Проверь на Сбербанке.
[ХОРОШО] : Протестируй 3 варианта промпта на 5 компаниях: Сбербанк, Яндекс, Ozon, Лукойл, ВкусВилл. Для каждой компании применяй все 3 варианта и оценивай результат от 1 до 5 (5 = структурно, по делу, в нужном тоне). После всех тестов: посчитай средний балл и разброс (макс минус мин) для каждого варианта, итог = средний - (разброс × 0.5). Выведи таблицу и скажи победителя.
Источник: On the Stability of Prompt Ranking in Large Language Model Evaluation
ArXiv ID: 2606.24381 | Сгенерировано: 2026-06-28 21:23

Проблемы LLM

ПроблемаСутьКак обойти
Один тест промпта выбирает случайного победителяТестируешь два промпта на одном примере — получаешь победителя. Но в 40–60% случаев при следующем тесте победитель другой. Модель по-разному обрабатывает разные примеры одного типа. Один тест — слишком мало данных. Особенно остро для задач с цепочкой рассужденийПрогони каждый промпт на 5+ разных примерах одного типа. Победитель — не тот, кто дал максимум один раз. Победитель — тот, у кого высокий средний балл при низком разбросе

Методы

МетодСуть
Матрица сравнения промптов — выбор по стабильностиСоставь 3–5 вариантов промпта. Прогони каждый на 5–10 однотипных примерах. Оцени каждый результат по шкале 1–5. Итоговый балл = средний балл (разброс × коэффициент штрафа). Пример: итог = среднее - (макс_оценка - мин_оценка) × 0.5. Победитель — лучший итоговый балл. Почему работает: Без штрафа можно выбрать промпт, который один раз блеснул на 5/5, но потом даёт 2/5. Штраф за разброс делает стабильный промпт предпочтительнее нестабильного. Коэффициент штрафа: 0.3 — если нужен максимальный пик раз в задаче. 1.0 — если промпт используется регулярно и нужна надёжность. Когда применять: промпт будет использоваться многократно — шаблоны, посты, ответы клиентам. Когда не нужен: промпты явно разного качества — это и без матрицы видно

Тезисы

ТезисКомментарий
Общая стабильность рейтинга не защищает от смены лидераПромпты A, B, C могут стабильно держаться в тройке от теста к тесту. Но конкретно первое место каждый раз у разного. Это значит: выбрал лучшего по одному тесту — выбрал случайного из примерно равных. Применяй: не выбирай промпт по одному тесту, даже если общий порядок "кажется стабильным". Нужна матрица
📖 Простыми словами

On the Stability ofPromptRanking inLargeLanguageModelEvaluation

arXiv: 2606.24381

Поиск «идеального промпта» — это миф и статистическая ловушка. Фундаментальная проблема в том, что LLM крайне нестабильны: они реагируют не только на смысл твоих слов, но и на случайные паттерны в данных. Исследование 2606.24381 доказывает, что если один промпт победил другой на пачке тестов, это еще не значит, что он лучше. Скорее всего, ему просто повезло совпасть с конкретными примерами, на которых его проверяли.

Это как выбирать лучшего футболиста по одному удару по воротам. Один попал, другой промахнулся — значит ли это, что первый круче? Нет, это значит, что в данную секунду ветер дул в нужную сторону. В мире нейросетей происходит то же самое: в 40–60% случаев лидер рейтинга меняется, стоит только дать ему другой набор вопросов из той же самой темы. Победитель сегодня — это просто статистическая флуктуация, а не гениальный инженерный ход.

Авторы проверили кучу методов ранжирования и выяснили, что стабильность промпт-рейтингов стремится к нулю. Ты можешь добавить в инструкцию фразу "думай шаг за шагом" или "будь профессионалом", увидеть прирост качества на пяти примерах и решить, что нашел золотую жилу. Но на следующих пяти примерах этот же промпт может с треском провалиться. Это не «магия нейросетей», а обычный оверфиттинг на коленке, когда мы принимаем случайный шум за системный результат.

Принцип универсален: он касается и выбора лучшей модели, и настройки сложных агентов, и даже обычного написания постов для канала. Если ты протестировал промпт на разборе Сбербанка и он выдал базу, это не значит, что он так же круто разберет ВкусВилл. Один тест — это не данные, это просто мнение нейросети в конкретный четверг. Без большой выборки и кросс-валидации любые замеры качества промптов — это гадание на кофейной гуще.

Короче: хватит верить в «магические слова», которые якобы улучшают результат раз и навсегда. Большинство рейтингов промптов в интернете — полная фигня, потому что они не учитывают дисперсию. Если хочешь реально рабочий инструмент, тестируй его на сотнях разных примеров, а не на паре удачных кейсов. Иначе ты просто строишь замок из песка, который развалится при первом же изменении входных данных.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с