3,583 papers
arXiv:2605.07647 70 8 мая 2026 г. FREE

Mid-Range Degradation: AI надёжно оценивает очевидное, но теряется в серой зоне

КЛЮЧЕВАЯ СУТЬ
Крайние случаи LLM оценивает уверенно — 'отлично' и 'ужасно' она видит без колебаний. Но всё что между ними: 'неплохо, но не убедительно', 'частично правильно', 'вроде бы да' — модель оценивает хаотично и ненадёжно. Метод аналитического рубрика позволяет получать стабильные оценки именно для серых случаев — без дообучения, прямо в промпте. Фишка: вместо одной шкалы оценка разбивается на 5–10 бинарных вопросов 'да/нет' — каждый критерий сам по себе уже не серая зона. Добавь 10+ примеров с покрытием середины шкалы — и точность на 'средних' работах резко растёт.
Адаптировать под запрос

TL;DR

Когда просишь LLM оценить что-то — текст, ответ, идею — она системно ошибается именно на средних по качеству работах. Явно отличное и явно плохое модель опознаёт уверенно. Но всё, что попадает в серую зону — "частично правильно", "неплохо, но не убедительно" — оценивается хаотично и ненадёжно.

Проблема в том, что у LLM нет хорошего ориентира для "средней" работы без достаточного числа примеров. Чёткие полюса — "идеально" и "совсем мимо" — у модели распознаются по контрасту. А серая зона требует тонкого понимания именно что делает ответ "почти правильным", а не "неправильным". Без достаточного числа размеченных примеров модель не может провести эту границу.

Два рычага, которые это исправляют: первый — количество примеров (10+ примеров существенно лучше, чем 2–4); второй — аналитический рубрик, где оценка разбита на отдельные бинарные критерии ("да/нет" по каждому пункту) вместо одной общей оценки. Вместе они сдвигают модель от угадывания к систематической работе.


🔬

Схема метода

Это не пошаговая техника, а принцип качественной оценки через LLM. Два уровня патча:

УРОВЕНЬ 1 — Аналитический рубрик
Вместо: "Оцени от 1 до 10"
Делай: Разбей критерии оценки на 5–10 бинарных вопросов
       Каждый вопрос → отдельный "да/нет" с пояснением
       Итоговый балл = сумма "да"

УРОВЕНЬ 2 — Примеры с покрытием серой зоны
Вместо: 1–2 примера или только полюса
Делай: 10+ примеров, равномерно по качеству
       Обязательно: 3–4 примера из серой зоны
       Формат: [текст] → [оценка по каждому критерию] → [итог]

Оба уровня в одном промпте.

🚀

Пример применения

Задача: Ты нанимаешь менеджера по продажам. В день приходит 30–50 откликов. Явно слабые и явно сильные видны сразу — а вот "средние" кандидаты выглядят одинаково и тяжело сравниваются. Просишь Claude разобрать отклики по рубрику.

Промпт:

Ты — опытный рекрутер on-demand. Твоя задача — оценить сопроводительное письмо 
кандидата на позицию менеджера по продажам.

Оценивай по 6 критериям. По каждому — только "да" (1) или "нет" (0) 
и одно предложение с пояснением:

1. Конкретные цифры результатов (выручка, конверсия, объём) — есть/нет
2. Понимание нашего продукта или рынка — есть/нет
3. Описан метод работы с клиентом, а не просто "умею продавать" — есть/нет
4. Мотивация к этой роли, а не к "продажам вообще" — есть/нет
5. Грамотность и структура письма — есть/нет
6. Упомянута конкретная ситуация-успех — есть/нет

Итог: сумма баллов, одна строка вывода.

---

Примеры оценок:

[Письмо 1 — сильный кандидат]
"В прошлом году закрыл 47 сделок в сегменте B2B SaaS, средний чек 280к руб. 
Вашу платформу знаю — тестировал конкурентов. Предпочитаю методологию 
SPIN при работе с enterprise."
→ 1: да (47 сделок, 280к) | 2: да (тестировал конкурентов) | 3: да (SPIN) | 
  4: да (enterprise-фокус совпадает) | 5: да | 6: да
→ Итог: 6/6 — приоритетный кандидат

[Письмо 2 — слабый кандидат]
"Я коммуникабельный, стрессоустойчивый и ориентирован на результат. 
Хочу развиваться в продажах."
→ 1: нет | 2: нет | 3: нет | 4: нет | 5: да (грамотно) | 6: нет
→ Итог: 1/6 — отказ

[Письмо 3 — средний кандидат]
"Работал в b2b два года, хорошие отношения с клиентами, умею закрывать сложные 
сделки. Ваша компания интересна мне своим подходом."
→ 1: нет (нет цифр) | 2: нет (общие слова) | 3: частично/нет (нет метода) | 
  4: нет (не конкретно) | 5: да | 6: нет
→ Итог: 1/6 — отказ, несмотря на 2 года опыта

---

Теперь оцени это письмо:

{вставь письмо кандидата}

Результат: Модель выдаст оценку построчно по каждому критерию — с кратким обоснованием и итоговым баллом. Ключевое: средний кандидат не "провалится" и не "пройдёт" из-за общего впечатления — он получит конкретный профиль слабых мест. Ты видишь не "6/10", а "нет цифр, нет метода, нет конкретики про компанию".


🧠

Почему это работает

LLM при оценке опирается на паттерн-матчинг — поиск соответствия между тем, что видит, и тем, что знает из примеров. Крайние случаи легко распознаются: "идеальный ответ" и "совсем мимо" хорошо представлены в обучающих данных модели. А вот "частично правильный" — нет. Модель буквально не знает, к какому полюсу его прислонить.

Аналитический рубрик обходит эту проблему. Вместо одного сложного суждения "насколько хорошо?" модель делает 6–10 простых суждений "есть это или нет?". Каждый бинарный вопрос — уже не серая зона, а чёткий полюс. Сложное суждение разбивается на простые.

Примеры из серой зоны делают рубрик живым. Без них модель знает критерии формально, но не понимает где граница применения. Показывая "средний кандидат → 1/6, вот почему", ты обучаешь модель прямо в промпте — без fine-tuning, одним контекстом.

Рычаги управления: - Число примеров — 2–4 достаточно для крайних случаев, 10+ нужно для серой зоны. Экономишь токены — добавь хотя бы 3 примера из середины. - Число критериев — 5–10 бинарных вопросов. Меньше 5 — слишком крупно, слишком много серой зоны внутри критерия. Больше 10 — модель начинает дублировать. - Формат примеров — показывай не только итоговый балл, но и оценку по каждому критерию. Это и есть "разметка серой зоны".


📋

Шаблон промпта

Ты — эксперт в {область оценки}. Оценивай {что оцениваем} по {число} критериям.

По каждому критерию — только "да" (1) или "нет" (0) и одно пояснение:

1. {Критерий 1 — конкретный, бинарный}
2. {Критерий 2 — конкретный, бинарный}
3. {Критерий 3 — конкретный, бинарный}
[добавь до 10 критериев]

Итог: сумма баллов + одна строка вывода.

---

Примеры:

[Пример 1 — сильный]
"{текст примера}"
→ 1: да/нет (пояснение) | 2: да/нет | 3: да/нет
→ Итог: X/{число} — {вывод}

[Пример 2 — слабый]
"{текст примера}"
→ 1: да/нет | 2: да/нет | 3: да/нет
→ Итог: X/{число} — {вывод}

[Пример 3 — средний, серая зона]
"{текст примера}"
→ 1: да/нет | 2: да/нет | 3: да/нет
→ Итог: X/{число} — {вывод, объясняющий почему средний балл = конкретный вывод}

[Добавь ещё 2–3 примера из серой зоны]

---

Теперь оцени:

{твой текст для оценки}

Что подставлять: - {область оценки} — рекрутинг, редактура, проверка идей, анализ текстов - {что оцениваем} — резюме, питч, рекламный текст, ответ клиента - {число критериев} — 5–10, бинарные и конкретные - {критерии} — формулируй через проверяемые факты, не через ощущения: "есть конкретная цифра" вместо "убедительно" - Примеры из серой зоны — самое важное, их должно быть 3–5


🚀 Быстрый старт — вставь в чат:

Вот шаблон оценки через аналитический рубрик с примерами. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про область оценки, что именно оцениваем и попросит примеры из твоей практики — потому что без конкретных примеров из серой зоны рубрик не сработает для нюансированных случаев.


⚠️

Ограничения

⚠️ Серая зона субъективных критериев: Если критерий нельзя сформулировать бинарно ("есть / нет"), метод теряет силу. "Текст читается легко" — не работает. "Средняя длина предложения до 15 слов" — работает.

⚠️ Нужны примеры из вашей реальности: Чужие примеры заменить нельзя. Если у тебя нет 10 размеченных примеров — хотя бы 3 из серой зоны напиши вручную, иначе рубрик будет ненадёжен именно там, где важен.

⚠️ Нестабильность у разных моделей: В оригинальном исследовании Claude показал "эрратичное поведение" — отличные результаты на одном наборе данных и худшие из всех на другом. Если критична стабильность — используй GPT-4o или тестируй обе модели на своём наборе примеров.

⚠️ Число примеров влияет нелинейно: 2–4 примера дают резкое падение качества на серой зоне. 6–10 — примерно одинаковы. Эффект "ещё больше = ещё лучше" затухает после 10.


🔗

Ресурсы

Название: Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation

Авторы: Abigail Victoria Gurin Schleifer, Moriah Ariely, Beata Beigman Klebanov, Asaf Salman, Giora Alexandron

Организации: Weizmann Institute of Science (Реховот, Израиль), ETS (Принстон, США)

Связанные работы: Ariely et al. (2025) — рубрик по биологии; Grévisse (2024) — оценка LLM в медицинских курсах; Kortemeyer (2023, 2024) — сравнение GPT-4 и BERT в физике


📋 Дайджест исследования

Ключевая суть

Крайние случаи LLM оценивает уверенно — 'отлично' и 'ужасно' она видит без колебаний. Но всё что между ними: 'неплохо, но не убедительно', 'частично правильно', 'вроде бы да' — модель оценивает хаотично и ненадёжно. Метод аналитического рубрика позволяет получать стабильные оценки именно для серых случаев — без дообучения, прямо в промпте. Фишка: вместо одной шкалы оценка разбивается на 5–10 бинарных вопросов 'да/нет' — каждый критерий сам по себе уже не серая зона. Добавь 10+ примеров с покрытием середины шкалы — и точность на 'средних' работах резко растёт.

Принцип работы

Модель ищет соответствие между тем что видит и тем что знала при обучении. 'Идеальный ответ' и 'полная чепуха' — знакомые паттерны, представлены хорошо. А вот 'частично правильно' — устойчивого паттерна нет. Модель буквально не знает к какому полюсу это прислонить. Аналитический рубрик разбивает одно сложное суждение на несколько простых. Вместо 'насколько это хорошо?' — шесть вопросов 'есть или нет'. Каждый вопрос сводится к распознаванию паттерна. Задача 'есть конкретная цифра результата или нет' — у модели всегда чёткий ответ. Задача 'насколько убедительно' — никогда. Примеры из серой зоны закрывают последнее слабое место. Без них модель знает критерии формально, но не понимает где граница. Показываешь 'средний кандидат → 1/6, вот почему' — и обучаешь модель прямо в контексте.

Почему работает

Это не случайный эффект — это системная черта всех LLM. Крайние случаи хорошо представлены в обучающих данных, серая зона — нет. Когда разбиваешь оценку на бинарные критерии, каждый вопрос становится задачей распознавания, а не суждения. Число примеров работает нелинейно: 2–4 хватает для полюсов, но серая зона проваливается. 6–10 — примерно одинаково. После 10 эффект затухает. Три примера из середины важнее пяти с полюсов — именно там модель не знает где граница. Важный нюанс из исследования: Claude показал нестабильное поведение между наборами данных — отличные результаты на одном, худшие из всех на другом. Если критична стабильность — тестируй на своём наборе примеров, не надейся на перенос.

Когда применять

Любая задача оценки текстов — рекрутинг (разбор откликов и сопроводительных писем), редактура и обратная связь (где 'неплохо, но не убедительно' встречается чаще всего), проверка идей и питчей, оценка студенческих или клиентских ответов. НЕ подходит: если критерий нельзя сформулировать бинарно. 'Текст читается легко' — не работает. 'Средняя длина предложения до 15 слов' — работает. Если все твои критерии субъективные — сначала переформулируй в проверяемые факты, иначе бинарный рубрик не поможет.

Мини-рецепт

1. Разбей оценку на критерии: 5–10 штук, каждый бинарный. Не 'убедительно', а 'есть конкретная цифра результата'. Не 'структурировано', а 'есть вступление, основная часть и вывод'. Критерий должен проверяться как факт, не как ощущение.

2. Собери примеры из своей практики: минимум 3 из серой зоны — те что 'вроде неплохо, но', по одному с каждого полюса. Для каждого покажи оценку по всем критериям, не только итоговый балл. Чужие шаблоны не заменят три реальных 'средних' случая из твоей задачи.

3. Собери промпт: роль эксперта + список критериев + примеры с детальной разметкой + задача. Итог = сумма 'да' + одна строка вывода.

4. Проверь на реальных данных: прогони 5–7 случаев разного качества. Если модель стабильно разделяет средних — рубрик работает. Если путает — добавь примеры именно там где ошибается.

Примеры

[ПЛОХО] : Оцени это резюме на позицию менеджера по продажам от 1 до 10
[ХОРОШО] : Ты — опытный рекрутер. Оцени сопроводительное письмо по 5 критериям. По каждому — только 'да' (1) или 'нет' (0) и одно предложение с пояснением: 1. Есть конкретные цифры результатов — выручка, конверсия, объём 2. Есть понимание нашего продукта или рынка 3. Описан метод работы с клиентом, а не просто 'умею продавать' 4. Мотивация к этой роли, не к 'продажам вообще' 5. Есть конкретная ситуация-успех Итог: сумма + одна строка вывода. Примеры: [Сильный] 'Закрыл 47 сделок в сегменте корпоративного программного обеспечения, средний чек 280к. Тестировал ваших конкурентов — знаю где вы выигрываете. Работаю по методологии SPIN.' → 1:да | 2:да | 3:да | 4:да | 5:да → 5/5 — приоритетный кандидат [Слабый] 'Я коммуникабельный и ориентирован на результат. Хочу развиваться в продажах.' → 1:нет | 2:нет | 3:нет | 4:нет | 5:нет → 0/5 — отказ [Средний] 'Два года в корпоративных продажах, хорошие отношения с клиентами, умею закрывать сложные сделки.' → 1:нет (нет цифр) | 2:нет (общие слова) | 3:нет (нет метода) | 4:нет (не конкретно) | 5:нет → 0/5 — отказ несмотря на два года опыта Теперь оцени: {вставь письмо кандидата}
Источник: Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation
ArXiv ID: 2605.07647 | Сгенерировано: 2026-05-11 05:35

Проблемы LLM

ПроблемаСутьКак обойти
Модель системно ошибается на работах среднего качестваПросишь оценить текст или ответ. Явно сильные и явно слабые случаи модель распознаёт уверенно. Но "частично правильно", "неплохо, но не убедительно" — оцениваются хаотично. Граница между "почти верно" и "почти неверно" для модели размыта. Это случается в любой задаче оценки: резюме, тексты, ответы клиентов, идеиРазбей оценку на 5–10 бинарных вопросов. Вместо "насколько хорошо?" — серия "есть это или нет?". Каждый да/нет — уже не серая зона, а чёткий полюс. Добавь 3–5 примеров именно из серой зоны с разбором по каждому критерию

Методы

МетодСуть
Аналитический рубрик — разбивка оценки на бинарные критерииВместо "оцени от 1 до 10" пиши список из 5–10 вопросов. Каждый — только "да" (1) или "нет" (0) плюс одно пояснение. Итоговый балл = сумма "да". 1. Есть конкретные цифры? да/нет 2. Указан метод работы? да/нет. Почему работает: Сложное суждение "насколько хорошо" разбивается на простые суждения "есть или нет". На уровне каждого критерия серой зоны почти нет. Когда применять: оценка текстов, кандидатов, идей, ответов — везде где нужна воспроизводимая оценка. Когда не работает: критерий нельзя сформулировать бинарно ("текст читается легко" — не работает, "предложения до 15 слов" — работает)
📖 Простыми словами

Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation

arXiv: 2605.07647

Когда ты просишь нейронку оценить чей-то текст или ответ, она ведет себя как бинарный судья: четко видит триумф и полный провал, но абсолютно теряется в «серой зоне». Фундаментальная механика тут в том, что LLM работают через паттерн-матчинг. В их «голове» есть четкие слепки идеала и мусора, которые они видели миллион раз при обучении. Но как только работа оказывается средней — вроде и по делу, но с косяками — модель начинает лажать и хаотично менять показания, потому что у нее нет внятного эталона для посредственности.

Это как если бы ты пришел на дегустацию вина, будучи полным дилетантом. Ты легко отличишь элитное шато от дешёвого пойла из пакета, но если тебе дадут пять бутылок из среднего ценового сегмента, ты начнешь тыкать пальцем в небо. Для тебя они все будут «ну, нормально», и твой вердикт будет зависеть скорее от настроения или этикетки, чем от реального вкуса. Формально оценку поставил, но объективности в ней ноль.

Чтобы починить этот провал в середине, исследователи предлагают два конкретных метода. Первый — специфическая адаптация, когда ты не просто даешь модели общую шкалу, а буквально разжевываешь критерии для каждого балла. Второй — качественная калибровка, где ты заставляешь модель сравнивать средние ответы не с идеалом, а друг с другом. Это работает, потому что рейтинг 3 из 5 для нейронки — пустой звук, пока ты не объяснишь, чем именно «тройка» отличается от «двойки» на конкретных примерах.

Хотя тест проводили на проверке школьных заданий, этот принцип универсален. Он применим везде, где есть субъективная оценка: отсеивание резюме, проверка тестовых заданий маркетологов или аудит звонков в отделе продаж. Везде, где человек говорит «ну, в целом неплохо», нейронка без дообучения начнет выдавать рандом. SEO-тексты, отзывы, фидбек клиентам — если твой контент попадает в эту серую зону, риск того, что AI-фильтр его выкинет просто по ошибке, огромен.

Короче, главная проблема автоматизации не в том, что AI глупый, а в том, что он не понимает нюансов посредственности. Если хочешь, чтобы модель оценивала адекватно, забудь про простые промпты «оцени от 1 до 10». Нужно либо давать жесткие рубрики с примерами, либо смириться с тем, что средний сегмент превратится в лотерею. 10 из 15 средних работ будут оценены неверно, если не внедрить адаптацию под задачу. Кто проигнорирует этот «средний провал», тот в итоге получит систему, которая случайным образом казнит нормальных кандидатов и милует бездельников.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с