TL;DR
Когда просишь LLM оценить что-то по шкале — будь то сложность контента, качество текста или глубина идеи — модель систематически избегает крайних суждений. Вместо "отлично" или "слабо" она выдаёт "хорошо" или "удовлетворительно". Это не баг конкретной модели — это поведение почти всех LLM под неопределённостью. Называется central tendency bias — смещение к середине.
Причина двойная: во-первых, модель видит слова и маркеры на поверхности текста, а не глубинную логику или процессы. Написано "покажи работу" — значит процедурное задание, и всё. Во-вторых, когда критерии оценки тонкие и граница между категориями размыта, модель "перестраховывается" — выбирает безопасную середину, как человек на Likert-шкале ставит 3 вместо 1 или 5. При этом объяснение звучит убедительно и профессионально — что делает ошибку незаметной.
Исследование показало: провайди модели готовый фреймворк оценки, загрузи задание — и она угадает правильно только в 62% случаев. Три техники способны существенно поднять точность: примеры-образцы по каждой категории (few-shot), пошаговое рассуждение (chain-of-thought), и явный запрет дрейфа в середину.
Схема явления и как с ним бороться
КАК РАБОТАЕТ БЕЗ ВМЕШАТЕЛЬСТВА:
Задача + рубрика → LLM смотрит на слова → выбирает среднюю категорию →
объясняет убедительно → ты принимаешь неверный результат
ГДЕ ОШИБАЕТСЯ ЧАЩЕ ВСЕГО:
Крайние оценки (очень плохо / отлично) → модель сдвигает к середине
Длинные, многословные примеры → модель видит "процедурность" в тексте
Критерии про "отсутствие алгоритма" → модель не умеет замечать отсутствие
КАК ЛОМАТЬ ПАТТЕРН (три рычага, работают независимо):
Рычаг 1: Few-shot примеры → дай по 1 образцу на каждую категорию
Рычаг 2: Chain-of-Thought → заставь объяснять по шагам перед выводом
Рычаг 3: Явный запрет → "не избегай крайних категорий, если критерии им соответствуют"
Все три рычага работают в одном промпте.
Пример применения
Задача: Ты пишешь вакансию для найма Middle-разработчика. Хочешь, чтобы Claude оценил три тестовых задания — какое из них реально требует самостоятельного мышления, какое — просто воспроизведение известных паттернов.
Промпт (с рычагами против смещения):
Оцени три тестовых задания по уровню самостоятельности мышления.
Используй 4 уровня:
1. Воспроизведение — кандидат воспроизводит известный факт или команду
2. Применение процедуры — знакомый алгоритм, нужно выполнить шаги
3. Применение с пониманием — требует понять зачем, а не только как
4. Самостоятельное мышление — нет готового пути, нужно конструировать решение
Образцы для калибровки:
Уровень 1 — "Что такое git rebase?"
Уровень 2 — "Напиши SQL-запрос на группировку заказов по дате"
Уровень 3 — "Выбери структуру БД для хранения иерархии категорий, объясни плюсы"
Уровень 4 — "Придумай систему алертов для интернет-магазина, которая предсказывает
аномалии, не зная заранее что считать аномалией"
ВАЖНО: не уходи к середине (уровню 2-3) если задание явно крайнее.
Если задание тривиальное — ставь 1, выдающееся — ставь 4.
Для каждого задания:
— Шаг 1: Какие процессы мышления реально нужны?
— Шаг 2: Есть ли готовый алгоритм решения?
— Шаг 3: Итоговый уровень и почему
Задания:
[Задание А]
[Задание Б]
[Задание В]
Результат:
Модель пройдёт по каждому заданию в три шага — сначала опишет, какие процессы реально требуются, потом проверит наличие алгоритма, потом поставит оценку. Пример-образцы "растянут" шкалу: модель увидит крайние точки и перестанет группировать всё в середину. Явный запрет дрейфа уберёт перестраховку.
Почему это работает
Слабость LLM — у неё нет интуиции "достаточно глубоко или нет". Она читает текст. Если в задании написано "используй формулу" — это явный маркер процедурного действия. Если в задании нет такого маркера, но нет и алгоритма — модель этого отсутствия не замечает. Она ищет признаки, а не их отсутствие. Поэтому сложные задачи с открытым условием часто падают на один уровень ниже.
Сильная сторона LLM — она умеет сравнивать по аналогии. Если показать ей примеры каждой категории, она калибруется: "А, вот это — уровень 4, а вот это — уровень 2. Окей, моё задание ближе к первому". Few-shot примеры срабатывают именно потому, что дают точки опоры на шкале.
Рычаги управления: - Количество образцов → для простых оценок хватит одного на крайности, для тонкой шкалы дай образцы всех уровней - Chain-of-thought детализация → "3 шага" можно заменить на 5 или убрать вовсе — тогда получишь быстрый ответ без объяснений - Формулировка запрета → вместо "не уходи к середине" можно написать "распределение оценок должно быть равномерным, не концентрируй всё в 2-3" - Образцы → чем острее контраст между примерами, тем чище разделение категорий
Шаблон промпта
Оцени {объект_оценки} по следующей шкале:
Уровень 1: {название} — {краткое определение}
Уровень 2: {название} — {краткое определение}
Уровень 3: {название} — {краткое определение}
Уровень 4: {название} — {краткое определение}
Образцы для калибровки:
Уровень 1 — {пример_1}
Уровень 2 — {пример_2}
Уровень 3 — {пример_3}
Уровень 4 — {пример_4}
ВАЖНО: не концентрируй оценки в середине. Если {объект_оценки} явно соответствует
крайнему уровню — ставь крайний уровень.
Для каждого {объект_оценки}:
— Шаг 1: {что анализировать первым}
— Шаг 2: {что проверить}
— Шаг 3: итоговый уровень и обоснование
{список объектов для оценки}
Плейсхолдеры:
- {объект_оценки} — что оцениваем: задание, текст, идею, питч, стратегию
- {название} и {краткое определение} — твои уровни шкалы
- {пример_N} — конкретный образец для каждого уровня (чем острее контраст — тем лучше)
- {что анализировать} — критерии из твоей рубрики
🚀 Быстрый старт — вставь в чат:
Вот шаблон для оценки контента с защитой от смещения к середине.
Адаптируй под мою задачу: [твоя задача — что нужно оценить и по какой шкале].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про твою шкалу и категории, попросит примеры или предложит свои — потому что без образцов-калибровщиков шаблон не даст эффекта. Дай ей хотя бы крайние примеры, остальное она подберёт сама.
Ограничения
⚠️ Размытые критерии: Если границы между категориями шкалы тонкие и субъективные — few-shot и anti-bias инструкции помогут, но не устранят проблему полностью. Модель всё ещё смотрит на текстовые маркеры.
⚠️ "Убедительное враньё": LLM почти всегда генерирует правдоподобное обоснование — даже когда оценка неверная. Не принимай объяснение как подтверждение правильности оценки.
⚠️ DeepSeek — исключение: Из одиннадцати протестированных инструментов только DeepSeek показал относительно равномерное распределение оценок по категориям. Остальные модели — включая ChatGPT и Claude бесплатной версии — давали ярко выраженный центральный сдвиг.
⚠️ Отсутствие алгоритма невидимо: LLM плохо замечает, что у задачи нет готового пути решения. Лучше формулировать критерий через позитив: "решение требует конструирования нового подхода" — а не "нет алгоритма".
Как исследовали
Команда из Университета Питтсбурга взяла 12 математических заданий — по 3 на каждый из 4 уровней сложности по фреймворку Task Analysis Guide (TAG). Фреймворк широко используется в профессиональной подготовке учителей математики. Каждое задание вместе с полным описанием TAG загружалось в 11 разных AI-инструментов: шесть универсальных (ChatGPT, Claude, DeepSeek, Gemini, Grok, Perplexity) и пять образовательных (Brisk, Coteach, Khanmigo, Magic School, School.AI). Промпт был намеренно простым — "определи уровень сложности задания" — без каких-либо техник промптинга. Это принципиально: авторы хотели измерить реальную базовую точность, а не потолок возможностей.
Результат оказался показательным. Среднее 62% — это в 2,5 раза выше случайного угадывания (25%), но далеко от надёжности. Задания типа "Procedures without Connections" все модели разгадали со 100% точностью — они короткие, с явными маркерами вроде "используй перекрёстное произведение". А вот Task K (Doing Mathematics) правильно классифицировал только DeepSeek — 9% общей точности. Все остальные понизили его до "Procedures with Connections", потому что увидели понятную структуру задачи и проигнорировали требование самостоятельного построения уравнения.
Интересный сюрприз: образовательные инструменты не оказались лучше универсальных — 63% против 61%. Лидер — DeepSeek с 83%, аутсайдеры — ChatGPT и Claude с 50%. Это говорит о том, что проблема не в "настройке под образование", а в фундаментальном механизме работы с оценочными задачами.
Адаптации и экстраполяции
🔧 Принцип "острого контраста" в образцах
Исследование выявило: чем более очевидны маркеры категории (Task D: 18 слов, прямое "используй формулу"), тем точнее классификация. Применяй это сознательно: делай образцы для крайних категорий максимально контрастными.
Вместо:
Уровень 1 — простая задача
Уровень 4 — сложная задача
Пиши:
Уровень 1 — "Назови столицу Франции" [факт, воспроизведение, 0 шагов]
Уровень 4 — "Придумай систему оценки доверия к источникам, которой раньше
не существовало, и объясни её ограничения"
🔧 Проверка на "центральный дрейф"
После оценки попроси модель саму проверить себя:
Посмотри на свои оценки выше. Не скучковались ли они в средних категориях?
Если да — перепроверь крайние случаи: возможно, ты занизил высшую категорию
или завысил низшую из-за перестраховки.
Это мета-запрос, который активирует самопроверку на тот самый bias, о котором говорит исследование.
🔧 Применение принципа за пределами образования
Исследование про математику, но механизм универсален. Вот где central tendency bias ударит по тебе в обычной работе:
| Задача | Что пойдёт не так | Как исправить |
|---|---|---|
| Оценить силу питча/предложения | Всё будет "неплохо" | Образцы слабого и сильного питча |
| Приоритизировать задачи (срочность) | Все задачи — "средняя" | Явные критерии "блокера" и "можно подождать" |
| Оценить читаемость текста | Все тексты "читаются нормально" | Образцы плохого и отличного текста |
| Найти риски в договоре | Риски будут "умеренными" | Образцы критического и незначительного риска |
Ресурсы
Название работы: Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks (2025, препринт)
Авторы: Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey, Christian D. Schunn — Learning Research and Development Center и Institute for Learning, University of Pittsburgh
Фреймворк: Task Analysis Guide (TAG) — Stein & Smith (1998), проект QUASAR
Продолжение: Fox et al. (in prep) — тестирование оптимизированных промптов с образцами и chain-of-thought на тех же задачах
