3,583 papers
arXiv:2603.03512 72 3 мар. 2026 г. FREE

Bias оценщика: LLM систематически уходит в середину и смотрит на слова, не на суть

КЛЮЧЕВАЯ СУТЬ
LLM оценивает не глубину — она ищет слова-маркеры. Написано 'применить формулу' — ставит низкий уровень. Нет явного маркера — уходит в середину. Это работает правильно лишь в 62% случаев, и объяснение при этом всегда звучит убедительно. Метод трёх рычагов позволяет получать честные оценки по шкале вместо вечного 'удовлетворительно' на любой вопрос. Примеры-образцы 'растягивают' шкалу — модель видит крайние точки и перестаёт группировать всё в центр. Пошаговые рассуждения вскрывают логику задачи, а явный запрет дрейфить к середине убирает перестраховку. Три рычага работают независимо и суммируются в одном промпте.
Адаптировать под запрос

TL;DR

Когда просишь LLM оценить что-то по шкале — будь то сложность контента, качество текста или глубина идеи — модель систематически избегает крайних суждений. Вместо "отлично" или "слабо" она выдаёт "хорошо" или "удовлетворительно". Это не баг конкретной модели — это поведение почти всех LLM под неопределённостью. Называется central tendency bias — смещение к середине.

Причина двойная: во-первых, модель видит слова и маркеры на поверхности текста, а не глубинную логику или процессы. Написано "покажи работу" — значит процедурное задание, и всё. Во-вторых, когда критерии оценки тонкие и граница между категориями размыта, модель "перестраховывается" — выбирает безопасную середину, как человек на Likert-шкале ставит 3 вместо 1 или 5. При этом объяснение звучит убедительно и профессионально — что делает ошибку незаметной.

Исследование показало: провайди модели готовый фреймворк оценки, загрузи задание — и она угадает правильно только в 62% случаев. Три техники способны существенно поднять точность: примеры-образцы по каждой категории (few-shot), пошаговое рассуждение (chain-of-thought), и явный запрет дрейфа в середину.


📌

Схема явления и как с ним бороться

КАК РАБОТАЕТ БЕЗ ВМЕШАТЕЛЬСТВА:
Задача + рубрика → LLM смотрит на слова → выбирает среднюю категорию → 
объясняет убедительно → ты принимаешь неверный результат

ГДЕ ОШИБАЕТСЯ ЧАЩЕ ВСЕГО:
Крайние оценки (очень плохо / отлично) → модель сдвигает к середине
Длинные, многословные примеры → модель видит "процедурность" в тексте
Критерии про "отсутствие алгоритма" → модель не умеет замечать отсутствие

КАК ЛОМАТЬ ПАТТЕРН (три рычага, работают независимо):
Рычаг 1: Few-shot примеры → дай по 1 образцу на каждую категорию
Рычаг 2: Chain-of-Thought → заставь объяснять по шагам перед выводом
Рычаг 3: Явный запрет → "не избегай крайних категорий, если критерии им соответствуют"

Все три рычага работают в одном промпте.

🚀

Пример применения

Задача: Ты пишешь вакансию для найма Middle-разработчика. Хочешь, чтобы Claude оценил три тестовых задания — какое из них реально требует самостоятельного мышления, какое — просто воспроизведение известных паттернов.

Промпт (с рычагами против смещения):

Оцени три тестовых задания по уровню самостоятельности мышления.

Используй 4 уровня:
1. Воспроизведение — кандидат воспроизводит известный факт или команду
2. Применение процедуры — знакомый алгоритм, нужно выполнить шаги
3. Применение с пониманием — требует понять зачем, а не только как
4. Самостоятельное мышление — нет готового пути, нужно конструировать решение

Образцы для калибровки:
Уровень 1 — "Что такое git rebase?"
Уровень 2 — "Напиши SQL-запрос на группировку заказов по дате"
Уровень 3 — "Выбери структуру БД для хранения иерархии категорий, объясни плюсы"
Уровень 4 — "Придумай систему алертов для интернет-магазина, которая предсказывает
               аномалии, не зная заранее что считать аномалией"

ВАЖНО: не уходи к середине (уровню 2-3) если задание явно крайнее. 
Если задание тривиальное — ставь 1, выдающееся — ставь 4.

Для каждого задания:
— Шаг 1: Какие процессы мышления реально нужны?
— Шаг 2: Есть ли готовый алгоритм решения?
— Шаг 3: Итоговый уровень и почему

Задания:
[Задание А]
[Задание Б]
[Задание В]

Результат:

Модель пройдёт по каждому заданию в три шага — сначала опишет, какие процессы реально требуются, потом проверит наличие алгоритма, потом поставит оценку. Пример-образцы "растянут" шкалу: модель увидит крайние точки и перестанет группировать всё в середину. Явный запрет дрейфа уберёт перестраховку.


🧠

Почему это работает

Слабость LLM — у неё нет интуиции "достаточно глубоко или нет". Она читает текст. Если в задании написано "используй формулу" — это явный маркер процедурного действия. Если в задании нет такого маркера, но нет и алгоритма — модель этого отсутствия не замечает. Она ищет признаки, а не их отсутствие. Поэтому сложные задачи с открытым условием часто падают на один уровень ниже.

Сильная сторона LLM — она умеет сравнивать по аналогии. Если показать ей примеры каждой категории, она калибруется: "А, вот это — уровень 4, а вот это — уровень 2. Окей, моё задание ближе к первому". Few-shot примеры срабатывают именно потому, что дают точки опоры на шкале.

Рычаги управления: - Количество образцов → для простых оценок хватит одного на крайности, для тонкой шкалы дай образцы всех уровней - Chain-of-thought детализация → "3 шага" можно заменить на 5 или убрать вовсе — тогда получишь быстрый ответ без объяснений - Формулировка запрета → вместо "не уходи к середине" можно написать "распределение оценок должно быть равномерным, не концентрируй всё в 2-3" - Образцы → чем острее контраст между примерами, тем чище разделение категорий


📋

Шаблон промпта

Оцени {объект_оценки} по следующей шкале:

Уровень 1: {название} — {краткое определение}
Уровень 2: {название} — {краткое определение}
Уровень 3: {название} — {краткое определение}
Уровень 4: {название} — {краткое определение}

Образцы для калибровки:
Уровень 1 — {пример_1}
Уровень 2 — {пример_2}
Уровень 3 — {пример_3}
Уровень 4 — {пример_4}

ВАЖНО: не концентрируй оценки в середине. Если {объект_оценки} явно соответствует 
крайнему уровню — ставь крайний уровень.

Для каждого {объект_оценки}:
— Шаг 1: {что анализировать первым}
— Шаг 2: {что проверить}
— Шаг 3: итоговый уровень и обоснование

{список объектов для оценки}

Плейсхолдеры: - {объект_оценки} — что оцениваем: задание, текст, идею, питч, стратегию - {название} и {краткое определение} — твои уровни шкалы - {пример_N} — конкретный образец для каждого уровня (чем острее контраст — тем лучше) - {что анализировать} — критерии из твоей рубрики


🚀 Быстрый старт — вставь в чат:

Вот шаблон для оценки контента с защитой от смещения к середине. 
Адаптируй под мою задачу: [твоя задача — что нужно оценить и по какой шкале].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про твою шкалу и категории, попросит примеры или предложит свои — потому что без образцов-калибровщиков шаблон не даст эффекта. Дай ей хотя бы крайние примеры, остальное она подберёт сама.


⚠️

Ограничения

⚠️ Размытые критерии: Если границы между категориями шкалы тонкие и субъективные — few-shot и anti-bias инструкции помогут, но не устранят проблему полностью. Модель всё ещё смотрит на текстовые маркеры.

⚠️ "Убедительное враньё": LLM почти всегда генерирует правдоподобное обоснование — даже когда оценка неверная. Не принимай объяснение как подтверждение правильности оценки.

⚠️ DeepSeek — исключение: Из одиннадцати протестированных инструментов только DeepSeek показал относительно равномерное распределение оценок по категориям. Остальные модели — включая ChatGPT и Claude бесплатной версии — давали ярко выраженный центральный сдвиг.

⚠️ Отсутствие алгоритма невидимо: LLM плохо замечает, что у задачи нет готового пути решения. Лучше формулировать критерий через позитив: "решение требует конструирования нового подхода" — а не "нет алгоритма".


🔍

Как исследовали

Команда из Университета Питтсбурга взяла 12 математических заданий — по 3 на каждый из 4 уровней сложности по фреймворку Task Analysis Guide (TAG). Фреймворк широко используется в профессиональной подготовке учителей математики. Каждое задание вместе с полным описанием TAG загружалось в 11 разных AI-инструментов: шесть универсальных (ChatGPT, Claude, DeepSeek, Gemini, Grok, Perplexity) и пять образовательных (Brisk, Coteach, Khanmigo, Magic School, School.AI). Промпт был намеренно простым — "определи уровень сложности задания" — без каких-либо техник промптинга. Это принципиально: авторы хотели измерить реальную базовую точность, а не потолок возможностей.

Результат оказался показательным. Среднее 62% — это в 2,5 раза выше случайного угадывания (25%), но далеко от надёжности. Задания типа "Procedures without Connections" все модели разгадали со 100% точностью — они короткие, с явными маркерами вроде "используй перекрёстное произведение". А вот Task K (Doing Mathematics) правильно классифицировал только DeepSeek — 9% общей точности. Все остальные понизили его до "Procedures with Connections", потому что увидели понятную структуру задачи и проигнорировали требование самостоятельного построения уравнения.

Интересный сюрприз: образовательные инструменты не оказались лучше универсальных — 63% против 61%. Лидер — DeepSeek с 83%, аутсайдеры — ChatGPT и Claude с 50%. Это говорит о том, что проблема не в "настройке под образование", а в фундаментальном механизме работы с оценочными задачами.


💡

Адаптации и экстраполяции

📌

🔧 Принцип "острого контраста" в образцах

Исследование выявило: чем более очевидны маркеры категории (Task D: 18 слов, прямое "используй формулу"), тем точнее классификация. Применяй это сознательно: делай образцы для крайних категорий максимально контрастными.

Вместо:

Уровень 1 — простая задача
Уровень 4 — сложная задача

Пиши:

Уровень 1 — "Назови столицу Франции" [факт, воспроизведение, 0 шагов]
Уровень 4 — "Придумай систему оценки доверия к источникам, которой раньше 
             не существовало, и объясни её ограничения"

📌

🔧 Проверка на "центральный дрейф"

После оценки попроси модель саму проверить себя:

Посмотри на свои оценки выше. Не скучковались ли они в средних категориях? 
Если да — перепроверь крайние случаи: возможно, ты занизил высшую категорию 
или завысил низшую из-за перестраховки.

Это мета-запрос, который активирует самопроверку на тот самый bias, о котором говорит исследование.


🚀

🔧 Применение принципа за пределами образования

Исследование про математику, но механизм универсален. Вот где central tendency bias ударит по тебе в обычной работе:

Задача Что пойдёт не так Как исправить
Оценить силу питча/предложения Всё будет "неплохо" Образцы слабого и сильного питча
Приоритизировать задачи (срочность) Все задачи — "средняя" Явные критерии "блокера" и "можно подождать"
Оценить читаемость текста Все тексты "читаются нормально" Образцы плохого и отличного текста
Найти риски в договоре Риски будут "умеренными" Образцы критического и незначительного риска

🔗

Ресурсы

Название работы: Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks (2025, препринт)

Авторы: Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey, Christian D. Schunn — Learning Research and Development Center и Institute for Learning, University of Pittsburgh

Фреймворк: Task Analysis Guide (TAG) — Stein & Smith (1998), проект QUASAR

Продолжение: Fox et al. (in prep) — тестирование оптимизированных промптов с образцами и chain-of-thought на тех же задачах


📋 Дайджест исследования

Ключевая суть

LLM оценивает не глубину — она ищет слова-маркеры. Написано 'применить формулу' — ставит низкий уровень. Нет явного маркера — уходит в середину. Это работает правильно лишь в 62% случаев, и объяснение при этом всегда звучит убедительно. Метод трёх рычагов позволяет получать честные оценки по шкале вместо вечного 'удовлетворительно' на любой вопрос. Примеры-образцы 'растягивают' шкалу — модель видит крайние точки и перестаёт группировать всё в центр. Пошаговые рассуждения вскрывают логику задачи, а явный запрет дрейфить к середине убирает перестраховку. Три рычага работают независимо и суммируются в одном промпте.

Принцип работы

Стандартный подход: дать LLM шкалу и задание — получить ответ 'умеренно сложно'. С рычагами иначе. Не бросай модель один на один со шкалой — дай ей точки опоры. Рычаг 1 — примеры-образцы (few-shot): по одному примеру на каждый уровень. Модель начинает сравнивать, а не угадывать. Рычаг 2 — пошаговые рассуждения (chain-of-thought): сначала задай шаги анализа, потом — итоговый вывод. Модель не перескакивает сразу к оценке. Рычаг 3 — явный запрет дрейфа: напиши прямо 'не концентрируй оценки в середине, если задание явно крайнее — ставь крайний уровень'. Всё три рычага — в один промпт, без ущерба друг другу.

Почему работает

LLM ищет признаки присутствия, а не отсутствия. Задание требует 'придумать алгоритм с нуля, которого нет'? Модель не замечает отсутствие алгоритма — она видит обычный текст без явных маркеров и ставит средний балл. Ключевой инсайт: модель умеет сравнивать по аналогии — покажи ей полюса шкалы, и она перестаёт группировать всё в центр. Few-shot примеры работают именно так: дают точки опоры, между которыми модель находит позицию оцениваемого. Без них — у неё нет калибровки, и она страхуется серединой. Это поведение не баг одной модели — из одиннадцати протестированных только DeepSeek давал равномерное распределение. Остальные, включая ChatGPT и Claude, уходили в центр.

Когда применять

Оценка содержания, заданий, идей, питчей, текстов — любой ситуации, где нужно распределить объекты по шкале с несколькими уровнями. Особенно когда важно отличить 'действительно сильное' от 'просто нормального': найм, проверка домашних заданий, оценка гипотез, анализ конкурентов. НЕ подходит для: простых вопросов 'да или нет' — там своя история. И не спасёт, если критерии шкалы изначально размытые — рычаги помогут, но не сотворят чудо из нечёткого задания.

Мини-рецепт

1. Определи шкалу: 3–5 уровней с чёткими названиями и коротким определением каждого. Не 'низкий/средний/высокий' — а конкретика: что именно делает задание уровня 1, а что уровня 4.

2. Подбери образцы: хотя бы по одному примеру на крайние уровни, лучше — на каждый. Чем острее контраст между примерами, тем чище разделение. Пример уровня 1 должен быть явно тривиальным, уровня 4 — явно сложным.

3. Пропиши шаги анализа: перед итоговой оценкой заставь модель пройти по шагам — например, 'Шаг 1: какие процессы мышления нужны? Шаг 2: есть ли готовый алгоритм решения? Шаг 3: итоговый уровень.'

4. Добавь запрет дрейфа: явно напиши в промпте — 'не концентрируй оценки в середине. Если объект явно соответствует крайнему уровню — ставь крайний'. Можно усилить: 'распределение должно быть равномерным по уровням'.

5. Собери в один промпт: шкала → образцы → шаги → запрет дрейфа → список объектов для оценки.

Примеры

[ПЛОХО] : Оцени сложность этого задания по шкале от 1 до 4: 'Придумай систему мониторинга, которая сама определяет что считать аномалией' Модель скажет 'уровень 3, требует применения с пониманием' — убедительно, но занижено.
[ХОРОШО] : Оцени задание по шкале: Уровень 1 — воспроизведение: кандидат называет известный факт Уровень 2 — применение процедуры: выполняет знакомый алгоритм Уровень 3 — применение с пониманием: понимает зачем, а не только как Уровень 4 — самостоятельное мышление: нет готового пути, нужно конструировать решение Образцы: Уровень 1 — 'Что такое git rebase?' Уровень 4 — 'Придумай систему алертов, которая предсказывает аномалии, не зная заранее что считать аномалией' ВАЖНО: не уходи к середине. Если задание явно крайнее — ставь крайний уровень. Для каждого задания: — Шаг 1: Какие процессы мышления реально нужны? — Шаг 2: Есть ли готовый алгоритм решения? — Шаг 3: Итоговый уровень и почему Задание: 'Придумай систему мониторинга, которая сама определяет что считать аномалией' Модель пройдёт по шагам, увидит образец уровня 4 как точку сравнения — и поставит 4.
Источник: Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks
ArXiv ID: 2603.03512 | Сгенерировано: 2026-03-05 05:26

Проблемы LLM

ПроблемаСутьКак обойти
При оценке по шкале модель уходит в серединуПросишь оценить от 1 до 4. Получаешь сплошные 2 и 3. Крайние оценки модель избегает — "перестраховывается". При этом объяснение звучит убедительно. Ты принимаешь результат, не зная что он неверный. Работает для любой шкалы: сложность, качество, глубинаТри рычага в одном запросе: (1) добавь пример на каждую категорию шкалы; (2) попроси объяснять по шагам перед выводом; (3) явно напиши "не избегай крайних категорий, если критерии им соответствуют"
Модель не замечает отсутствие алгоритмаИщешь задачу без готового пути решения. Модель ищет маркеры в тексте: "используй формулу" — процедурное, "покажи работу" — процедурное. Маркеров сложности нет — значит "среднее". Задача с открытым условием падает на уровень ниже реальногоПереформулируй критерий через позитив. Не "нет алгоритма", а "решение требует конструирования нового подхода". Модель умеет искать признаки. Не умеет искать их отсутствие

Методы

МетодСуть
Три рычага против смещения к серединеРаботают независимо, но лучше вместе. Рычаг 1 — образцы-якоря. Дай по одному конкретному примеру на каждую категорию шкалы. Модель калибруется по аналогии: "вот это уровень 1, вот это уровень 4". Шкала растягивается. Рычаг 2 — пошаговые рассуждения. Попроси: "Шаг 1 — какие процессы нужны, Шаг 2 — есть ли готовый алгоритм, Шаг 3 — итоговая оценка". Модель не перепрыгивает к безопасной середине. Рычаг 3 — явный запрет дрейфа. Добавь в запрос: ВАЖНО: не концентрируй оценки в середине. Если объект явно соответствует крайнему уровню — ставь крайний уровень. Почему работает вместе: образцы дают точки опоры, шаги убирают спешку, запрет снимает перестраховку

Тезисы

ТезисКомментарий
Убедительное объяснение не значит верная оценкаМодель почти всегда генерирует правдоподобное обоснование — даже когда оценка неверная. Ошибка остаётся незамеченной именно потому что текст звучит профессионально. Это особенно опасно при оценке по шкале: оценка 2 вместо 4, объяснение на три абзаца. Применяй: не принимай объяснение как подтверждение правильности. Проверяй оценку отдельно от объяснения — попроси переоценить с другими образцами
📖 Простыми словами

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

arXiv: 2603.03512

Когда ты просишь нейронку оценить сложность задачи или качество текста по шкале от 1 до 5, она ведет себя как трусливый чиновник. Вместо того чтобы честно поставить «единицу» полному отстою или «пятерку» гениальному решению, модель аккуратно жмется к центру. Это фундаментальный косяк архитектуры: под любой неопределенностью LLM выбирает безопасный вариант «нормально». В итоге всё разнообразие смыслов схлопывается в серую массу средних значений, и этот central tendency bias превращает точный инструмент оценки в бесполезный генератор посредственности.

Это как если бы ты пришел на дегустацию элитных вин, а сомелье на каждый бокал говорил: «Ну, пить можно». Он боится ошибиться и показаться дилетантом, поэтому просто не рискует выносить крайние суждения. В итоге и дешевое пойло из пакета, и коллекционный винтаж получают одинаковый вердикт. Модель просто не берет на себя ответственность за радикальную оценку, потому что в ее обучающих данных «среднее» статистически встречается чаще всего.

В реальности это выглядит так: если ты дашь модели три тестовых задания для найма разработчика, она почти наверняка засунет их в одну корзину. Проблема в том, что нейронка ищет явные маркеры, а не их отсутствие. Если в задаче написано «используй этот алгоритм», она поймет, что это просто. Но если задача требует глубокого синтеза и в ней нет подсказок, модель этого вакуума просто не заметит. Она не видит «интеллектуальную пустоту» или «скрытую глубину» — она просто сканирует текст на наличие знакомых слов, и если их нет, она автоматически занижает сложность.

Этот принцип работает везде: от проверки школьных домашек по математике до оценки бизнес-стратегий. Тестировали это на сложных матзадачах, но эффект универсален для любого контента, где нужно вынести суждение. Если ты просишь AI отфильтровать лучшие идеи из сотни, он выкинет откровенный мусор, но в «топ» запихнет кучу проходного шлака, просто потому что тот выглядит прилично. LLM — плохой судья, когда речь идет о нюансах и крайностях, она всегда будет тянуть результат к посредственному среднему.

Короче, никогда не доверяй нейронке финальную оценку по шкале без жестких костылей. Если хочешь адекватный результат, не спрашивай «насколько это сложно», а заставляй модель обосновывать отсутствие признаков или сравнивать варианты парами. Без этого ты получишь отчет, где всё «ок», хотя на самом деле половина твоих задач — примитив, а вторая — нерешаемая херня. Смещение к центру — это встроенный предохранитель AI, который делает его предсказуемым, но абсолютно бесполезным в качестве экспертного фильтра.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с