3,583 papers
arXiv:2602.19467 71 23 фев. 2026 г. FREE

ContentBench: LLM как замена людям-аналитикам — что работает, что нет

КЛЮЧЕВАЯ СУТЬ
97-99% совпадение с оценками экспертов — и это не на идеальных текстах, а на реальных постах с сарказмом и иронией. ContentBench измерил: LLM заменяет команду людей-аналитиков при классификации текстов. Метод "кодбук + жюри" позволяет размечать тысячи текстов за минуты вместо дней командной работы. Фишка: без кодбука модель сама придумывает критерии — и каждый раз они немного другие. Дай чёткие определения с примерами — и модель применяет твои правила, а не угадывает что ты имел в виду.
Адаптировать под запрос

TL;DR

Современные недорогие языковые модели достигают 97–99% совпадения с экспертными метками при классификации текстов на чёткие категории. Это не теория — это измеренный факт на 1000 постов, размеченных тремя топ-моделями. Для пользователя это означает одно: если у вас есть массив текстов и чёткие категории — LLM заменяет команду людей-аналитиков.

Главная боль: когда просишь модель классифицировать текст "на глаз", непонятно насколько ей доверять. Граница между сарказмом и искренней похвалой, между жалобой и нейтральным вопросом — человек тоже путается. Размытые категории дают размытый результат: одна и та же фраза получает разные ярлыки в зависимости от формулировки запроса.

Исследование предлагает два принципа, которые работают в любом чате. Первый — жюри из нескольких моделей: спроси у трёх, доверяй только единогласному ответу. Второй — кодбук вместо размытого описания: чёткие определения каждой категории с примерами, встроенные прямо в промпт.


🔬

Схема метода

Всё это — один или два запроса в обычном чате:

ШАГ 1: Напишите кодбук → определения категорий + примеры для каждой
ШАГ 2 (один чат): Классифицируй тексты по кодбуку → список меток
ШАГ 3 (опционально, жюри): Повтори ШАГ 2 в Claude + Gemini → сравни результаты
ШАГ 4 (жюри): Оставь только единогласные метки → это надёжный результат

Шаги 2–3 можно делать параллельно в разных вкладках браузера. Жюри — это не автоматизация, это три вкладки с одним промптом.


🚀

Пример применения

Задача: Аналитик небольшого бренда одежды собрал 200 отзывов из Wildberries и ВКонтакте. Нужно понять: сколько реальной критики, сколько похвалы, сколько сарказма ("ну конечно, за 3000₽ ожидала шедевр").

Промпт (ШАГ 1 + 2):

Ты — аналитик отзывов. Классифицируй каждый отзыв по одной из пяти категорий.

КАТЕГОРИИ:
1. ИСКРЕННЯЯ ПОХВАЛА — позитивный отзыв без иронии. Покупатель доволен, рекомендует. Пример: "Отличное качество, буду заказывать ещё"
2. ИСКРЕННЯЯ КРИТИКА — серьёзные претензии к качеству, доставке, соответствию фото. Без иронии. Пример: "Швы разошлись после первой стирки"
3. САРКАСТИЧЕСКАЯ КРИТИКА — внешне позитивный текст, по смыслу — насмешка или претензия. Ирония очевидна из контекста. Пример: "О да, за 5000₽ я и не ожидала, что пуговицы будут держаться"
4. НЕЙТРАЛЬНЫЙ ВОПРОС — уточняющий вопрос без оценки. Пример: "Есть ли этот цвет в размере L?"
5. ПРОЦЕДУРНЫЙ КОММЕНТАРИЙ — отзыв про доставку, упаковку, возврат, не про товар. Пример: "Курьер приехал вовремя, коробка целая"

ПРАВИЛО: Если сомневаешься между двумя категориями — выбери ту, что точнее отражает главный посыл. Если не можешь определить — напиши НЕОПРЕДЕЛЕНО.

ФОРМАТ ОТВЕТА:
[Номер] | [Категория] | [1-2 слова обоснования]

ТЕКСТЫ ДЛЯ КЛАССИФИКАЦИИ:
[вставь список отзывов]

Результат:

Модель выдаст пронумерованный список с категорией и кратким обоснованием для каждого отзыва. Для жюри: скопируй тот же промпт в Claude и Gemini — сравни расхождения. Там, где три модели согласны, — доверяй результату. Там, где расхождение — читай вручную: это граничный случай.


🧠

Почему это работает

LLM плохо классифицирует без структуры — потому что при размытом запросе модель угадывает что вы имеете в виду. "Напиши тип отзыва" — и модель сама придумывает критерии. Каждый раз разные.

Но LLM хорошо следует явным правилам — если ты дал чёткие определения с примерами, модель работает как натренированный аналитик. Она применяет твои критерии, а не придумывает свои.

Жюри закрывает слабое место одной модели — разные модели делают разные ошибки. Там, где ChatGPT соглашается с поверхностно позитивным текстом, Claude замечает иронию. Единогласие трёх — почти гарантия правильного ответа на чётких случаях. Граничные случаи (где модели расходятся) — честный сигнал: здесь нужен человек.

Рычаги управления: - Число категорий → чем меньше, тем точнее. 3-4 категории надёжнее чем 8 - Примеры в кодбуке → добавь по 2-3 примера на категорию — точность вырастет - НЕОПРЕДЕЛЕНО как опция → без неё модель будет навязывать метку даже когда не уверена - Формат вывода → "| категория | обоснование" даёт прозрачность, легко проверить


📋

Шаблон промпта

Ты — аналитик {тип задачи}. Классифицируй каждый {тип текста} по одной из категорий.

КАТЕГОРИИ:
1. {НАЗВАНИЕ_1} — {чёткое определение}. Пример: "{пример текста}"
2. {НАЗВАНИЕ_2} — {чёткое определение}. Пример: "{пример текста}"
3. {НАЗВАНИЕ_3} — {чёткое определение}. Пример: "{пример текста}"
[добавь нужное количество]

ПРАВИЛО: Если сомневаешься — выбери категорию, которая точнее отражает главный смысл. Если невозможно определить — напиши НЕОПРЕДЕЛЕНО.

ФОРМАТ: [Номер] | [Категория] | [1-2 слова обоснования]

ТЕКСТЫ:
{список текстов с номерами}

Что подставлять: - {тип задачи} → "классификации отзывов", "анализа комментариев", "разбора обращений в поддержку" - {тип текста} → "отзыв", "комментарий", "сообщение" - {НАЗВАНИЕ} → конкретное название категории вашей задачи - Примеры — обязательно из вашего реального контента


🚀 Быстрый старт — вставь в чат:

Вот шаблон для классификации текстов. Адаптируй под мою задачу и помоги составить кодбук. 
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит про тип текстов и цель классификации — потому что без этого она не сможет предложить правильные категории и примеры. Потом она заполнит шаблон, ты поправишь определения под реальность — и у тебя готовый рабочий промпт.


⚠️

Ограничения

⚠️ Сарказм и ирония: Маленькие локальные модели почти полностью провальны — менее 5% правильных ответов на трудных случаях. Даже большие модели делают ошибки. Если сарказм важен для задачи — жюри обязательно, граничные случаи — вручную.

⚠️ Размытые категории: Если определения пересекаются или не содержат примеров — точность падает даже у топ-моделей. "Негативный" и "критичный" — это не разные категории пока вы не объяснили разницу.

⚠️ Граничные случаи — не для LLM: Метод надёжен на чётких примерах. Там где сами люди спорят — модели тоже будут расходиться. Жюри покажет где граница.

⚠️ Субъективные шкалы: "Оцени тональность от 1 до 10" — хуже, чем чёткие категории. Чем субъективнее критерий, тем ниже надёжность.


🔍

Как исследовали

Исследователь создал 1000 синтетических постов о научных статьях — специально в стиле реального интернета, но без юридических проблем с реальными данными. Посты делали две модели (GPT‑5 и Gemini 2.5 Pro), причём с хитрым заданием: "сделай текст, который обманет стандартный классификатор" — использовать ключевые слова не по смыслу, буквальную похвалу как прикрытие для критики.

Затем эти посты прогнали через жюри из трёх топ-моделей (GPT‑5, Gemini 2.5 Pro, Claude Opus 4.1) — в датасет попали только те, где все три модели ответили одинаково. 96.5% кандидатов прошли фильтр — это значит категории были достаточно чёткими.

После этого 59 дешёвых моделей проверяли насколько они совпадают с жюри. Лучшие достигли 97–99% — это уровень хорошего человека-аналитика. GPT‑3.5 (первый ChatGPT) оказался на порядок слабее. Особенно интересен результат на "жёстком сарказме": Llama 3.2 3B набрала всего 4% — то есть почти всегда ошибалась. Это не просто "хуже" — это систематический провал. При этом 50 000 постов топовые дешёвые модели могут разметить за несколько долларов.

Любопытно, что посты намеренно делались трудными для LLM, но жюри из трёх моделей всё равно сходилось почти всегда. Это само по себе инсайт: ансамбль моделей устойчив даже к специально созданным ловушкам.


💡

Адаптации и экстраполяции

🔧 Техника: Асимметричное жюри → экономия времени

Не обязательно три модели на каждый текст. Можно сначала классифицировать в одной модели, потом перепроверять только расхождения. Или: спрашивай у второй модели только тексты с пометкой НЕОПРЕДЕЛЕНО от первой.

Это НЕОПРЕДЕЛЁННЫЕ случаи из первичной классификации. 
Посмотри на каждый и либо назначь категорию из списка, 
либо подтверди НЕОПРЕДЕЛЕНО. Список категорий: [кодбук]

🔧 Техника: Жюри в одном чате через ролевую симуляцию

Если нет доступа к трём разным моделям — попроси одну сыграть нескольких экспертов:

Ты — три независимых эксперта: Марина (лингвист), Антон (маркетолог), Света (психолог). 
Каждый классифицирует текст независимо, потом они сравнивают мнения.
Если все трое согласны — выдай метку. Если нет — выдай СПОР и укажи разные мнения.

Кодбук: [категории]

Текст: {текст}

Это слабее настоящего жюри из трёх моделей — одна модель имитирует разные точки зрения, а не реально разные системы. Но для быстрой проверки отдельных сложных случаев работает.


🔗

Ресурсы

ContentBenchcontentbench.github.io (данные, документация, интерактивный квиз)

Автор: Michael Haman, Department of Humanities, Faculty of Economics and Management, Czech University of Life Sciences Prague (haman@pef.czu.cz)

Связанные работы: Gilardi et al. (2023) — ChatGPT vs. crowd workers; Törnberg (2025) — GPT-4 в политической аннотации; Ziems et al. (2024) — мета-обзор LLM как аннотаторов


📋 Дайджест исследования

Ключевая суть

97-99% совпадение с оценками экспертов — и это не на идеальных текстах, а на реальных постах с сарказмом и иронией. ContentBench измерил: LLM заменяет команду людей-аналитиков при классификации текстов. Метод "кодбук + жюри" позволяет размечать тысячи текстов за минуты вместо дней командной работы. Фишка: без кодбука модель сама придумывает критерии — и каждый раз они немного другие. Дай чёткие определения с примерами — и модель применяет твои правила, а не угадывает что ты имел в виду.

Принцип работы

Не пиши размытый запрос — пиши кодбук. Размытый запрос («классифицируй отзывы по тональности») — модель угадывает твои критерии. Кодбук («САРКАСТИЧЕСКАЯ КРИТИКА — внешне позитивный текст, по смыслу насмешка. Пример: «Ну конечно, за 5000₽ пуговицы и должны держаться»») — модель применяет твои правила. Это разница между аналитиком с инструкцией и аналитиком без неё. Жюри из трёх моделей — это буквально три вкладки в браузере с одним промптом. Где все три согласны — берёшь результат без вопросов. Где расходятся — читаешь сам: это граничный случай, где даже люди-эксперты спорят.

Почему работает

При размытом запросе модель держит критерии в голове — и каждый раз они чуть другие. Как аналитик без инструкции: оценивает по настроению. Кодбук с примерами убирает эту непредсказуемость — модель следует правилам, а не реконструирует их заново на каждом тексте. Маленькие локальные модели проваливаются ниже 5% на сарказме — потому что без чётких правил угадывают контекст по поверхностным сигналам. Топ-модели с кодбуком дают 97-99%. Разница не в размере модели — в качестве инструкции.

Когда применять

Анализ отзывов и комментариев — когда нужно размечать от 100 до 10 000 текстов по чётким категориям, особенно когда ручная разметка командой стоит дорого или времени нет. Хорошо работает для: тональности отзывов, типов обращений в службу поддержки, тематик публикаций, классификации комментариев в соцсетях. НЕ подходит для субъективных шкал («оцени от 1 до 10»), задач где сами эксперты не договариваются о критериях, и для маленьких локальных моделей на текстах с иронией — там жюри обязательно, граничные случаи читать вручную.

Мини-рецепт

1. Составь кодбук: для каждой категории — чёткое определение плюс 2-3 реальных примера из твоих текстов, не выдуманных
2. Добавь «НЕОПРЕДЕЛЕНО»: без этой опции модель будет навязывать метку даже когда не уверена — ты получишь ложную уверенность
3. Задай формат вывода: «[Номер] | [Категория] | [1-2 слова обоснования]» — так легко проверить любое решение
4. Для важных задач — жюри: открой три вкладки (ChatGPT, Claude, Gemini), вставь один и тот же промпт
5. Фильтруй результат: единогласный ответ трёх — берёшь. Расхождение — читаешь сам: модели честно показывают где граница

Примеры

[ПЛОХО] : Классифицируй отзывы по тональности: позитивные, негативные, нейтральные
[ХОРОШО] : Ты — аналитик отзывов. Классифицируй каждый отзыв по одной категории. КАТЕГОРИИ: 1. ИСКРЕННЯЯ ПОХВАЛА — позитивный отзыв без иронии. Пример: "Отличное качество, буду заказывать" 2. ИСКРЕННЯЯ КРИТИКА — серьёзная претензия к качеству или доставке. Пример: "Швы разошлись после первой стирки" 3. САРКАСТИЧЕСКАЯ КРИТИКА — внешне позитивный текст, по смыслу насмешка. Пример: "Ну конечно, за 3000₽ и ожидала шедевр" 4. НЕЙТРАЛЬНЫЙ ВОПРОС — уточнение без оценки. Пример: "Есть ли этот цвет в размере L?" 5. НЕОПРЕДЕЛЕНО — если невозможно отнести к категории. ПРАВИЛО: Если сомневаешься — выбери категорию, которая точнее отражает главный смысл. ФОРМАТ: [Номер] | [Категория] | [1-2 слова обоснования] ТЕКСТЫ: [вставь список]
Источник: Can Large Language Models Replace Human Coders? Introducing ContentBench
ArXiv ID: 2602.19467 | Сгенерировано: 2026-02-24 06:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель навязывает метку даже когда не уверенаДаёшь список категорий без запасного варианта. Модель обязана выбрать что-то. Выбирает — даже если текст не подходит ни под одну. Ты видишь уверенный ответ. Но это была вынужденная догадка. Проблема для любой задачи классификацииДобавь в список категорий явный вариант: "НЕОПРЕДЕЛЕНО — если текст не подходит ни под одну категорию". Модель перестаёт гадать. Ответ "НЕОПРЕДЕЛЕНО" — честный сигнал: смотри сам

Методы

МетодСуть
Жюри из нескольких моделей — встроенный контроль качестваОдин промпт — три вкладки: ChatGPT, Claude, Gemini. Каждая модель классифицирует один и тот же текст. Совпали все три — надёжный результат, доверяй. Расхождение — сигнал: этот случай граничный, смотри вручную. Почему работает: Каждая модель делает свои ошибки. Где все три ошиблись одинаково — крайне редко. Единогласие = высокая надёжность. Когда применять: Много текстов, нужна точность, есть хоть немного времени на граничные случаи. Когда не нужно: Задача простая, категории чёткие, цена ошибки низкая
📖 Простыми словами

CanLargeLanguageModelsReplace Human Coders? Introducing ContentBench

arXiv: 2602.19467

Суть в том, что эпоха дорогих отделов аналитики и ручной разметки данных закончилась. Современные LLM теперь классифицируют тексты не «примерно», а с точностью 97–99% по сравнению с живыми экспертами. Фундаментально это работает потому, что модели научились не просто искать ключевые слова, а считывать контекст и намерение. Если раньше программа спотыкалась на иронии, то сейчас нейронка понимает структуру языка на уровне носителя, превращая хаос из тысяч сообщений в четкую таблицу.

Это как если бы ты нанял тысячу стажеров-отличников, которые работают бесплатно, не спят и никогда не ошибаются от усталости. Формально они просто предсказывают следующее слово, но на деле они видят разницу между конструктивной критикой и обычным нытьем лучше, чем замотанный менеджер в конце рабочего дня. Ты просто даешь им четкие критерии, и они перемалывают тонны текста, пока ты пьешь кофе.

Главный секрет успеха здесь — структурированный промпт. Если ты просто скажешь «разбери отзывы», модель начнет галлюцинировать и придумывать категории на ходу. Но если внедрить четкие категории и дать пару примеров, магия срабатывает мгновенно. Исследование на 1000 постов доказало: три топовые модели выдают практически идентичный результат, который совпадает с мнением профи. Это уже не эксперименты, а готовый индустриальный стандарт.

Хотя тест проводили на классификации постов, принцип универсален. Эта штука одинаково эффективно работает для анализа отзывов на маркетплейсах, сортировки тикетов в техподдержке или фильтрации спама в комментариях. LLM заменяет команду аналитиков везде, где нужно быстро и дешево разложить массив данных по полочкам. Больше не нужно тратить недели на рутину — нейронка делает это за секунды, причем за копейки.

Короче: хватит мучить людей скучными задачами по разметке данных. Если у тебя есть массив текстов и понятные правила игры, отдавай это нейронке без раздумий. Риск ошибки минимален, а выгода в скорости — колоссальная. Кто продолжит размечать данные вручную, тот просто сжигает бюджет впустую, пока конкуренты получают инсайты в реальном времени.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с