TL;DR
Современные недорогие языковые модели достигают 97–99% совпадения с экспертными метками при классификации текстов на чёткие категории. Это не теория — это измеренный факт на 1000 постов, размеченных тремя топ-моделями. Для пользователя это означает одно: если у вас есть массив текстов и чёткие категории — LLM заменяет команду людей-аналитиков.
Главная боль: когда просишь модель классифицировать текст "на глаз", непонятно насколько ей доверять. Граница между сарказмом и искренней похвалой, между жалобой и нейтральным вопросом — человек тоже путается. Размытые категории дают размытый результат: одна и та же фраза получает разные ярлыки в зависимости от формулировки запроса.
Исследование предлагает два принципа, которые работают в любом чате. Первый — жюри из нескольких моделей: спроси у трёх, доверяй только единогласному ответу. Второй — кодбук вместо размытого описания: чёткие определения каждой категории с примерами, встроенные прямо в промпт.
Схема метода
Всё это — один или два запроса в обычном чате:
ШАГ 1: Напишите кодбук → определения категорий + примеры для каждой
ШАГ 2 (один чат): Классифицируй тексты по кодбуку → список меток
ШАГ 3 (опционально, жюри): Повтори ШАГ 2 в Claude + Gemini → сравни результаты
ШАГ 4 (жюри): Оставь только единогласные метки → это надёжный результат
Шаги 2–3 можно делать параллельно в разных вкладках браузера. Жюри — это не автоматизация, это три вкладки с одним промптом.
Пример применения
Задача: Аналитик небольшого бренда одежды собрал 200 отзывов из Wildberries и ВКонтакте. Нужно понять: сколько реальной критики, сколько похвалы, сколько сарказма ("ну конечно, за 3000₽ ожидала шедевр").
Промпт (ШАГ 1 + 2):
Ты — аналитик отзывов. Классифицируй каждый отзыв по одной из пяти категорий.
КАТЕГОРИИ:
1. ИСКРЕННЯЯ ПОХВАЛА — позитивный отзыв без иронии. Покупатель доволен, рекомендует. Пример: "Отличное качество, буду заказывать ещё"
2. ИСКРЕННЯЯ КРИТИКА — серьёзные претензии к качеству, доставке, соответствию фото. Без иронии. Пример: "Швы разошлись после первой стирки"
3. САРКАСТИЧЕСКАЯ КРИТИКА — внешне позитивный текст, по смыслу — насмешка или претензия. Ирония очевидна из контекста. Пример: "О да, за 5000₽ я и не ожидала, что пуговицы будут держаться"
4. НЕЙТРАЛЬНЫЙ ВОПРОС — уточняющий вопрос без оценки. Пример: "Есть ли этот цвет в размере L?"
5. ПРОЦЕДУРНЫЙ КОММЕНТАРИЙ — отзыв про доставку, упаковку, возврат, не про товар. Пример: "Курьер приехал вовремя, коробка целая"
ПРАВИЛО: Если сомневаешься между двумя категориями — выбери ту, что точнее отражает главный посыл. Если не можешь определить — напиши НЕОПРЕДЕЛЕНО.
ФОРМАТ ОТВЕТА:
[Номер] | [Категория] | [1-2 слова обоснования]
ТЕКСТЫ ДЛЯ КЛАССИФИКАЦИИ:
[вставь список отзывов]
Результат:
Модель выдаст пронумерованный список с категорией и кратким обоснованием для каждого отзыва. Для жюри: скопируй тот же промпт в Claude и Gemini — сравни расхождения. Там, где три модели согласны, — доверяй результату. Там, где расхождение — читай вручную: это граничный случай.
Почему это работает
LLM плохо классифицирует без структуры — потому что при размытом запросе модель угадывает что вы имеете в виду. "Напиши тип отзыва" — и модель сама придумывает критерии. Каждый раз разные.
Но LLM хорошо следует явным правилам — если ты дал чёткие определения с примерами, модель работает как натренированный аналитик. Она применяет твои критерии, а не придумывает свои.
Жюри закрывает слабое место одной модели — разные модели делают разные ошибки. Там, где ChatGPT соглашается с поверхностно позитивным текстом, Claude замечает иронию. Единогласие трёх — почти гарантия правильного ответа на чётких случаях. Граничные случаи (где модели расходятся) — честный сигнал: здесь нужен человек.
Рычаги управления: - Число категорий → чем меньше, тем точнее. 3-4 категории надёжнее чем 8 - Примеры в кодбуке → добавь по 2-3 примера на категорию — точность вырастет - НЕОПРЕДЕЛЕНО как опция → без неё модель будет навязывать метку даже когда не уверена - Формат вывода → "| категория | обоснование" даёт прозрачность, легко проверить
Шаблон промпта
Ты — аналитик {тип задачи}. Классифицируй каждый {тип текста} по одной из категорий.
КАТЕГОРИИ:
1. {НАЗВАНИЕ_1} — {чёткое определение}. Пример: "{пример текста}"
2. {НАЗВАНИЕ_2} — {чёткое определение}. Пример: "{пример текста}"
3. {НАЗВАНИЕ_3} — {чёткое определение}. Пример: "{пример текста}"
[добавь нужное количество]
ПРАВИЛО: Если сомневаешься — выбери категорию, которая точнее отражает главный смысл. Если невозможно определить — напиши НЕОПРЕДЕЛЕНО.
ФОРМАТ: [Номер] | [Категория] | [1-2 слова обоснования]
ТЕКСТЫ:
{список текстов с номерами}
Что подставлять:
- {тип задачи} → "классификации отзывов", "анализа комментариев", "разбора обращений в поддержку"
- {тип текста} → "отзыв", "комментарий", "сообщение"
- {НАЗВАНИЕ} → конкретное название категории вашей задачи
- Примеры — обязательно из вашего реального контента
🚀 Быстрый старт — вставь в чат:
Вот шаблон для классификации текстов. Адаптируй под мою задачу и помоги составить кодбук.
Задавай вопросы, чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит про тип текстов и цель классификации — потому что без этого она не сможет предложить правильные категории и примеры. Потом она заполнит шаблон, ты поправишь определения под реальность — и у тебя готовый рабочий промпт.
Ограничения
⚠️ Сарказм и ирония: Маленькие локальные модели почти полностью провальны — менее 5% правильных ответов на трудных случаях. Даже большие модели делают ошибки. Если сарказм важен для задачи — жюри обязательно, граничные случаи — вручную.
⚠️ Размытые категории: Если определения пересекаются или не содержат примеров — точность падает даже у топ-моделей. "Негативный" и "критичный" — это не разные категории пока вы не объяснили разницу.
⚠️ Граничные случаи — не для LLM: Метод надёжен на чётких примерах. Там где сами люди спорят — модели тоже будут расходиться. Жюри покажет где граница.
⚠️ Субъективные шкалы: "Оцени тональность от 1 до 10" — хуже, чем чёткие категории. Чем субъективнее критерий, тем ниже надёжность.
Как исследовали
Исследователь создал 1000 синтетических постов о научных статьях — специально в стиле реального интернета, но без юридических проблем с реальными данными. Посты делали две модели (GPT‑5 и Gemini 2.5 Pro), причём с хитрым заданием: "сделай текст, который обманет стандартный классификатор" — использовать ключевые слова не по смыслу, буквальную похвалу как прикрытие для критики.
Затем эти посты прогнали через жюри из трёх топ-моделей (GPT‑5, Gemini 2.5 Pro, Claude Opus 4.1) — в датасет попали только те, где все три модели ответили одинаково. 96.5% кандидатов прошли фильтр — это значит категории были достаточно чёткими.
После этого 59 дешёвых моделей проверяли насколько они совпадают с жюри. Лучшие достигли 97–99% — это уровень хорошего человека-аналитика. GPT‑3.5 (первый ChatGPT) оказался на порядок слабее. Особенно интересен результат на "жёстком сарказме": Llama 3.2 3B набрала всего 4% — то есть почти всегда ошибалась. Это не просто "хуже" — это систематический провал. При этом 50 000 постов топовые дешёвые модели могут разметить за несколько долларов.
Любопытно, что посты намеренно делались трудными для LLM, но жюри из трёх моделей всё равно сходилось почти всегда. Это само по себе инсайт: ансамбль моделей устойчив даже к специально созданным ловушкам.
Адаптации и экстраполяции
🔧 Техника: Асимметричное жюри → экономия времени
Не обязательно три модели на каждый текст. Можно сначала классифицировать в одной модели, потом перепроверять только расхождения. Или: спрашивай у второй модели только тексты с пометкой НЕОПРЕДЕЛЕНО от первой.
Это НЕОПРЕДЕЛЁННЫЕ случаи из первичной классификации.
Посмотри на каждый и либо назначь категорию из списка,
либо подтверди НЕОПРЕДЕЛЕНО. Список категорий: [кодбук]
🔧 Техника: Жюри в одном чате через ролевую симуляцию
Если нет доступа к трём разным моделям — попроси одну сыграть нескольких экспертов:
Ты — три независимых эксперта: Марина (лингвист), Антон (маркетолог), Света (психолог).
Каждый классифицирует текст независимо, потом они сравнивают мнения.
Если все трое согласны — выдай метку. Если нет — выдай СПОР и укажи разные мнения.
Кодбук: [категории]
Текст: {текст}
Это слабее настоящего жюри из трёх моделей — одна модель имитирует разные точки зрения, а не реально разные системы. Но для быстрой проверки отдельных сложных случаев работает.
Ресурсы
ContentBench — contentbench.github.io (данные, документация, интерактивный квиз)
Автор: Michael Haman, Department of Humanities, Faculty of Economics and Management, Czech University of Life Sciences Prague (haman@pef.czu.cz)
Связанные работы: Gilardi et al. (2023) — ChatGPT vs. crowd workers; Törnberg (2025) — GPT-4 в политической аннотации; Ziems et al. (2024) — мета-обзор LLM как аннотаторов
