TL;DR
Когда просишь ChatGPT или Claude оценить качество текста, надёжность ответа зависит не от того, какую модель выбрал — а от того, что именно оцениваешь. Все протестированные модели одинаково хорошо справляются с оценкой релевантности и связности текста — и одинаково плохо с оценкой беглости речи и фактической согласованности. Смена модели не меняет картину.
Проблема — скрытая нестабильность. Если попросить модель сравнить несколько текстов попарно, она выдаёт противоречия: A лучше B, B лучше C, но С лучше A. Это не сбой конкретной модели — это сигнал о том, что тексты трудно различить. На уровне отдельных документов такие противоречия возникают в 33–67% случаев — хотя средняя статистика выглядит безупречно (меньше 5%). Средняя цифра маскирует реальную проблему.
Метод решения — двойная проверка с помощью повторных оценок: попросить модель оценить текст несколько раз независимо. Если оценки скачут — дело не в модели, дело в тексте: он объективно трудно оцениваем. Если оценки стабильны — можно доверять. Плюс: знать, каким критериям верить по умолчанию, а к каким относиться со скептицизмом.
Схема метода
ШАГ 1: Выбери надёжный критерий оценки
→ Надёжные: релевантность, связность/логика текста
→ Ненадёжные: беглость речи, фактическая согласованность
ШАГ 2: Попроси модель оценить текст 3 раза независимо
→ Каждый раз: новый запрос (или очисти контекст)
→ Зафиксируй оценки: например, 4, 4, 3
ШАГ 3: Проверь разброс оценок
→ Разброс ≤ 1 балл → оценка надёжна, доверяй
→ Разброс ≥ 2 баллов → текст объективно неоднозначен, нужна ручная проверка
Все шаги выполняются в обычном чате, отдельными запросами.
Пример применения
Задача: Ты редактор в стартапе, запускаете рассылку. Написали три варианта письма для инвесторов — нужно выбрать лучший. Просишь Claude оценить.
Промпт — один запрос (повторить 3 раза с чистым контекстом):
Оцени этот текст по критерию «релевантность»:
насколько содержание письма соответствует интересам инвестора
на стадии pre-seed в B2B SaaS.
Используй шкалу от 1 до 5, где:
1 — совершенно не по теме
5 — идеально попадает в интересы аудитории
Сначала дай оценку (цифру), потом одним абзацем объясни почему.
[Текст письма]
Результат: Получишь три независимых оценки — например, 4, 4, 3. Разброс в 1 балл: оценке можно доверять, текст действительно немного не дотягивает по релевантности. Если получишь 2, 4, 5 — это сигнал: письмо написано так, что его можно прочитать по-разному, нужна правка до отправки. Попросить оценить «грамотность речи» или «фактическую точность» по той же схеме — можно, но верить этим оценкам стоит меньше.
Почему это работает
LLM не держит оценку в голове стабильно. Каждый новый запрос — это генерация с нуля. Если текст объективно неоднозначен (два варианта почти равны по качеству), модель в разные сессии может «склониться» в разные стороны. Это не баг конкретной модели — так работают все большие языковые модели.
Критерии разные по природе. Релевантность — это вопрос "по теме или нет". У него есть чёткий ответ, и модели на него отвечают стабильно. Беглость речи — это вопрос вкуса и нюансов стиля. Нейронные тексты обычно все пишут грамматически правильно, различий почти нет — и модель буквально не знает, что выбрать. Поэтому оценки скачут.
Нестабильность оценки = свойство текста, не модели. Если три запроса к Claude дают разные оценки — это не значит, что Claude плохая. Это значит, что текст объективно трудно оценить: либо он неоднозначен, либо критерий к нему неприменим. Именно это подтвердило исследование: разные модели (GPT-4o-mini, Llama, Qwen, Mistral) ставили широкие оценки одним и тем же документам — независимо от модели.
Шаблон промпта
Оцени этот текст по критерию «{критерий}»:
{описание критерия одним предложением}
Шкала от 1 до 5:
1 — {описание минимума}
5 — {описание максимума}
Сначала поставь оценку (цифру),
потом одним абзацем объясни почему.
{текст для оценки}
Что подставлять:
- {критерий} — релевантность или связность/логика (надёжные) либо беглость/согласованность (с осторожностью)
- {описание критерия} — конкретизируй под задачу: "насколько текст решает задачу целевой аудитории"
- {описание минимума/максимума} — опиши полюса шкалы своими словами
Повтори запрос 3 раза с чистым контекстом. Сравни оценки.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для надёжной оценки текста через LLM.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой текст оцениваем, для кого он предназначен и по какому критерию — потому что без этого невозможно прописать полюса шкалы и сформулировать критерий точно. Она возьмёт паттерн из шаблона и адаптирует под твою задачу.
Почему именно эти критерии
Надёжные (доверяй): - Релевантность — "по теме или нет" — у вопроса есть объективный ответ - Связность/логика (coherence) — структура и последовательность текста видна моделям чётко
Ненадёжные (проверяй повторно): - Беглость речи (fluency) — нейросеть-автор уже пишет грамматически правильно, различий почти нет, модель-судья "гадает" - Фактическая согласованность (consistency) — требует глубокой проверки фактов, с чем 24–72B модели работают нестабильно
Ограничения
⚠️ Работает для текстовой оценки, не для генерации: Метод полезен, когда ты уже используешь ИИ как "судью" — оценщика чужого или своего текста. Для генерации не применим.
⚠️ Нестабильная оценка ≠ плохой текст: Широкий разброс оценок говорит, что текст трудно оценить по выбранному критерию. Это может означать, что критерий не подходит к этому тексту — а не что текст плохой.
⚠️ Три повтора — это минимум: Два запроса могут дать случайное совпадение. Три — уже показывают паттерн.
⚠️ Исследование — на задачах суммаризации: Тестировали на оценке резюме статей. Для других жанров (рекламные тексты, юридические документы, художественный текст) пропорции могут отличаться, но принцип "критерий важнее модели" вероятно сохраняется.
Адаптации
🔧 Техника: добавить критерии сравнения → узнать, на что обращать внимание
Вместо оценки по одному критерию — попроси разграничить:
Оцени этот текст по двум критериям отдельно:
КРИТЕРИЙ 1 — Релевантность (насколько по теме):
[оценка 1-5 + объяснение]
КРИТЕРИЙ 2 — Беглость речи (насколько гладко читается):
[оценка 1-5 + объяснение]
Важно: оценивай каждый критерий независимо.
{текст}
Если оценки по обоим критериям совпадают в трёх повторах — текст однозначно хорош или плох. Если расходятся — знаешь точно, над чем работать.
🔧 Экстраполяция: применить принцип повторной оценки к другим задачам
Тот же принцип работает не только для оценки текстов. Если просишь ИИ принять решение (выбрать стратегию, оценить риск, дать рекомендацию) — повтори запрос 3 раза с разными формулировками. Расхождение в ответах = ты попал в "серую зону" задачи. Либо уточни вводные, либо принимай решение сам — ИИ здесь не поможет надёжно.
Как исследовали
Исследователи из BITS Pilani взяли набор данных SummEval — 30 реальных документов, для каждого восемь вариантов краткого пересказа (summary), оценённых людьми по шкале 1–5 по четырём критериям. Затем прогнали через четыре модели (GPT-4o-mini, Llama-3.1-70B, Qwen-2.5-72B, Mistral-Small) в двух режимах: попарное сравнение (какой summary лучше?) и прямая оценка (оцени от 1 до 5).
Попарных вызовов API потребовалось 40 320 — чтобы проверить, насколько транзитивны предпочтения модели. Логика простая: если модель говорит A > B, B > C — она должна сказать A > C. Если нет — это противоречие. Оказалось, что у 33–67% документов есть хотя бы одно такое противоречие, хотя средняя статистика выглядит чистой (< 5%).
Самое интересное: когда исследователи попытались исправить противоречия математическим методом (MFAS — алгоритм минимального обратного дугового набора), это не помогло. Потому что противоречия не систематические — они сосредоточены в нескольких "трудных" документах, где варианты текстов почти неразличимы по качеству. Ты не можешь исправить неопределённость — только обнаружить её.
Ресурсы
Статья: Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations — Preprint, under review.
Авторы: Manan Gupta, Dhruv Kumar — BITS Pilani, Pilani Campus, India
Данные: SummEval benchmark (Fabbri et al., 2021) — публично доступный датасет оценки суммаризации
Код и кэш результатов: авторы обещают открытый релиз
