TL;DR
ToW — техника оценки текстов, где LLM сначала явно фиксирует, какой критерий насколько важен для конкретного задания, и только потом выставляет оценки по каждому критерию отдельно. Работает как дерево: корень — итоговый балл, ветки — Содержание, Формат, Впечатление, листья — конкретные подкритерии со своими весами.
Главная находка: когда просишь LLM оценить текст и позволяешь ей самой решать "насколько важна каждая характеристика" — она каждый раз решает по-разному. В одном запросе ставит акцент на логике, в следующем — на стиле. Итог: два одинаковых текста получают разные баллы не потому что они разные, а потому что LLM переопределила приоритеты между запросами. Исследователи назвали это Negotiation Inconsistency — нестабильность агрегации.
ToW решает это в два шага: сначала отдельный "переговорщик" (LLM) определяет веса критериев для этого конкретного задания и фиксирует их. Потом уже другие "эксперты" (тоже LLM) оценивают каждый критерий по зафиксированной шкале. Агрегация по заранее известным весам — стабильный результат.
Схема метода
(Три шага в разных запросах)
ШАГ 1: Переговорщик
Вход: [текст задания + жанр/тип]
Задача: определить веса для Содержания, Формата, Впечатления
и для каждого подкритерия внутри них
Вывод: веса в виде списка (сумма = 1, каждый вес от -1 до 1)
ШАГ 2: Эксперты-оценщики
Вход: [текст для оценки + критерий + рубрика]
Задача: отдельный запрос для каждого подкритерия
Вывод: оценка 1–10 по заданной шкале
ШАГ 3: Агрегация
Вход: все оценки + веса из Шага 1
Задача: перемножить оценки на веса, посчитать итог
Вывод: финальный взвешенный балл
Пример применения
Задача: Ты написал инвест-питч для Сбер500 на акселерацию стартапа в области EdTech. Хочешь получить стабильную, честную обратную связь — не "в целом норм", а структурированный разбор с конкретными весами именно для жанра питча.
Промпт (Шаг 1 — Переговорщик):
Ты — эксперт по оценке инвест-питчей для акселераторов.
Тебе нужно оценить текст питча. Перед оценкой — определи веса критериев.
Жанр: инвестиционный питч для акселератора
Задача: стартап убеждает инвесторов дать место в программе
Критерии для оценки:
СОДЕРЖАНИЕ (подкритерии):
- Ясность проблемы и решения
- Убедительность traction и метрик
- Логика бизнес-модели
- Понимание рынка и конкурентов
ФОРМАТ:
- Структура изложения (есть ли все блоки питча)
- Язык и стиль (для инвестора)
ВПЕЧАТЛЕНИЕ (единый критерий без деления):
- Общее ощущение: хочется ли узнать больше
Для этого жанра и задачи — присвой каждому критерию вес от 0 до 1.
Сумма весов внутри каждого раздела = 1.
Также укажи вес самих разделов (Содержание / Формат / Впечатление), сумма = 1.
Обоснуй каждый вес одним предложением.
Выведи результат в виде таблицы.
Текст питча оценивать НЕ нужно — только веса.
Промпт (Шаг 2 — Оценка одного критерия):
Ты — эксперт по инвест-питчам. Оцени текст по одному критерию.
Критерий: «Убедительность traction и метрик»
Вес этого критерия в итоговой оценке: [вес из Шага 1]
Шкала:
1–3: метрики отсутствуют или выглядят нереалистично
4–6: метрики есть, но без контекста / неясно почему они важны
7–9: конкретные цифры, понятная динамика, видна тяга
10: метрики убедительны, релевантны, вызывают желание инвестировать
Текст питча:
[вставить текст]
Выдай: оценку (1–10) + 2–3 предложения объяснения.
(Повтори Шаг 2 для каждого критерия из Шага 1)
Результат:
После Шага 1 модель выдаст таблицу весов с обоснованием — например, почему для питча "Убедительность метрик" весит 0.35, а "Язык и стиль" — всего 0.10. После Шага 2 (несколько запросов) — оценки по каждому критерию отдельно. Умножаешь на веса → итоговый балл. При повторной оценке результат будет стабильным: веса зафиксированы, логика прозрачна.
Почему это работает
LLM не держит "весы" в памяти между запросами. Когда просишь "оцени текст по всем критериям сразу" — модель каждый раз заново решает, что важнее. В одном запросе перевесит стиль, в другом — структура. Это не ошибка, это нормальное поведение: у модели нет зафиксированного приоритета, она угадывает его из контекста.
LLM хорошо следует явным инструкциям, когда они заданы заранее. Если веса уже записаны в промпте Шага 2 — модель работает по ним стабильно. Она перестаёт "договариваться сама с собой".
Разделение ролей убирает конфликт интересов. "Переговорщик" определяет важность критериев. "Эксперт" просто измеряет по заданной шкале. Это как разделить задачи: один человек решает, по каким критериям судить, другой — судит. Смешать обе роли в один запрос → нестабильность.
Рычаги управления: - Детализация весов → больше подкритериев = точнее оценка, но больше запросов - Жанр в Шаге 1 → поменяй "инвест-питч" на "коммерческое предложение" / "художественный текст" → переговорщик пересчитает приоритеты - Шкала в Шаге 2 → опиши что означает 1, 5, 10 конкретно — получишь более предсказуемый ответ - Один эксперт на критерий → для разных критериев можно дать разные роли ("ты — редактор газеты", "ты — CFO")
Шаблон промпта
Шаг 1 — Переговорщик (фиксируем веса):
Ты — эксперт по оценке {тип_текста}.
Перед оценкой — определи, как должны весить критерии
именно для этого жанра и задачи.
Жанр: {жанр}
Цель текста: {цель — кого убедить / что донести}
Критерии:
СОДЕРЖАНИЕ:
- {подкритерий_1}
- {подкритерий_2}
- {подкритерий_3}
ФОРМАТ:
- {подкритерий_4}
- {подкритерий_5}
ВПЕЧАТЛЕНИЕ:
- Общее субъективное ощущение от текста
Присвой вес каждому подкритерию (сумма внутри раздела = 1).
Присвой вес самим разделам (Содержание / Формат / Впечатление, сумма = 1).
Обоснуй каждый вес одним предложением.
Выведи в виде таблицы.
Сам текст оценивать НЕ нужно — только веса.
Шаг 2 — Эксперт (оцениваем по одному критерию):
Ты — эксперт по {тип_текста}. Оцени текст по одному критерию.
Критерий: «{название_критерия}»
Шкала:
1–3: {что означает низкая оценка}
4–6: {что означает средняя оценка}
7–9: {что означает высокая оценка}
10: {что означает идеальная оценка}
Текст:
{вставить текст}
Выдай: оценку (1–10) + 2–3 предложения объяснения.
Плейсхолдеры:
- {тип_текста} — питчей, маркетинговых текстов, деловых писем, статей
- {жанр} — конкретный жанр: коммерческое предложение, пост в Telegram, аналитический отчёт
- {цель} — что должен сделать текст с читателем
- {подкритерий_1..5} — нужные вам измерения; берите из области: логика, факты, убедительность, структура, стиль
🚀 Быстрый старт — вставь в чат:
Вот шаблон ToW для оценки текстов — сначала фиксируем веса критериев,
потом оцениваем каждый отдельно. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про жанр текста, его цель и какие критерии важны — потому что именно от жанра зависят правильные веса. Она возьмёт структуру из шаблона и настроит под конкретную задачу.
Ограничения
⚠️ Бессмысленно для простых задач: Оценивать короткий текст из 200 слов через три шага и таблицу весов — избыточно. Метод окупается на длинных, структурированных текстах: питчи, статьи, коммерческие предложения, сценарии.
⚠️ Субъективный критерий "Впечатление" нестабилен: Даже при явных весах оценка "общего ощущения" у LLM менее воспроизводима, чем оценка структуры или фактов. Это подтверждено в исследовании — Впечатление лучше использовать как дополнение, не основу.
⚠️ Больше контекста ≠ лучше результат: Исследование выявило отрицательную корреляцию между объёмом входного контекста в задачах с направляющим заданием и качеством содержания. Накачать промпт деталями не значит получить лучший текст — а значит часто получить более длинный, но менее сфокусированный.
⚠️ Нужно несколько запросов: Шаги не объединяются в один промпт без потери стабильности. Минимум 2–3 запроса на полноценную оценку.
Как исследовали
Команда из Tsinghua University и Z.ai создала HOWTOBENCH — набор из 1302 инструкций по 12 жанрам китайской письменности (от художественной до контрактов и официальных документов). Всё на реальных человеческих текстах, не на LLM-синтетике.
Логика эксперимента была простой: взять 9 LLM (GPT-4o, Claude 3.5, DeepSeek-R1, Gemini Flash и др.), дать им одинаковые задания на написание, потом попросить разные методы оценить результаты — и сравнить с оценками 36 живых экспертов.
Удивительный момент: BLEU (старая метрика "насколько текст похож на эталон") показал неплохую корреляцию с людьми на задачах Completion, где есть явный эталон для сравнения. Но на открытом письме провалился. А вот Auto-Planning — когда LLM сама придумывает критерии в момент оценки — оказался нестабильным даже при самосогласованности (запросить 5–10 раз и усреднить). Больше повторений не помогали: Auto-Planning сходился к простому усреднению, теряя смысл взвешивания.
ToW же при сопоставимой стоимости ($7.34 против $6.53 за self-consistency) показал корреляцию 0.93 с человеческими оценками — против 0.87 у лучшего конкурента.
Адаптации и экстраполяции
🔧 Техника: использовать ToW для самoproверки собственного текста перед отправкой
Обычно просят "оцени мой текст" — и получают расплывчатое "в целом хорошо, можно улучшить вот тут". ToW разворачивает это в точные ответы: сначала узнаёшь какие веса важны для этого жанра (Шаг 1), потом получаешь точечные оценки по каждому (Шаг 2). Полезно перед отправкой КП клиенту или инвест-меморандума партнёру.
🔧 Техника: зафиксировать веса один раз для повторяющегося типа задач
Если регулярно оцениваешь тексты одного типа (например, посты в Telegram-канале), прогони Шаг 1 один раз и сохрани таблицу весов. Используй её как константу в Шаге 2. Оценки станут сравнимы между текстами — видно динамику качества.
🔧 Экстраполяция: применить логику явных весов к любой LLM-оценке (не только текстов)
Принцип "сначала зафикcируй, потом оценивай" работает за пределами письма. Оцениваешь бизнес-идею? Стратегию? Дизайн-макет? Сценарий переговоров? Перед запросом на оценку — отдельный запрос: "Какие критерии важны для [жанра/типа] и какой у каждого вес?" Потом — оценка по зафиксированным критериям.
Ресурсы
Название: HoWToBench: Holistic Evaluation for LLM's Capability in Human-level Writing using Tree of Writing
GitHub: https://github.com/ZhuoerFeng/ACL2026-Tree-of-Writing
Авторы: Andrew Zhuoer Feng, Cunxiang Wang, Yu Luo, Lin Fan, Yilin Zhou, Zikang Wang, Xiaotao Gu, Jie Tang, Hongning Wang, Minlie Huang
Организации: Tsinghua University (Пекин), Z.ai
