TL;DR
Feedback-to-Rubrics — техника, которая извлекает скрытые критерии эксперта из накопленных правок и превращает их в явный список требований (рубрику), пригодный для оценки новых текстов. Механика проста: LLM читает стопку ваших правок, угадывает что за ними стоит, формулирует критерии — а потом итеративно уточняет их, проверяя: "если применить эти критерии к тексту, получатся ли похожие комментарии?"
Проблема: когда просишь LLM улучшить текст, она использует универсальные критерии — "понятно", "убедительно", "логично". Но у вашего редактора, клиента или директора есть свои требования. Они годами живут только в их комментариях: "слишком формально", "добавь цифры", "убери это слово". Нигде не записаны. LLM их не знает — поэтому правит текст не так, как нужно именно им.
Решение: дать LLM накопленные правки → она извлекает рубрику → проверяет её на новых текстах → уточняет там, где её прогноз расходится с реальными комментариями. В итоге — явный список критериев, точно отражающий предпочтения конкретного человека или организации. Его можно переиспользовать снова и снова.
Схема метода
(Два этапа. Первый — отдельный запрос, второй — цикл из 2-3 запросов)
ЭТАП 1 — Извлечение рубрики
ШАГ 1: Собрать реальные правки/комментарии эксперта на ваши прошлые тексты
→ Вставить в промпт: [фрагмент текста] + [комментарий к нему]
ШАГ 2: LLM анализирует паттерны → выдаёт рубрику: список критериев
(каждый критерий: условие применения + суть требования + пример)
ЭТАП 2 — Итеративное уточнение рубрики
ШАГ 3: Взять новый текст → попросить LLM предсказать комментарии по рубрике
ШАГ 4: Сравнить предсказанные комментарии с реальными → найти расхождения
ШАГ 5: Попросить LLM обновить рубрику на основе расхождений
(повторить ШАГ 3-5 несколько раундов)
РЕЗУЛЬТАТ: Уточнённая рубрика → использовать для оценки и правки новых текстов
Пример применения
Задача: Вы SMM-директор студии и пишете посты для бренда кофейни "Добрый Июль" во Вконтакте. Основатель Михаил Кузнецов регулярно присылает правки. За полгода накопилось 40+ комментариев вида: "звучит как корпоративный пресс-релиз", "здесь слишком дёшево — убери скидку в заголовке", "хорошо, оставь как есть". Вы хотите понять его логику и применять её без него.
Промпт (Этап 1 — извлечение рубрики):
Ты — аналитик редакторских предпочтений.
Ниже — примеры фрагментов текстов и комментарии одного конкретного редактора к ним.
Твоя задача — изучить паттерны и составить рубрику:
явный список критериев, которыми руководствуется этот редактор.
Формат каждого критерия в рубрике:
- Название критерия
- Когда применяется (при каком типе фрагмента/ситуации)
- Суть требования (что нужно / чего нельзя)
- Граница с соседними критериями (чем отличается от похожих правил)
- Пример: исходный фрагмент → как должно быть
---
ПРИМЕРЫ ПРАВОК:
Фрагмент 1: "Скидка 15% на все капучино в апреле!"
Комментарий редактора: "Убери процент из заголовка — выглядит как листовка у метро,
не как бренд с характером."
Фрагмент 2: "Мы рады сообщить об открытии новой точки на Покровке."
Комментарий редактора: "Кто так говорит живым людям? Перепиши по-человечески."
Фрагмент 3: "Утро начинается здесь. Тихо, тепло, без спешки."
Комментарий редактора: "Отлично. Именно так."
Фрагмент 4: "Наш бариста Антон готовит латте по авторскому рецепту."
Комментарий редактора: "Хорошо, но добавь что-то чувственное — запах, текстуру, момент."
[вставь сюда ещё 10-20 своих реальных пар]
---
Составь рубрику из 5-9 критериев.
Сделай так, чтобы по ней можно было проверить новый текст
и получить правки, похожие на комментарии редактора.
Промпт (Этап 2 — применение рубрики):
Ты — редактор, работающий строго по рубрике ниже.
{рубрика из Этапа 1}
---
Вот новый текст для поста:
{текст}
Проверь текст по каждому критерию рубрики:
1. Укажи какой критерий нарушен (или соблюдён)
2. Процитируй конкретный фрагмент
3. Предложи правку
Затем покажи исправленную версию текста целиком.
Результат:
На Этапе 1 модель покажет структурированный список из 5-9 критериев — каждый с условием применения, формулировкой требования и примерами. Это и есть "рубрика Михаила". На Этапе 2 — построчный разбор нового текста с конкретными правками по каждому пункту рубрики, плюс исправленная версия. Через 2-3 итерации уточнения рубрика становится точнее — начинает предсказывать реальные комментарии редактора.
Почему это работает
LLM хорошо видит паттерны в языке, но плохо знает неявные предпочтения конкретного человека. Когда просишь "улучши текст" — она опирается на общие представления о качестве. Но у каждого редактора, клиента или директора — своя ненаписанная инструкция. Она живёт только в их правках.
Ключевой механизм: предсказание → сравнение → уточнение. LLM не просто читает правки, а проверяет гипотезы: "если бы этот критерий был правильным, какой комментарий он бы породил?" Если прогноз расходится с реальным — критерий неточный, его нужно уточнить. Это превращает стопку хаотичных правок в структурированное знание.
Рычаги управления: - Число примеров правок — чем больше пар "фрагмент → комментарий", тем точнее рубрика. Минимум — 10-15 пар - Число итераций уточнения — 2-3 раунда дают заметный прирост точности, больше — убывающая отдача - Масштаб критериев — можно попросить LLM делать критерии более или менее детальными ("раздели этот широкий критерий на два узких") - Позитивные vs негативные критерии — система работает лучше, если включать и "оставь как есть" комментарии — они обозначают что менять NOT надо
Шаблон промпта
Этап 1 — Извлечение рубрики
Ты — аналитик редакторских предпочтений.
Изучи примеры ниже: каждый — это фрагмент текста
и комментарий {кто_комментирует} к нему.
Составь рубрику: явный список критериев, которыми
руководствуется этот {кто_комментирует}.
Формат каждого критерия:
- Название
- Когда применяется
- Суть требования
- Граница с похожими критериями
- Пример: [исходное] → [как должно быть]
---
ПРИМЕРЫ:
{фрагмент_1}
Комментарий: {комментарий_1}
{фрагмент_2}
Комментарий: {комментарий_2}
[добавь 10-20 пар]
---
Составь рубрику из {число_критериев} критериев.
Она должна позволять предсказать похожие комментарии
для новых текстов того же типа.
Этап 2 — Оценка нового текста по рубрике
Ты — редактор, работающий строго по рубрике.
{рубрика_из_этапа_1}
---
Текст для проверки:
{новый_текст}
Для каждого критерия рубрики:
1. Нарушен или соблюдён?
2. Цитата из текста
3. Конкретная правка (если нужна)
В конце — исправленная версия текста.
Этап 3 — Уточнение рубрики (опционально)
Сравни два набора комментариев к тексту {текст}:
Реальные комментарии {кто_комментирует}:
{реальные_комментарии}
Комментарии по текущей рубрике:
{предсказанные_комментарии}
Найди расхождения. Обнови рубрику так,
чтобы она лучше предсказывала реальные комментарии.
Что добавить, уточнить, убрать?
Текущая рубрика:
{рубрика}
Плейсхолдеры:
- {кто_комментирует} — редактор / клиент / директор по маркетингу
- {фрагмент_N} / {комментарий_N} — реальные пары из вашей практики
- {число_критериев} — 5-9 для большинства задач
- {новый_текст} — текст, который нужно проверить
- {рубрика} — результат Этапа 1
🚀 Быстрый старт — вставь в чат:
Вот шаблон Feedback-to-Rubrics. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит кто комментирует, какой тип текстов и сколько примеров правок у вас есть — потому что без конкретных примеров рубрику не построить. Она поможет собрать пары и запустит процесс.
Ограничения
⚠️ Нужна накопленная обратная связь: Метод работает только если у вас уже есть как минимум 10-15 реальных комментариев к конкретным фрагментам. Для нового проекта без истории — нечего анализировать.
⚠️ Рубрика отражает прошлое: Критерии извлекаются из старых правок. Если предпочтения редактора изменились полгода назад — рубрика будет устаревшей. Нужно периодически обновлять.
⚠️ Точность падает на субъективных критериях: Если редактор комментирует интуитивно ("не то ощущение", "что-то не так"), LLM затрудняется сформулировать чёткий критерий. Лучше работает с конкретными, повторяющимися паттернами.
⚠️ Итеративное уточнение требует усилий: Полная цепочка "извлечь → проверить → сравнить → уточнить" занимает 30-60 минут при первом запуске. Зато рубрику можно переиспользовать.
Как исследовали
Команда Sakana AI подошла к задаче практически: взяли девять разных задач — от рецензий на научные предложения и студенческие эссе до медицинских аннотаций и экспертных текстов в биологии, химии, кибербезопасности. Два набора данных — реальные правки живых экспертов, остальные — синтетические, но с заранее известными рубриками (что позволило измерить точность).
Базовый сравниваемый подход (RAG): вместо рубрики просто брать 3 похожих комментария из прошлого и давать их LLM в контекст. Интуитивно кажется, что это должно работать — но метод с рубрикой обогнал его. Это важный результат: обобщённые критерии работают лучше, чем конкретные примеры напрямую. Рубрика схватывает суть, а не поверхность.
Любопытная деталь: итеративное уточнение работает через попарное связывание — каждый комментарий привязан к конкретным критериям, которые его породили. Это важно: если скормить все несовпадения скопом, модель не понимает что именно сломано. Когда несовпадение привязано к критерию — понятно что менять. Именно это объясняет, почему "comment-wise" версия лучше простой aggregate-версии.
Адаптации и экстраполяции
Адаптация 1: Рубрика из чужих рецензий
🔧 Техника: взять публичные рецензии → извлечь критерии экспертного сообщества
Если у вас нет личных правок — используйте публичные: отзывы на Яндекс.Маркете на продукты конкурентов, рецензии на книги в определённом жанре, комментарии в профессиональных телеграм-каналах. Метод работает на любых накопленных комментариях, не только "ваших".
Вот 15 рецензий читателей на деловые книги в жанре "личная эффективность".
[рецензии]
Извлеки рубрику: какими критериями руководствуются
читатели этого жанра при оценке?
Что они хвалят, что критикуют, при каких условиях?
Адаптация 2: Векторное сравнение без итераций
🔧 Техника: один шаг вместо цикла для быстрой проверки
Если нет времени на итерации — можно использовать рубрику "как есть" после первого извлечения. Даже черновая рубрика из 10+ примеров значительно точнее, чем "улучши текст" без критериев. Полный цикл — для задач, где нужна высокая точность.
Экстраполяция: перенос стиля через рубрику
Метод решает смежную задачу — перенос редакторского стиля. Если новый копирайтер в команде должен писать "как Маша писала" — не нужно объяснять правила словами. Собери правки, которые Маша давала раньше → извлеки рубрику → дай рубрику новому копирайтеру (или LLM). Явная рубрика передаёт стиль точнее, чем инструкция "пиши вот так, смотри на её тексты".
Ресурсы
Статья: Feedback-to-Rubrics: Can We Learn Expert Criteria from Inline Comments?
Авторы: Kotaro Yoshida, So Kuroki, Yuki Imajuku, Taishi Nakamura, Ryunosuke Iwai, Haruki Goda, Takuya Akiba
Организация: Sakana AI, Institute of Science Tokyo
Связанные работы: - HealthBench (Arora et al., 2025) — бенчмарк медицинских аннотаций - ExpertLongBench (Ruan et al., 2026) — экспертные тексты в 6 доменах - RAG baseline: Lewis et al. (2020) — Retrieval-Augmented Generation
