3,583 papers
arXiv:2605.29857 81 28 мая 2026 г. FREE

Feedback-to-Rubrics: превращение накопленных комментариев в персональные критерии оценки

КЛЮЧЕВАЯ СУТЬ
Если LLM правит текст, а редактор всё равно недоволен — дело не в модели. У каждого редактора есть своя ненаписанная инструкция. Живёт только в его правках: 'слишком формально', 'убери скидку из заголовка', 'добавь цифры'. Метод Feedback-to-Rubrics позволяет извлечь эти правила из накопленных комментариев и превратить их в явный список критериев для оценки новых текстов. Фишка: LLM не просто читает правки — она проверяет гипотезы. Предсказывает: какой комментарий должен был бы возникнуть по этому критерию? Расходится с реальным — уточняет. Через 2-3 итерации хаотичная стопка правок становится рабочим списком требований, который работает без автора.
Адаптировать под запрос

TL;DR

Feedback-to-Rubrics — техника, которая извлекает скрытые критерии эксперта из накопленных правок и превращает их в явный список требований (рубрику), пригодный для оценки новых текстов. Механика проста: LLM читает стопку ваших правок, угадывает что за ними стоит, формулирует критерии — а потом итеративно уточняет их, проверяя: "если применить эти критерии к тексту, получатся ли похожие комментарии?"

Проблема: когда просишь LLM улучшить текст, она использует универсальные критерии — "понятно", "убедительно", "логично". Но у вашего редактора, клиента или директора есть свои требования. Они годами живут только в их комментариях: "слишком формально", "добавь цифры", "убери это слово". Нигде не записаны. LLM их не знает — поэтому правит текст не так, как нужно именно им.

Решение: дать LLM накопленные правки → она извлекает рубрику → проверяет её на новых текстах → уточняет там, где её прогноз расходится с реальными комментариями. В итоге — явный список критериев, точно отражающий предпочтения конкретного человека или организации. Его можно переиспользовать снова и снова.


🔬

Схема метода

(Два этапа. Первый — отдельный запрос, второй — цикл из 2-3 запросов)

ЭТАП 1 — Извлечение рубрики
ШАГ 1: Собрать реальные правки/комментарии эксперта на ваши прошлые тексты
         → Вставить в промпт: [фрагмент текста] + [комментарий к нему]
ШАГ 2: LLM анализирует паттерны → выдаёт рубрику: список критериев
         (каждый критерий: условие применения + суть требования + пример)

ЭТАП 2 — Итеративное уточнение рубрики
ШАГ 3: Взять новый текст → попросить LLM предсказать комментарии по рубрике
ШАГ 4: Сравнить предсказанные комментарии с реальными → найти расхождения
ШАГ 5: Попросить LLM обновить рубрику на основе расхождений
         (повторить ШАГ 3-5 несколько раундов)

РЕЗУЛЬТАТ: Уточнённая рубрика → использовать для оценки и правки новых текстов

🚀

Пример применения

Задача: Вы SMM-директор студии и пишете посты для бренда кофейни "Добрый Июль" во Вконтакте. Основатель Михаил Кузнецов регулярно присылает правки. За полгода накопилось 40+ комментариев вида: "звучит как корпоративный пресс-релиз", "здесь слишком дёшево — убери скидку в заголовке", "хорошо, оставь как есть". Вы хотите понять его логику и применять её без него.

Промпт (Этап 1 — извлечение рубрики):

Ты — аналитик редакторских предпочтений.

Ниже — примеры фрагментов текстов и комментарии одного конкретного редактора к ним.
Твоя задача — изучить паттерны и составить рубрику: 
явный список критериев, которыми руководствуется этот редактор.

Формат каждого критерия в рубрике:
- Название критерия
- Когда применяется (при каком типе фрагмента/ситуации)
- Суть требования (что нужно / чего нельзя)
- Граница с соседними критериями (чем отличается от похожих правил)
- Пример: исходный фрагмент → как должно быть

---

ПРИМЕРЫ ПРАВОК:

Фрагмент 1: "Скидка 15% на все капучино в апреле!"
Комментарий редактора: "Убери процент из заголовка — выглядит как листовка у метро, 
не как бренд с характером."

Фрагмент 2: "Мы рады сообщить об открытии новой точки на Покровке."
Комментарий редактора: "Кто так говорит живым людям? Перепиши по-человечески."

Фрагмент 3: "Утро начинается здесь. Тихо, тепло, без спешки."
Комментарий редактора: "Отлично. Именно так."

Фрагмент 4: "Наш бариста Антон готовит латте по авторскому рецепту."
Комментарий редактора: "Хорошо, но добавь что-то чувственное — запах, текстуру, момент."

[вставь сюда ещё 10-20 своих реальных пар]

---

Составь рубрику из 5-9 критериев. 
Сделай так, чтобы по ней можно было проверить новый текст 
и получить правки, похожие на комментарии редактора.

Промпт (Этап 2 — применение рубрики):

Ты — редактор, работающий строго по рубрике ниже.

{рубрика из Этапа 1}

---

Вот новый текст для поста:
{текст}

Проверь текст по каждому критерию рубрики:
1. Укажи какой критерий нарушен (или соблюдён)
2. Процитируй конкретный фрагмент
3. Предложи правку

Затем покажи исправленную версию текста целиком.

Результат:

На Этапе 1 модель покажет структурированный список из 5-9 критериев — каждый с условием применения, формулировкой требования и примерами. Это и есть "рубрика Михаила". На Этапе 2 — построчный разбор нового текста с конкретными правками по каждому пункту рубрики, плюс исправленная версия. Через 2-3 итерации уточнения рубрика становится точнее — начинает предсказывать реальные комментарии редактора.


🧠

Почему это работает

LLM хорошо видит паттерны в языке, но плохо знает неявные предпочтения конкретного человека. Когда просишь "улучши текст" — она опирается на общие представления о качестве. Но у каждого редактора, клиента или директора — своя ненаписанная инструкция. Она живёт только в их правках.

Ключевой механизм: предсказание → сравнение → уточнение. LLM не просто читает правки, а проверяет гипотезы: "если бы этот критерий был правильным, какой комментарий он бы породил?" Если прогноз расходится с реальным — критерий неточный, его нужно уточнить. Это превращает стопку хаотичных правок в структурированное знание.

Рычаги управления: - Число примеров правок — чем больше пар "фрагмент → комментарий", тем точнее рубрика. Минимум — 10-15 пар - Число итераций уточнения — 2-3 раунда дают заметный прирост точности, больше — убывающая отдача - Масштаб критериев — можно попросить LLM делать критерии более или менее детальными ("раздели этот широкий критерий на два узких") - Позитивные vs негативные критерии — система работает лучше, если включать и "оставь как есть" комментарии — они обозначают что менять NOT надо


📋

Шаблон промпта

📌

Этап 1 — Извлечение рубрики

Ты — аналитик редакторских предпочтений.

Изучи примеры ниже: каждый — это фрагмент текста 
и комментарий {кто_комментирует} к нему.
Составь рубрику: явный список критериев, которыми 
руководствуется этот {кто_комментирует}.

Формат каждого критерия:
- Название
- Когда применяется
- Суть требования
- Граница с похожими критериями  
- Пример: [исходное] → [как должно быть]

---

ПРИМЕРЫ:

{фрагмент_1}
Комментарий: {комментарий_1}

{фрагмент_2}  
Комментарий: {комментарий_2}

[добавь 10-20 пар]

---

Составь рубрику из {число_критериев} критериев.
Она должна позволять предсказать похожие комментарии 
для новых текстов того же типа.
📌

Этап 2 — Оценка нового текста по рубрике

Ты — редактор, работающий строго по рубрике.

{рубрика_из_этапа_1}

---

Текст для проверки:
{новый_текст}

Для каждого критерия рубрики:
1. Нарушен или соблюдён?
2. Цитата из текста
3. Конкретная правка (если нужна)

В конце — исправленная версия текста.
📌

Этап 3 — Уточнение рубрики (опционально)

Сравни два набора комментариев к тексту {текст}:

Реальные комментарии {кто_комментирует}:
{реальные_комментарии}

Комментарии по текущей рубрике:
{предсказанные_комментарии}

Найди расхождения. Обнови рубрику так, 
чтобы она лучше предсказывала реальные комментарии.
Что добавить, уточнить, убрать?

Текущая рубрика:
{рубрика}

Плейсхолдеры: - {кто_комментирует} — редактор / клиент / директор по маркетингу - {фрагмент_N} / {комментарий_N} — реальные пары из вашей практики - {число_критериев} — 5-9 для большинства задач - {новый_текст} — текст, который нужно проверить - {рубрика} — результат Этапа 1


🚀 Быстрый старт — вставь в чат:

Вот шаблон Feedback-to-Rubrics. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит кто комментирует, какой тип текстов и сколько примеров правок у вас есть — потому что без конкретных примеров рубрику не построить. Она поможет собрать пары и запустит процесс.


⚠️

Ограничения

⚠️ Нужна накопленная обратная связь: Метод работает только если у вас уже есть как минимум 10-15 реальных комментариев к конкретным фрагментам. Для нового проекта без истории — нечего анализировать.

⚠️ Рубрика отражает прошлое: Критерии извлекаются из старых правок. Если предпочтения редактора изменились полгода назад — рубрика будет устаревшей. Нужно периодически обновлять.

⚠️ Точность падает на субъективных критериях: Если редактор комментирует интуитивно ("не то ощущение", "что-то не так"), LLM затрудняется сформулировать чёткий критерий. Лучше работает с конкретными, повторяющимися паттернами.

⚠️ Итеративное уточнение требует усилий: Полная цепочка "извлечь → проверить → сравнить → уточнить" занимает 30-60 минут при первом запуске. Зато рубрику можно переиспользовать.


🔍

Как исследовали

Команда Sakana AI подошла к задаче практически: взяли девять разных задач — от рецензий на научные предложения и студенческие эссе до медицинских аннотаций и экспертных текстов в биологии, химии, кибербезопасности. Два набора данных — реальные правки живых экспертов, остальные — синтетические, но с заранее известными рубриками (что позволило измерить точность).

Базовый сравниваемый подход (RAG): вместо рубрики просто брать 3 похожих комментария из прошлого и давать их LLM в контекст. Интуитивно кажется, что это должно работать — но метод с рубрикой обогнал его. Это важный результат: обобщённые критерии работают лучше, чем конкретные примеры напрямую. Рубрика схватывает суть, а не поверхность.

Любопытная деталь: итеративное уточнение работает через попарное связывание — каждый комментарий привязан к конкретным критериям, которые его породили. Это важно: если скормить все несовпадения скопом, модель не понимает что именно сломано. Когда несовпадение привязано к критерию — понятно что менять. Именно это объясняет, почему "comment-wise" версия лучше простой aggregate-версии.


💡

Адаптации и экстраполяции

📌

Адаптация 1: Рубрика из чужих рецензий

🔧 Техника: взять публичные рецензии → извлечь критерии экспертного сообщества

Если у вас нет личных правок — используйте публичные: отзывы на Яндекс.Маркете на продукты конкурентов, рецензии на книги в определённом жанре, комментарии в профессиональных телеграм-каналах. Метод работает на любых накопленных комментариях, не только "ваших".

Вот 15 рецензий читателей на деловые книги в жанре "личная эффективность".
[рецензии]

Извлеки рубрику: какими критериями руководствуются 
читатели этого жанра при оценке? 
Что они хвалят, что критикуют, при каких условиях?

⚖️

Адаптация 2: Векторное сравнение без итераций

🔧 Техника: один шаг вместо цикла для быстрой проверки

Если нет времени на итерации — можно использовать рубрику "как есть" после первого извлечения. Даже черновая рубрика из 10+ примеров значительно точнее, чем "улучши текст" без критериев. Полный цикл — для задач, где нужна высокая точность.


📌

Экстраполяция: перенос стиля через рубрику

Метод решает смежную задачу — перенос редакторского стиля. Если новый копирайтер в команде должен писать "как Маша писала" — не нужно объяснять правила словами. Собери правки, которые Маша давала раньше → извлеки рубрику → дай рубрику новому копирайтеру (или LLM). Явная рубрика передаёт стиль точнее, чем инструкция "пиши вот так, смотри на её тексты".


🔗

Ресурсы

Статья: Feedback-to-Rubrics: Can We Learn Expert Criteria from Inline Comments?

Авторы: Kotaro Yoshida, So Kuroki, Yuki Imajuku, Taishi Nakamura, Ryunosuke Iwai, Haruki Goda, Takuya Akiba

Организация: Sakana AI, Institute of Science Tokyo

Связанные работы: - HealthBench (Arora et al., 2025) — бенчмарк медицинских аннотаций - ExpertLongBench (Ruan et al., 2026) — экспертные тексты в 6 доменах - RAG baseline: Lewis et al. (2020) — Retrieval-Augmented Generation


📋 Дайджест исследования

Ключевая суть

Если LLM правит текст, а редактор всё равно недоволен — дело не в модели. У каждого редактора есть своя ненаписанная инструкция. Живёт только в его правках: 'слишком формально', 'убери скидку из заголовка', 'добавь цифры'. Метод Feedback-to-Rubrics позволяет извлечь эти правила из накопленных комментариев и превратить их в явный список критериев для оценки новых текстов. Фишка: LLM не просто читает правки — она проверяет гипотезы. Предсказывает: какой комментарий должен был бы возникнуть по этому критерию? Расходится с реальным — уточняет. Через 2-3 итерации хаотичная стопка правок становится рабочим списком требований, который работает без автора.

Принцип работы

Стандартный запрос 'улучши текст' — это как попросить постороннего редактора с чужими правилами. Получишь грамотно, но не так. Метод работает в три шага: 1. Собираешь пары: фрагмент текста + реальный комментарий редактора. Минимум 10-15, лучше 20+. 2. Просишь LLM извлечь рубрику — список критериев с условиями применения и примерами правок. 3. Проверяешь: даёшь модели новый текст, она предсказывает комментарии по рубрике. Сравниваешь с реальными. Где расходятся — уточняешь критерий. Рубрика — это не просто список правил, а инструмент проверки гипотез о редакторе. Критерий либо предсказывает его реакцию точно, либо неточный и требует правки.

Почему работает

LLM хорошо находит паттерны в языке. Но без конкретных примеров она опирается на общие представления о качестве текста — 'понятно', 'убедительно', 'логично'. Это не правила Михаила из кофейни. Цикл 'предсказание → сравнение → уточнение' превращает интуитивные правки в явные критерии. Модель не угадывает — она строит гипотезу и проверяет её на данных. Там где гипотеза не работает, критерий переформулируется. Чем конкретнее и повторяющееся паттерны в правках — тем точнее рубрика. Абстрактные комментарии вроде 'что-то не то' работают хуже: модели не за что ухватиться.

Когда применять

Редактура и копирайтинг — когда нужно писать под конкретного редактора, клиента или бренд. Особенно там, где один человек регулярно правит одно и то же: SMM-агентства, редакции, команды контент-маркетинга, фриланс-авторы у постоянных клиентов. Подходит для любого типа текстов, где накоплена история правок: посты, статьи, письма, брифы, коммерческие предложения. НЕ подходит для: новых проектов без истории (нечего анализировать) и случаев, когда правки слишком абстрактны или противоречат друг другу — рубрика получится размытой.

Мини-рецепт

1. Собери пары: возьми реальные правки редактора или клиента. Формат: [фрагмент текста] + [его комментарий]. Нужно минимум 10-15 пар, лучше 20. Включи и позитивные — 'оставь как есть, отлично' — они показывают что трогать не надо.

2. Извлеки рубрику: вставь все пары в промпт и попроси LLM составить список из 5-9 критериев. Каждый критерий: название, когда применяется, суть требования, пример правки.

3. Проверь рубрику: дай модели новый текст и рубрику. Попроси предсказать какие комментарии выдал бы редактор по каждому критерию.

4. Уточни где расходится: сравни предсказанные комментарии с реальными. Там где не совпадают — попроси LLM обновить конкретный критерий. Повтори 2-3 раза.

5. Переиспользуй: готовую рубрику сохрани. Теперь любой новый текст можно прогнать через неё без участия редактора.

Примеры

[ПЛОХО] : Ты опытный редактор. Улучши этот пост для кофейни в стиле нашего бренда. (Модель не знает стиль бренда. Выдаст общее 'убедительно и понятно'. Редактор снова будет недоволен.)
[ХОРОШО] : Этап 1 — извлечение рубрики: Ты — аналитик редакторских предпочтений. Изучи пары ниже: фрагмент текста и комментарий редактора к нему. Составь рубрику из 5-7 критериев. Каждый критерий: название / когда применяется / суть требования / пример [исходное] → [как должно быть]. Фрагмент 1: "Скидка 15% на все капучино в апреле!" Комментарий: "Убери процент из заголовка — выглядит как листовка у метро." Фрагмент 2: "Мы рады сообщить об открытии новой точки." Комментарий: "Кто так говорит живым людям? Перепиши по-человечески." Фрагмент 3: "Утро начинается здесь. Тихо, тепло, без спешки." Комментарий: "Отлично. Именно так." [ещё 12 реальных пар] Этап 2 — оценка нового текста: Ты — редактор, работающий строго по рубрике ниже. {рубрика из этапа 1}. Вот новый текст: {текст}. По каждому критерию: нарушен или соблюдён? Процитируй фрагмент. Предложи правку. В конце — исправленная версия целиком.
Источник: Feedback-to-Rubrics: Can We Learn Expert Criteria from Inline Comments?
ArXiv ID: 2605.29857 | Сгенерировано: 2026-05-29 15:25

Проблемы LLM

ПроблемаСутьКак обойти
Модель правит по общим стандартам — не по вашимКогда просишь "улучши текст", модель ориентируется на универсальные критерии: понятно, убедительно, логично. Но у конкретного редактора, клиента или директора — свои ненаписанные правила. "Убери процент из заголовка", "звучит как корпоративный пресс-релиз", "добавь что-то чувственное". Эти правила нигде не записаны. Модель их не знает. Правит текст не так, как нужно именно имСобери 10-15 реальных пар "фрагмент комментарий эксперта". Попроси модель найти паттерны и сформулировать явный список критериев. Этот список используй в следующих запросах вместо общего "улучши текст"

Методы

МетодСуть
Рубрика из комментариев — личные критерии для оценкиСобери реальные правки конкретного человека: каждая пара — фрагмент текста и его комментарий к нему. Вставь в запрос и попроси: "найди паттерны, составь список критериев — когда применяется, что требует, пример до/после". Получишь рубрику. Затем проверь её: попроси модель предсказать комментарии по рубрике для нового текста. Сравни с реальными. Там где расхождение — попроси уточнить критерий. Повтори 2-3 раза. Почему работает: модель хорошо видит языковые паттерны. Конкретные пары "фрагмент реакция" дают ей достаточно данных чтобы угадать неявное правило за ними. Цикл сравнения отсекает неточные критерии. Когда работает: есть 10+ реальных комментариев к конкретным фрагментам, паттерны повторяются. Когда не работает: нет истории правок, комментарии интуитивные без конкретики ("что-то не так")
📖 Простыми словами

Feedback-to-Rubrics: Can We Learn Expert Criteria from Inline Comments?

arXiv: 2605.29857

Суть метода Feedback-to-Rubrics в том, что нейронки научились вытаскивать из головы эксперта его «внутреннего цензора», о котором он сам может не подозревать. Обычно мы просим AI просто «сделать красиво», и она выдает усредненную жвачку. Но этот метод заставляет модель работать как детектива: она берет гору ваших старых правок, сопоставляет их с текстами и вычисляет скрытые закономерности. В итоге получается четкий список правил — рубрика, которая превращает хаотичное «мне не нравится» в конкретную инструкцию для оценки будущих работ.

Это как если бы вы годами готовили борщ для ворчливой свекрови, которая каждый раз кривила лицо, а потом наняли профи, который проанализировал все её «недосолено» и «слишком крупная свекла». В итоге профи выдает вам точный рецепт, где по граммам расписано, как угодить этой женщине. Формально она ничего не объясняла, но её капризы превратились в алгоритм, по которому теперь может готовить кто угодно, и результат будет идеальным.

Технически это работает через итеративное уточнение: сначала LLM набрасывает черновик критериев, глядя на комментарии вроде «звучит как пресс-релиз» или «убери скидку». Затем наступает магия — модель проверяет саму себя. Она берет текст, применяет к нему свежесозданную рубрику и смотрит: совпадут ли её выводы с реальными правками живого человека? Если нет — она правит критерии, пока не добьется максимального попадания в стиль. Это не просто сборник советов, а самообучающаяся система, которая выжимает из эксперта знания без его участия.

Хотя метод тестировали на текстах, принцип универсален для любой сферы, где есть субъективная оценка и накопленная база фидбека. Это может быть дизайн-код бренда, проверка программного кода или даже юридические правки. Везде, где сидит «главный», чьи вкусы определяют успех, можно внедрить этот метод. SEO для смыслов — вы больше не гадаете, что зайдет начальнику или клиенту, вы просто скармливаете его старое ворчание модели и получаете готовый фильтр качества.

Короче, хватит пытаться угадать настроение заказчика или редактора — это путь к выгоранию и бесконечным правкам. Feedback-to-Rubrics позволяет оцифровать чужую экспертизу и превратить её в рабочий инструмент. Если у вас есть хотя бы 30-40 комментариев от профи, вы можете создать его цифрового двойника-контролера. Кто первым научится вытаскивать такие скрытые знания из данных, тот перестанет тратить время на «поиграй со шрифтами» и начнет сразу попадать в цель.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с