3,583 papers
arXiv:2606.06271 75 4 июня 2026 г. FREE

FOXGLOVE-принципы: как получить от LLM обратную связь по тексту, а не псевдонаучную рецензию

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM пишет обратную связь в два раза длиннее эксперта (87 слов против 38) — и на первый взгляд кажется убедительнее. Но когда исследователи убрали длину из уравнения, преимущество почти исчезло. Вся видимая «глубина» — просто объём. Метод FOXGLOVE позволяет получить от LLM короткую, конкретную обратную связь с привязкой к цитатам и расстановкой приоритетов — как у живого редактора. Фишка: пять явных инструкций в одном промпте перебивают дефолтный паттерн «академической рецензии» — и модель перестаёт лить воду, начинает задавать вопросы и выбирает что важнее всего исправить первым.
Адаптировать под запрос

TL;DR

Когда просишь LLM дать обратную связь по тексту, она выдаёт длинные, безличные утверждения — без вопросов, без указания конкретных предложений, без расстановки приоритетов. Звучит авторитетно, но сложно применить: непонятно что исправлять в первую очередь, а тон — как у проверяющего, не наставника.

Исследование FOXGLOVE сравнило 696 комментариев живых преподавателей с 1644 комментариями четырёх топовых LLM на одних и тех же текстах. Нашлось три устойчивых разрыва: LLM пишет в два раза длиннее (87 слов против 38), почти не задаёт вопросов (0.23 против 0.85 на 100 слов) и редко расставляет приоритеты — когда два ревьюера совпадают в оценке срочности, это случается лишь в 38% случаев. При этом более высокие оценки качества LLM-комментариев почти полностью объясняются длиной: когда длину выравнивают статистически, разрыв практически исчезает.

Из находок исследования вытекает набор конкретных инструкций: попроси LLM привязать каждый комментарий к цитате, ограничить длину, задавать вопросы, обращаться напрямую («ты/вы») и выбрать три самых срочных замечания. Это перекрывает все три разрыва одним промптом.


🔬

Схема метода

Один промпт, пять правил:

ПРАВИЛО 1: Цитата → LLM привязывает комментарий к конкретному предложению текста
ПРАВИЛО 2: Цель → LLM указывает, что именно комментирует (тезис/аргумент/доказательство/контраргумент/опровержение)
ПРАВИЛО 3: Короткий комментарий (до 40 слов) + вопрос или прямое обращение
ПРАВИЛО 4: Топ-3 по срочности → LLM выбирает и нумерует важнейшее
ПРАВИЛО 5: Итоговая фраза → один глобальный вывод о тексте в целом

Всё выполняется в одном запросе.


🚀

Пример применения

Задача: Основатель стартапа написал питч-текст для Telegram-канала венчурного фонда. Хочет понять, что слабо, прежде чем рассылать.

Промпт:

Дай обратную связь по моему тексту. Соблюдай правила:

Для каждого комментария:
— Процитируй точное предложение, о котором говоришь
— Укажи его роль: Тезис / Аргумент / Доказательство / Контраргумент / Опровержение
— Напиши комментарий: до 40 слов, с вопросом или прямым обращением на «вы»

После всех комментариев:
— Выбери 3 самых важных и пронумеруй по срочности (1 = исправить первым)
— Напиши одну итоговую фразу о тексте в целом

Текст:
«Мы создали платформу для автоматизации найма. 
Рынок HR-tech в России растёт на 25% в год. 
Наш продукт сокращает время закрытия вакансии с 45 до 12 дней. 
Конкуренты не решают проблему bias при отборе. 
Мы уже работаем с тремя компаниями из списка Forbes.»

Результат: Модель разберёт каждое предложение: процитирует его, назовёт роль в аргументации, напишет короткий комментарий с вопросом (например: «Как именно вы измерили сокращение с 45 до 12 дней — это средний показатель по всем клиентам?»). Потом выберет тройку приоритетов с нумерацией. В конце — одна итоговая оценка всей аргументации. Ответ будет структурированным и коротким — без многостраничных рассуждений.


🧠

Почему это работает

LLM генерирует текст, ориентируясь на паттерны из обучающих данных. Обратная связь на академические тексты в этих данных — длинная, формальная, в стиле рецензии. Поэтому по умолчанию модель и выдаёт именно такой формат: объёмный, безличный, без вопросов.

При этом LLM очень хорошо следует явным структурным инструкциям. Если сказано «до 40 слов» — будет 40. Если сказано «задай вопрос» — задаст. Структурированный промпт перебивает паттерн по умолчанию и задаёт новый.

Расстановка приоритетов — отдельная слабость. Исследование показало: когда два разных ревьюера (даже оба LLM) смотрят на один и тот же текст, они совпадают по срочности лишь в каждом пятом случае. Явная инструкция «выбери топ-3» не гарантирует экспертной точности, но хотя бы заставляет модель сделать выбор, а не выдать всё с одинаковым весом.

Рычаги управления промптом: - Лимит слов (40 слов) → увеличь до 70-80, если нужна развёрнутая аргументация по каждому пункту - Количество приоритетов (3 → 5) → для длинных текстов или когда нужен полный разбор - Список целей → замени пять академических категорий на свои (например: «крючок / проблема / решение / CTA» для маркетинговых текстов) - Тон обращения («вы» → «ты») → адаптируй под стиль общения - Добавь роль → «Ты — опытный редактор делового текста» усилит точность категоризации


📋

Шаблон промпта

Дай обратную связь по моему тексту. Соблюдай правила:

Для каждого комментария:
— Процитируй точное предложение, о котором говоришь
— Укажи его роль: {список_ролей}
— Напиши комментарий: до {лимит_слов} слов, с вопросом или прямым обращением

После всех комментариев:
— Выбери {число_приоритетов} самых важных и пронумеруй по срочности (1 = исправить первым)
— Напиши одну итоговую фразу о тексте в целом

Текст:
{текст}

Что подставлять: - {список_ролей} — для аргументативных текстов: «Тезис / Аргумент / Доказательство / Контраргумент / Опровержение». Для питчей: «Проблема / Решение / Доказательство / Возражение / Призыв к действию». Для статей: «Главная мысль / Аргумент / Пример / Переход» - {лимит_слов} — 40 для плотной, действенной обратной связи; 70-80 если хочешь развёрнутые объяснения - {число_приоритетов} — 3 для коротких текстов, 5 для длинных - {текст} — твой текст целиком


🚀 Быстрый старт — вставь в чат:

Вот шаблон для структурированной обратной связи по тексту. 
Адаптируй под мою задачу: {опиши задачу}. 
Задавай вопросы, чтобы заполнить нужные поля.

[вставить шаблон выше]

LLM спросит про тип текста и нужные категории ролей — потому что список ролей зависит от жанра: питч, статья, эссе и пост в Telegram требуют разных категорий.


⚠️

Ограничения

⚠️ Приоритизация — слабое место: Даже с явной инструкцией «выбери топ-3» LLM расставляет приоритеты иначе, чем эксперт. Используй как отправную точку, а не как окончательный вердикт — проверяй финальный порядок сам.

⚠️ Тон остаётся формальным: Это единственное измерение, где LLM стабильно уступает живым преподавателям. Добавление вопросов и «вы/ты» частично компенсирует, но полностью репликой живого наставника не станет. Для эмоционально чувствительной обратной связи (детские тексты, творческие работы) — осторожнее.

⚠️ Конкретные предложения — не гарантия: LLM и эксперты совпадают в выборе конкретного предложения примерно в каждом пятом случае. Цитата появится, но не факт что моделью выбрана именно та фраза, которую отметил бы живой ревьюер.

⚠️ Длина ≠ качество: Кажущееся превосходство длинных LLM-комментариев статистически объясняется самой длиной. Если ограничение по словам убрать — получишь мощно звучащий, но не более полезный текст.


🔗

Ресурсы

FOXGLOVE: Understanding Goal-Oriented and Anchored Writing Feedback from Experts and LLMs on Argumentative Essays Yijun Liu, Yifan Song, John Gallagher, Sarah Sterman, Tal August University of Illinois Urbana-Champaign Датасет: github.com/yijunliu23/foxglove_data_release


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM пишет обратную связь в два раза длиннее эксперта (87 слов против 38) — и на первый взгляд кажется убедительнее. Но когда исследователи убрали длину из уравнения, преимущество почти исчезло. Вся видимая «глубина» — просто объём. Метод FOXGLOVE позволяет получить от LLM короткую, конкретную обратную связь с привязкой к цитатам и расстановкой приоритетов — как у живого редактора. Фишка: пять явных инструкций в одном промпте перебивают дефолтный паттерн «академической рецензии» — и модель перестаёт лить воду, начинает задавать вопросы и выбирает что важнее всего исправить первым.

Принцип работы

По умолчанию LLM обучена на академических рецензиях. Видит текст — выдаёт длинный, безличный разбор без вопросов и без приоритетов. Это не баг, это паттерн из обучающих данных. Явная структура в промпте перебивает этот паттерн: скажи «до 40 слов» — будет 40, скажи «задай вопрос» — задаст, скажи «выбери топ-3» — выберет. Пять правил закрывают три разрыва между LLM и экспертом разом: длина, вопросы, привязка к конкретному предложению.

Почему работает

LLM хорошо следует структурным инструкциям — это её сильная сторона. Проблема не в том, что модель не умеет давать короткую обратную связь. Она тянется к длинному, потому что в обучающих данных именно такие рецензии. 696 комментариев живых преподавателей против 1644 комментариев четырёх топовых моделей — цифры однозначны: без инструкции LLM задаёт вопросы в 3,7 раза реже (0.23 против 0.85 на 100 слов), а приоритеты двух независимых ревьюеров совпадают лишь в каждом пятом случае. Добавь инструкцию — модель исправляется.

Когда применять

Любой текст, где нужна редактура: питч для инвестора, статья, пост в соцсети, деловое письмо, резюме — особенно когда важно понять что исправить в первую очередь, а не получить многостраничный разбор. Не подходит для эмоционально чувствительной обратной связи (детские работы, творческие тексты) — тон LLM остаётся формальным даже с инструкцией.

Мини-рецепт

1. Задай список ролей: укажи категории для твоего типа текста. Для питча: «Проблема / Решение / Доказательство / Возражение / Призыв к действию». Для эссе: «Тезис / Аргумент / Доказательство / Контраргумент / Опровержение». Для статьи: «Главная мысль / Аргумент / Пример / Переход».
2. Потребуй цитату: скажи модели цитировать точное предложение перед каждым комментарием. Это убирает размытое «в целом текст слабый» и привязывает замечание к месту.
3. Поставь лимит слов: 40 слов на комментарий — главная кнопка против словоблудия. Нужна развёрнутая аргументация — подними до 70-80.
4. Добавь вопрос: потребуй заканчивать каждый комментарий вопросом или прямым обращением на «вы/ты». Это переключает тон с оценочного на диалоговый.
5. Заставь выбрать: попроси указать топ-3 по срочности с нумерацией (1 = исправить первым). Модель вынуждена расставить приоритеты — вместо того чтобы выдать всё с одинаковым весом.

Примеры

[ПЛОХО] : Дай обратную связь по моему тексту
[ХОРОШО] : Дай обратную связь по тексту. Для каждого комментария: процитируй точное предложение → укажи его роль (Проблема / Решение / Доказательство / Возражение / Призыв к действию) → напиши комментарий до 40 слов с вопросом или прямым обращением на «вы». После всех комментариев: выбери 3 самых важных, пронумеруй по срочности (1 = исправить первым), напиши одну итоговую фразу о тексте в целом. Текст: [вставить текст]
Источник: FOXGLOVE: Understanding Goal-Oriented and Anchored Writing Feedback from Experts and LLMs on Argumentative Essays
ArXiv ID: 2606.06271 | Сгенерировано: 2026-06-05 10:00

Проблемы LLM

ПроблемаСутьКак обойти
Обратная связь по тексту выходит длинной и безличнойПросишь разобрать текст. Модель выдаёт многословный монолог без вопросов. Тон — как у проверяющего. Звучит авторитетно, но применить сложно: непонятно что важнее, непонятно что исправлять первым. Причина: в обучающих данных обратная связь выглядит именно так — длинная академическая рецензия. Модель копирует этот паттернДобавь в запрос явные структурные ограничения: лимит слов на комментарий, обязательный вопрос, прямое обращение «ты/вы». Это перебивает паттерн по умолчанию
Без явной инструкции модель не расставляет приоритетыПросишь найти слабые места — получаешь список. Всё в нём выглядит одинаково важным. Что исправлять первым — непонятно. Модель не выбирает: просто перечисляет. Это работает против тебя когда нужно принять решение быстроЯвно попроси: «выбери 3 самых важных замечания и пронумеруй по срочности». Модель сделает выбор. Результат не совпадёт с мнением эксперта на 100%, но даст отправную точку

Методы

МетодСуть
Структурированный запрос на обратную связь по текстуДобавь в запрос пять обязательных элементов. 1. Цитата — модель указывает точное предложение о котором говорит. 2. Роль — называет функцию этого предложения в тексте (например: «Тезис / Аргумент / Доказательство / Контраргумент / Опровержение» — или свои категории под жанр). 3. Лимит слов — до 40 слов на комментарий. 4. Вопрос или прямое обращение — обязательно в каждом комментарии. 5. Топ-3 приоритета с нумерацией по срочности в конце. Синтаксис: — Процитируй точное предложение — Укажи роль — Комментарий до 40 слов с вопросом — Топ-3 по срочности — Одна итоговая фраза о тексте. Почему работает: каждое правило закрывает конкретный разрыв — лимит бьёт многословность, вопрос включает диалог, цитата убирает размытость, приоритет заставляет выбирать. Меняй под задачу: список ролей — под жанр текста; лимит 40 70-80 слов если нужна более детальная аргументация; топ-3 топ-5 для длинных текстов
📖 Простыми словами

FOXGLOVE: Understanding Goal-Oriented and Anchored Writing Feedback from Experts andLLMson Argumentative Essays

arXiv: 2606.06271

Проблема в том, что когда ты просишь нейронку проверить твой текст, она превращается в душного профессора. Вместо реальной помощи ты получаешь простыню безличных советов, где всё свалено в одну кучу. Модель не понимает приоритетов: она может придраться к запятой с тем же пафосом, что и к отсутствию логики в финале. В итоге ты сидишь с горой текста, который звучит авторитетно, но абсолютно бесполезен, потому что непонятно, за что хвататься в первую очередь.

Это как если бы ты пришел к тренеру научиться боксировать, а он вместо того, чтобы поправить твой локоть, зачитал бы тебе лекцию об истории единоборств и биомеханике удара. Вроде всё по делу, но челюсть тебе всё равно сломают, потому что конкретного указания «делай так» ты не получил. Нейронка по умолчанию работает как рецензент, а не наставник, и в этом её главный косяк.

Чтобы это исправить, исследователи выкатили метод FOXGLOVE, который заставляет LLM сменить роль. Суть проста: вместо общих фраз модель заставляют использовать якорную привязку к конкретным предложениям и задавать наводящие вопросы. Работает это через жесткий промпт из пяти правил, где главное — расстановка приоритетов. Сначала исправляем фундамент, потом красим стены. Если в твоем питче нет внятной бизнес-модели, нейронка не должна тратить твое время на обсуждение «слишком длинных предложений».

Хотя метод гоняли на академических эссе, этот принцип универсален. Он идеально ложится на проверку питчей для инвесторов, постов в телегу или рабочих писем. Вместо того чтобы выслушивать от ChatGPT, что твой текст «недостаточно вовлекающий», ты получаешь хирургический разбор: «В третьем предложении ты теряешь нить, спроси себя — поймет ли инвестор, на чем ты делаешь деньги?». Это превращает тупую генерацию текста в осмысленный диалог, где AI работает как опытный редактор.

Короче: стандартная обратная связь от AI — это белый шум и канцелярит. Если хочешь реального прогресса, забудь про промпты в духе «проверь мой текст». Нужно внедрять целеполагание и привязку к контексту, иначе ты так и будешь получать вежливые, но бесполезные отписки. Либо ты дрессируешь модель давать конкретику, либо продолжаешь тонуть в советах, которые формально правильны, но фактически не применимы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с