TL;DR
Если попросить модель проверить свой же текст по чётким правилам — она справится так же честно, как если бы видела чужой. Исследователи проверяли: модель писала текст, программа находила нарушение правила, предлагала правку, и модель решала — принять или отклонить. Автор и "свежая" модель приняли правки с одинаковой частотой. Самолюбие не мешало.
Но страх, что модель защищает своё — не выдумка, просто он срабатывает в другом месте. Когда модель оценивает качество ("чей текст лучше?") — она склоняется к своему. Когда редактирует по чёткому правилу — нет. Разница: "напишите хорошо" — субъективно, "включи слово X, не используй запятые, начни с заглавной" — проверяемо. Именно там предвзятость пропадает.
Бонусный инсайт: когда модель всё-таки отвергает правку к своему тексту — в 97% случаев она ловит реальный изъян, который программа-верификатор пропустила. Не "я хочу оставить свой вариант", а "эта правка сломает ритм, смотри". Модельное "нет" — почти всегда профессиональная претензия.
Схема применения
Это исследование не метод, а карта: где самопроверка безопасна, а где нет.
КРИТЕРИЙ ОБЪЕКТИВНЫЙ? (можно проверить без суждения о вкусе)
→ ДА: попроси ту же модель проверить свою работу — работает честно
→ НЕТ: открой новый чат / используй другую модель → свежий взгляд
МОДЕЛЬ ОТВЕРГАЕТ ПРАВКУ К СВОЕМУ ТЕКСТУ?
→ 97% вероятность: она поймала реальный изъян → разберись что именно
→ 3% вероятность: предпочтение → можно настоять
Примеры объективных критериев: ровно N слов, включить фразу X, не использовать слово Y, начать с/закончить на, использовать маркированный список из N пунктов, написать заглавными.
Примеры субъективных: убедительно, живо, в стиле X, профессионально, лучше чем вариант B — здесь берите свежий контекст.
Пример применения
Задача: Написал пост для Telegram-канала о своём SaaS-продукте. Хочешь проверить, что пост точно соответствует требованиям — не больше 150 слов, заканчивается на призыв к действию "Пишите в личку", содержит слово "автоматизация".
Промпт:
Ты написал этот текст. Проверь его по трём правилам:
1. Не больше 150 слов
2. Заканчивается точной фразой «Пишите в личку»
3. Содержит слово «автоматизация»
Для каждого правила: выполнено или нет? Если нет — предложи минимальную правку,
которая исправит только это нарушение, не меняя остального.
Текст:
[вставь пост]
Результат: Модель разберёт каждый критерий отдельно. Там где правило нарушено — предложит точечную правку: добавит слово, обрежет до лимита, заменит финальную фразу. Если она отклонит какую-то предложенную тобой правку — скорее всего поймала реальный конфликт (правка слова X сломала выполнение правила Y). Это стоит проверить, не отмахиваться.
Почему это работает
Слабость LLM в оценке — модель не видит разницы между "мне нравится мой текст" и "этот текст объективно лучше". Когда критерий размытый, она тянется к знакомому — своему. Это задокументированная предвзятость в задачах сравнения.
Сильная сторона LLM в редактуре — модель отлично следует чётким правилам и ловит их нарушения. Когда вопрос сводится к "выполнено/не выполнено", а не "хорошо/плохо" — субъективная склонность не включается. Нечему тянуть в сторону своего: задача не про вкус, а про факт.
Как это использовать: Любую задачу редактуры формулируй через проверяемые критерии, а не через качество. "Проверь, что текст соответствует правилам" вместо "Оцени, хорошо ли написан твой текст". Первое — безопасно в том же контексте. Второе — открывает дверь для предвзятости и лучше делать в новом чате.
Шаблон промпта
Проверь {текст} по следующим критериям:
{список_правил — каждое на отдельной строке с номером}
Для каждого правила:
— Выполнено или нарушено?
— Если нарушено: предложи минимальную правку, которая исправит только это,
не затрагивая остальное.
Текст:
{вставь текст}
Что подставлять:
- {текст} — что проверяешь (пост, письмо, описание, техзадание)
- {список_правил} — конкретные, проверяемые требования: не более N слов, содержит фразу X, начинается с Y, без слова Z, заканчивается на Q
Важно: правила должны быть проверяемыми фактами, не вкусовыми суждениями. "Написано убедительно" — не правило для этого шаблона.
🚀 Быстрый старт — вставь в чат:
Используй этот шаблон для самопроверки текста по правилам.
Адаптируй под мою задачу: [опиши задачу].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какие критерии проверять и какой текст использовать — потому что без конкретных правил шаблон не работает: вся сила в том, что критерии объективны.
Ограничения
⚠️ Только объективные критерии: Для субъективной оценки — "убедительно", "в стиле X", "лучше чем вариант B" — предвзятость сохраняется. Берите свежий контекст.
⚠️ Тестировалось на средних моделях: GPT-4o mini, Claude 3.5 Haiku, Gemini 2.5 Flash Lite, Llama 70B. Топовые модели (GPT-4o, Claude Opus) не проверялись — они потолочат на простых правилах, и предвзятость там может вести себя иначе.
⚠️ Маленький эффект исключить нельзя: Выборка 85 примеров. Небольшая систематическая предвзятость (меньше ~13%) могла не попасть в данные. "Нет эффекта" — это "не обнаружили", а не "точно нет".
⚠️ Модель может ловить изъяны, которых нет: 97% отказов от правок — профессиональные претензии. Но иногда модель "находит проблему", которая не проблема. Её аргумент стоит проверять, а не принимать автоматически.
Как исследовали
Идея была элегантной: убрать человека из оценки "правильная ли правка?" — чтобы не получить круговую зависимость (спрашиваем модель, хорошая ли правка, и снова попадаем в ловушку предвзятости). Вместо этого взяли программный верификатор из Google — он механически проверяет, выполнено ли правило или нет. "Текст в заглавных буквах?" — программа знает, не нужен судья.
Дальше разделили роли: одна модель писала текст (автор в своём контексте, видит свою историю), другая оценивала правку в чистом новом чате (свежий взгляд, видит текст нейтрально). Обе получали одну машиноверифицированную правку и решали: принять или отклонить. И объясняли почему.
Прогнали через четыре модели, 85 черновиков с правками. Авторы отвергали правки в 15.3% случаев, свежие модели — в 20.4%. Разница 5 процентных пунктов, статистически незначима. Интересная деталь: у всех четырёх моделей авторская строгость держалась у одного уровня (~15%), а вот "свежие" разбросались от 9% до 44% — потому что разные модели по-разному строги как редакторы. Это говорит: поведение автора стабильно, а вот выбор "свежей" модели сильно меняет результат сравнения.
Адаптации и экстраполяции
💡 Адаптация: разделение сессий для субъективных задач
Исследование подтверждает: для объективных критериев самопроверка работает. Но для субъективных — авторы сами ссылаются на технику разделения контекста (Song, 2026). Её логика проста и применима в чате прямо сейчас:
🔧 Техника: два чата вместо одного → более честная оценка субъективного качества
Чат 1 (производство): пишешь текст, работаешь с черновиком Чат 2 (рецензия): открываешь новый чат, вставляешь текст, просишь оценить
Почему работает: новый чат не помнит как текст создавался, не "вложился" в него. Тот же принцип что и в исследовании — только ты воспроизводишь его вручную.
Прочитай этот текст как строгий редактор, который видит его впервые.
Не знаешь кто написал. Твоя задача — найти слабые места, не пощадить.
[вставь текст]
Что здесь не работает? Что читатель не дочитает или не поймёт?
Ресурсы
Название работы: Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship
Авторы: William Guey, Pierrick Bougault — Department of Industrial Engineering, Tsinghua University, Beijing
Код и данные: github.com/williamguey/self-preference-revision
Связанные работы из статьи: - Panickssery et al., 2024 — самопредвзятость при оценке качества (NeurIPS 2024, arXiv:2404.13076) - Song, 2026 — разделение сессий производства и рецензии (arXiv:2603.12123) - Jiang et al., 2025 — модели плохо принимают внешнюю критику (arXiv:2506.11930) - IFEval верификатор — github.com/google-research/google-research/tree/master/instruction_following_eval
