3,583 papers
arXiv:2606.20093 71 18 июня 2026 г. FREE

Самопроверка без самолюбия: модель честно критикует свой текст — но только когда критерий объективный

КЛЮЧЕВАЯ СУТЬ
Страх, что модель защищает свой текст — обоснован. Но срабатывает он не там, где все думают. При редактуре по чётким правилам модель оценивает свой и чужой текст одинаково честно — 4 модели, реальное авторство, одинаковая частота принятых правок. Метод позволяет безопасно пускать ту же модель на проверку своей же работы — без открытия нового чата. Фишка: замени «проверь, хорошо ли написано» на «проверь, выполнены ли правила 1, 2, 3» — и самолюбие не включается. Вопрос об авторстве исчезает сам: правило либо выполнено, либо нет.
Адаптировать под запрос

TL;DR

Если попросить модель проверить свой же текст по чётким правилам — она справится так же честно, как если бы видела чужой. Исследователи проверяли: модель писала текст, программа находила нарушение правила, предлагала правку, и модель решала — принять или отклонить. Автор и "свежая" модель приняли правки с одинаковой частотой. Самолюбие не мешало.

Но страх, что модель защищает своё — не выдумка, просто он срабатывает в другом месте. Когда модель оценивает качество ("чей текст лучше?") — она склоняется к своему. Когда редактирует по чёткому правилу — нет. Разница: "напишите хорошо" — субъективно, "включи слово X, не используй запятые, начни с заглавной" — проверяемо. Именно там предвзятость пропадает.

Бонусный инсайт: когда модель всё-таки отвергает правку к своему тексту — в 97% случаев она ловит реальный изъян, который программа-верификатор пропустила. Не "я хочу оставить свой вариант", а "эта правка сломает ритм, смотри". Модельное "нет" — почти всегда профессиональная претензия.


📌

Схема применения

Это исследование не метод, а карта: где самопроверка безопасна, а где нет.

КРИТЕРИЙ ОБЪЕКТИВНЫЙ? (можно проверить без суждения о вкусе)
  → ДА: попроси ту же модель проверить свою работу — работает честно
  → НЕТ: открой новый чат / используй другую модель → свежий взгляд

МОДЕЛЬ ОТВЕРГАЕТ ПРАВКУ К СВОЕМУ ТЕКСТУ?
  → 97% вероятность: она поймала реальный изъян → разберись что именно
  → 3% вероятность: предпочтение → можно настоять

Примеры объективных критериев: ровно N слов, включить фразу X, не использовать слово Y, начать с/закончить на, использовать маркированный список из N пунктов, написать заглавными.

Примеры субъективных: убедительно, живо, в стиле X, профессионально, лучше чем вариант B — здесь берите свежий контекст.


🚀

Пример применения

Задача: Написал пост для Telegram-канала о своём SaaS-продукте. Хочешь проверить, что пост точно соответствует требованиям — не больше 150 слов, заканчивается на призыв к действию "Пишите в личку", содержит слово "автоматизация".

Промпт:

Ты написал этот текст. Проверь его по трём правилам:
1. Не больше 150 слов
2. Заканчивается точной фразой «Пишите в личку»
3. Содержит слово «автоматизация»

Для каждого правила: выполнено или нет? Если нет — предложи минимальную правку, 
которая исправит только это нарушение, не меняя остального.

Текст:
[вставь пост]

Результат: Модель разберёт каждый критерий отдельно. Там где правило нарушено — предложит точечную правку: добавит слово, обрежет до лимита, заменит финальную фразу. Если она отклонит какую-то предложенную тобой правку — скорее всего поймала реальный конфликт (правка слова X сломала выполнение правила Y). Это стоит проверить, не отмахиваться.


🧠

Почему это работает

Слабость LLM в оценке — модель не видит разницы между "мне нравится мой текст" и "этот текст объективно лучше". Когда критерий размытый, она тянется к знакомому — своему. Это задокументированная предвзятость в задачах сравнения.

Сильная сторона LLM в редактуре — модель отлично следует чётким правилам и ловит их нарушения. Когда вопрос сводится к "выполнено/не выполнено", а не "хорошо/плохо" — субъективная склонность не включается. Нечему тянуть в сторону своего: задача не про вкус, а про факт.

Как это использовать: Любую задачу редактуры формулируй через проверяемые критерии, а не через качество. "Проверь, что текст соответствует правилам" вместо "Оцени, хорошо ли написан твой текст". Первое — безопасно в том же контексте. Второе — открывает дверь для предвзятости и лучше делать в новом чате.


📋

Шаблон промпта

Проверь {текст} по следующим критериям:
{список_правил — каждое на отдельной строке с номером}

Для каждого правила:
— Выполнено или нарушено?
— Если нарушено: предложи минимальную правку, которая исправит только это, 
  не затрагивая остальное.

Текст:
{вставь текст}

Что подставлять: - {текст} — что проверяешь (пост, письмо, описание, техзадание) - {список_правил} — конкретные, проверяемые требования: не более N слов, содержит фразу X, начинается с Y, без слова Z, заканчивается на Q

Важно: правила должны быть проверяемыми фактами, не вкусовыми суждениями. "Написано убедительно" — не правило для этого шаблона.


🚀 Быстрый старт — вставь в чат:

Используй этот шаблон для самопроверки текста по правилам. 
Адаптируй под мою задачу: [опиши задачу].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие критерии проверять и какой текст использовать — потому что без конкретных правил шаблон не работает: вся сила в том, что критерии объективны.


⚠️

Ограничения

⚠️ Только объективные критерии: Для субъективной оценки — "убедительно", "в стиле X", "лучше чем вариант B" — предвзятость сохраняется. Берите свежий контекст.

⚠️ Тестировалось на средних моделях: GPT-4o mini, Claude 3.5 Haiku, Gemini 2.5 Flash Lite, Llama 70B. Топовые модели (GPT-4o, Claude Opus) не проверялись — они потолочат на простых правилах, и предвзятость там может вести себя иначе.

⚠️ Маленький эффект исключить нельзя: Выборка 85 примеров. Небольшая систематическая предвзятость (меньше ~13%) могла не попасть в данные. "Нет эффекта" — это "не обнаружили", а не "точно нет".

⚠️ Модель может ловить изъяны, которых нет: 97% отказов от правок — профессиональные претензии. Но иногда модель "находит проблему", которая не проблема. Её аргумент стоит проверять, а не принимать автоматически.


🔍

Как исследовали

Идея была элегантной: убрать человека из оценки "правильная ли правка?" — чтобы не получить круговую зависимость (спрашиваем модель, хорошая ли правка, и снова попадаем в ловушку предвзятости). Вместо этого взяли программный верификатор из Google — он механически проверяет, выполнено ли правило или нет. "Текст в заглавных буквах?" — программа знает, не нужен судья.

Дальше разделили роли: одна модель писала текст (автор в своём контексте, видит свою историю), другая оценивала правку в чистом новом чате (свежий взгляд, видит текст нейтрально). Обе получали одну машиноверифицированную правку и решали: принять или отклонить. И объясняли почему.

Прогнали через четыре модели, 85 черновиков с правками. Авторы отвергали правки в 15.3% случаев, свежие модели — в 20.4%. Разница 5 процентных пунктов, статистически незначима. Интересная деталь: у всех четырёх моделей авторская строгость держалась у одного уровня (~15%), а вот "свежие" разбросались от 9% до 44% — потому что разные модели по-разному строги как редакторы. Это говорит: поведение автора стабильно, а вот выбор "свежей" модели сильно меняет результат сравнения.


💡

Адаптации и экстраполяции

💡 Адаптация: разделение сессий для субъективных задач

Исследование подтверждает: для объективных критериев самопроверка работает. Но для субъективных — авторы сами ссылаются на технику разделения контекста (Song, 2026). Её логика проста и применима в чате прямо сейчас:

🔧 Техника: два чата вместо одного → более честная оценка субъективного качества

Чат 1 (производство): пишешь текст, работаешь с черновиком Чат 2 (рецензия): открываешь новый чат, вставляешь текст, просишь оценить

Почему работает: новый чат не помнит как текст создавался, не "вложился" в него. Тот же принцип что и в исследовании — только ты воспроизводишь его вручную.

Прочитай этот текст как строгий редактор, который видит его впервые.
Не знаешь кто написал. Твоя задача — найти слабые места, не пощадить.

[вставь текст]

Что здесь не работает? Что читатель не дочитает или не поймёт?

🔗

Ресурсы

Название работы: Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship

Авторы: William Guey, Pierrick Bougault — Department of Industrial Engineering, Tsinghua University, Beijing

Код и данные: github.com/williamguey/self-preference-revision

Связанные работы из статьи: - Panickssery et al., 2024 — самопредвзятость при оценке качества (NeurIPS 2024, arXiv:2404.13076) - Song, 2026 — разделение сессий производства и рецензии (arXiv:2603.12123) - Jiang et al., 2025 — модели плохо принимают внешнюю критику (arXiv:2506.11930) - IFEval верификатор — github.com/google-research/google-research/tree/master/instruction_following_eval


📋 Дайджест исследования

Ключевая суть

Страх, что модель защищает свой текст — обоснован. Но срабатывает он не там, где все думают. При редактуре по чётким правилам модель оценивает свой и чужой текст одинаково честно — 4 модели, реальное авторство, одинаковая частота принятых правок. Метод позволяет безопасно пускать ту же модель на проверку своей же работы — без открытия нового чата. Фишка: замени «проверь, хорошо ли написано» на «проверь, выполнены ли правила 1, 2, 3» — и самолюбие не включается. Вопрос об авторстве исчезает сам: правило либо выполнено, либо нет.

Принцип работы

Критерий либо проверяемый, либо нет — и это решает всё. Проверяемый: не больше 150 слов, содержит фразу X, начинается с Y, без слова Z. Непроверяемый: убедительно, в стиле X, лучше чем вариант B. Первое — делай в том же контексте, та же модель справится честно. Второе — открывай новый чат. Здесь предвзятость живёт и процветает. Процесс: дай список конкретных правил → попроси отметить «выполнено/нарушено» по каждому → для нарушений — минимальная точечная правка, не затрагивающая остальное.

Почему работает

Когда нет субъективности — нечему тянуть в сторону «своего». Оба варианта либо соответствуют правилу, либо нет. Модель не может «предпочесть» свой текст — здесь нет места для вкуса. Самопредвзятость включается именно в задачах сравнения: «чей текст убедительнее?» — модель тянется к знакомому. «Включено слово X?» — тут тянуться некуда. И вот это реально удивляет: когда модель всё-таки отклоняет правку к своему тексту — в 97% случаев она поймала реальный изъян, который автоматический верификатор пропустил. Модельное «нет» — почти всегда профессиональная претензия, не самолюбие. Стоит разбираться, а не настаивать.

Когда применять

Редактура и проверка текстов — посты, письма, техзадания, описания продуктов — когда есть чёткий список требований. Особенно удобно, когда не хочется открывать новый чат ради механической проверки. НЕ подходит для субъективной оценки: «убедительно», «в стиле X», «лучше чем вариант B» — там предвзятость сохраняется. Для таких задач свежий контекст или другая модель. Оговорка от исследователей: тестировалось на средних моделях (GPT-4o mini, Claude 3.5 Haiku, Gemini 2.5 Flash Lite, Llama 70B) на выборке 85 примеров. Совсем мелкая систематическая предвзятость (меньше ~13%) могла в данные не попасть.

Мини-рецепт

1. Переформулируй задачу: Вместо «проверь, хорошо ли написан текст» — «проверь текст по правилам 1, 2, 3».
2. Сделай критерии проверяемыми: Каждое правило — однозначный ответ «выполнено/нарушено». Примеры: не больше N слов, содержит фразу X, начинается с Y, без слова Z, заканчивается на Q.
3. Попроси точечные правки: Для каждого нарушения — минимальное исправление, которое трогает только его и не ломает остальное.
4. Не отмахивайся от отказа: Если модель не принимает правку — разберись почему. Скорее всего поймала реальный конфликт: правка слова X сломала выполнение правила Y.

Примеры

[ПЛОХО] : Я написал этот пост. Проверь — хорошо ли он написан?
[ХОРОШО] : Проверь пост по трём правилам: 1. Не больше 150 слов 2. Содержит слово «автоматизация» 3. Заканчивается точной фразой «Пишите в личку» Для каждого правила: выполнено или нарушено? Если нарушено — предложи минимальную правку, которая исправит только это, не меняя остального. Текст: [вставь текст]
Источник: Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship
ArXiv ID: 2606.20093 | Сгенерировано: 2026-06-19 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель нечестно оценивает качество своего текстаПросишь сравнить два варианта: свой и чужой. Модель тянется к своему. Не потому что он лучше — просто он знакомый. Результат: "мой текст лучше" без объективного основания. Срабатывает везде где критерий размытый: "убедительно", "живо", "в стиле X"Не проси модель сравнивать или оценивать качество в том же чате где она писала. Открой новый чат или смени модель. Для сравнения ("чей текст лучше?") — только свежий контекст

Методы

МетодСуть
Самопроверка по объективным правилам — не нужен новый чатПопроси ту же модель проверить свой текст по чётким правилам. Проверь текст по правилам: 1. Не больше 150 слов. 2. Содержит слово «автоматизация». 3. Заканчивается фразой «Пишите в личку». Для каждого: выполнено или нет? Если нет — предложи минимальную правку. Почему работает: когда критерий проверяемый ("есть слово / нет слова"), нет субъективного притяжения к своему варианту. Задача — факт, не вкус. Когда да: счёт слов, наличие фразы, структура списка, заглавные буквы, запрет конкретного слова. Когда нет: "убедительно", "профессионально", "лучше чем вариант B" — туда предвзятость проникает

Тезисы

ТезисКомментарий
Самопредвзятость включается только на субъективных задачахМодель защищает свой текст когда критерий — вкус ("хорошо написано?"). Когда критерий — факт ("выполнено правило?") — предвзятость не включается. Механика: субъективный критерий не даёт точки опоры, модель тянется к знакомому (своему). Объективный критерий — это да/нет, тянуться некуда. Применяй: любую задачу редактуры формулируй через проверяемые правила, не через качество. "Проверь соответствие правилам" вместо "оцени, хорошо ли написано"
📖 Простыми словами

Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-ModelTest Under Genuine Authorship

arXiv: 2606.20093

Проблема предвзятости нейросетей всегда упиралась в их «эго»: считалось, что модели по умолчанию подыгрывают сами себе и считают свои ответы эталоном. Но свежее исследование показывает, что этот механизм ломается, когда дело доходит до проверяемых инструкций. Как только у модели появляется четкая линейка в виде жестких правил, ее хваленая самовлюбленность испаряется. Она начинает оценивать свой текст так же беспристрастно, как работу соседа, потому что логика «соответствует или нет» перевешивает инстинкт self-preference.

Это похоже на ситуацию с поваром, который пересолил суп. Если ты просто спросишь: «Ну как, вкусно?», он из гордости ответит, что это шедевр. Но если ткнуть его носом в техкарту, где написано «не более 5 грамм соли», и показать результаты анализа, он молча признает косяк и переделает. В этом исследовании роль анализатора играла программа, которая находила нарушения правил, а модель выступала в роли судьи. Оказалось, что авторы текста и «независимые» модели принимали правки с одинаковой частотой — самолюбие не мешало признавать ошибки.

В работе использовали метод верифицируемого редактирования: модель пишет текст, алгоритм находит нарушение конкретного правила (например, «не использовать слово "однако"»), предлагает исправление, а модель решает, стало ли лучше. Исследователи прогнали через этот тест четыре топовые модели и выяснили, что предвзятость к авторству практически отсутствует. Если правка объективно исправляет нарушение инструкции, модель берет ее в работу, не пытаясь защитить свой первоначальный вариант.

Этот принцип легко масштабируется на любые задачи, где есть четкие критерии качества. Тестировали на текстах, но схема применима к коду, юридическим договорам или техническим спецификациям. Главное здесь — уйти от размытых просьб вроде «сделай красиво» к конкретным параметрам. Когда критерий измерим, GEO и другие методы оптимизации контента начинают работать на порядок эффективнее, потому что AI перестает «галлюцинировать» о собственном величии и превращается в строгого корректора.

Короче, миф о том, что нейросеть всегда будет защищать свой бред, разрушен — ей просто нужны понятные рамки. Хватит ждать от моделей адекватной самокритики в вакууме; нужно давать им внешнюю систему координат и конкретные правила проверки. Объективность достижима, если заменить субъективное «нравится» на жесткое «соответствует». Кто научится выстраивать такие цепочки проверки, получит контент без мусора, пока остальные будут жаловаться на «упрямство» алгоритмов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с