arXiv:2606.20093 71 18 июня 2026 г. FREE

Самопроверка без самолюбия: модель честно критикует свой текст — но только когда критерий объективный

КЛЮЧЕВАЯ СУТЬ

Страх, что модель защищает свой текст — обоснован. Но срабатывает он не там, где все думают. При редактуре по чётким правилам модель оценивает свой и чужой текст одинаково честно — 4 модели, реальное авторство, одинаковая частота принятых правок. Метод позволяет безопасно пускать ту же модель на проверку своей же работы — без открытия нового чата. Фишка: замени «проверь, хорошо ли написано» на «проверь, выполнены ли правила 1, 2, 3» — и самолюбие не включается. Вопрос об авторстве исчезает сам: правило либо выполнено, либо нет.

Адаптировать под запрос

⚡

TL;DR

Если попросить модель проверить свой же текст по чётким правилам — она справится так же честно, как если бы видела чужой. Исследователи проверяли: модель писала текст, программа находила нарушение правила, предлагала правку, и модель решала — принять или отклонить. Автор и "свежая" модель приняли правки с одинаковой частотой. Самолюбие не мешало.

Но страх, что модель защищает своё — не выдумка, просто он срабатывает в другом месте. Когда модель оценивает качество ("чей текст лучше?") — она склоняется к своему. Когда редактирует по чёткому правилу — нет. Разница: "напишите хорошо" — субъективно, "включи слово X, не используй запятые, начни с заглавной" — проверяемо. Именно там предвзятость пропадает.

Бонусный инсайт: когда модель всё-таки отвергает правку к своему тексту — в 97% случаев она ловит реальный изъян, который программа-верификатор пропустила. Не "я хочу оставить свой вариант", а "эта правка сломает ритм, смотри". Модельное "нет" — почти всегда профессиональная претензия.

📌

Схема применения

Это исследование не метод, а карта: где самопроверка безопасна, а где нет.

КРИТЕРИЙ ОБЪЕКТИВНЫЙ? (можно проверить без суждения о вкусе)
  → ДА: попроси ту же модель проверить свою работу — работает честно
  → НЕТ: открой новый чат / используй другую модель → свежий взгляд

МОДЕЛЬ ОТВЕРГАЕТ ПРАВКУ К СВОЕМУ ТЕКСТУ?
  → 97% вероятность: она поймала реальный изъян → разберись что именно
  → 3% вероятность: предпочтение → можно настоять

Примеры объективных критериев: ровно N слов, включить фразу X, не использовать слово Y, начать с/закончить на, использовать маркированный список из N пунктов, написать заглавными.

Примеры субъективных: убедительно, живо, в стиле X, профессионально, лучше чем вариант B — здесь берите свежий контекст.

🚀

Пример применения

Задача: Написал пост для Telegram-канала о своём SaaS-продукте. Хочешь проверить, что пост точно соответствует требованиям — не больше 150 слов, заканчивается на призыв к действию "Пишите в личку", содержит слово "автоматизация".

Промпт:

Ты написал этот текст. Проверь его по трём правилам:
1. Не больше 150 слов
2. Заканчивается точной фразой «Пишите в личку»
3. Содержит слово «автоматизация»

Для каждого правила: выполнено или нет? Если нет — предложи минимальную правку, 
которая исправит только это нарушение, не меняя остального.

Текст:
[вставь пост]

Результат: Модель разберёт каждый критерий отдельно. Там где правило нарушено — предложит точечную правку: добавит слово, обрежет до лимита, заменит финальную фразу. Если она отклонит какую-то предложенную тобой правку — скорее всего поймала реальный конфликт (правка слова X сломала выполнение правила Y). Это стоит проверить, не отмахиваться.

🧠

Почему это работает

Слабость LLM в оценке — модель не видит разницы между "мне нравится мой текст" и "этот текст объективно лучше". Когда критерий размытый, она тянется к знакомому — своему. Это задокументированная предвзятость в задачах сравнения.

Сильная сторона LLM в редактуре — модель отлично следует чётким правилам и ловит их нарушения. Когда вопрос сводится к "выполнено/не выполнено", а не "хорошо/плохо" — субъективная склонность не включается. Нечему тянуть в сторону своего: задача не про вкус, а про факт.

Как это использовать: Любую задачу редактуры формулируй через проверяемые критерии, а не через качество. "Проверь, что текст соответствует правилам" вместо "Оцени, хорошо ли написан твой текст". Первое — безопасно в том же контексте. Второе — открывает дверь для предвзятости и лучше делать в новом чате.

📋

Шаблон промпта

Проверь {текст} по следующим критериям:
{список_правил — каждое на отдельной строке с номером}

Для каждого правила:
— Выполнено или нарушено?
— Если нарушено: предложи минимальную правку, которая исправит только это, 
  не затрагивая остальное.

Текст:
{вставь текст}

Что подставлять: - {текст} — что проверяешь (пост, письмо, описание, техзадание) - {список_правил} — конкретные, проверяемые требования: не более N слов, содержит фразу X, начинается с Y, без слова Z, заканчивается на Q

Важно: правила должны быть проверяемыми фактами, не вкусовыми суждениями. "Написано убедительно" — не правило для этого шаблона.

🚀 Быстрый старт — вставь в чат:

Используй этот шаблон для самопроверки текста по правилам. 
Адаптируй под мою задачу: [опиши задачу].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие критерии проверять и какой текст использовать — потому что без конкретных правил шаблон не работает: вся сила в том, что критерии объективны.

⚠️

Ограничения

⚠️ Только объективные критерии: Для субъективной оценки — "убедительно", "в стиле X", "лучше чем вариант B" — предвзятость сохраняется. Берите свежий контекст.

⚠️ Тестировалось на средних моделях: GPT-4o mini, Claude 3.5 Haiku, Gemini 2.5 Flash Lite, Llama 70B. Топовые модели (GPT-4o, Claude Opus) не проверялись — они потолочат на простых правилах, и предвзятость там может вести себя иначе.

⚠️ Маленький эффект исключить нельзя: Выборка 85 примеров. Небольшая систематическая предвзятость (меньше ~13%) могла не попасть в данные. "Нет эффекта" — это "не обнаружили", а не "точно нет".

⚠️ Модель может ловить изъяны, которых нет: 97% отказов от правок — профессиональные претензии. Но иногда модель "находит проблему", которая не проблема. Её аргумент стоит проверять, а не принимать автоматически.

🔍

Как исследовали

Идея была элегантной: убрать человека из оценки "правильная ли правка?" — чтобы не получить круговую зависимость (спрашиваем модель, хорошая ли правка, и снова попадаем в ловушку предвзятости). Вместо этого взяли программный верификатор из Google — он механически проверяет, выполнено ли правило или нет. "Текст в заглавных буквах?" — программа знает, не нужен судья.

Дальше разделили роли: одна модель писала текст (автор в своём контексте, видит свою историю), другая оценивала правку в чистом новом чате (свежий взгляд, видит текст нейтрально). Обе получали одну машиноверифицированную правку и решали: принять или отклонить. И объясняли почему.

Прогнали через четыре модели, 85 черновиков с правками. Авторы отвергали правки в 15.3% случаев, свежие модели — в 20.4%. Разница 5 процентных пунктов, статистически незначима. Интересная деталь: у всех четырёх моделей авторская строгость держалась у одного уровня (~15%), а вот "свежие" разбросались от 9% до 44% — потому что разные модели по-разному строги как редакторы. Это говорит: поведение автора стабильно, а вот выбор "свежей" модели сильно меняет результат сравнения.

💡

Адаптации и экстраполяции

💡 Адаптация: разделение сессий для субъективных задач

Исследование подтверждает: для объективных критериев самопроверка работает. Но для субъективных — авторы сами ссылаются на технику разделения контекста (Song, 2026). Её логика проста и применима в чате прямо сейчас:

🔧 Техника: два чата вместо одного → более честная оценка субъективного качества

Чат 1 (производство): пишешь текст, работаешь с черновиком Чат 2 (рецензия): открываешь новый чат, вставляешь текст, просишь оценить

Почему работает: новый чат не помнит как текст создавался, не "вложился" в него. Тот же принцип что и в исследовании — только ты воспроизводишь его вручную.

Прочитай этот текст как строгий редактор, который видит его впервые.
Не знаешь кто написал. Твоя задача — найти слабые места, не пощадить.

[вставь текст]

Что здесь не работает? Что читатель не дочитает или не поймёт?

🔗

Ресурсы

Название работы: Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship

Авторы: William Guey, Pierrick Bougault — Department of Industrial Engineering, Tsinghua University, Beijing

Код и данные: github.com/williamguey/self-preference-revision

Связанные работы из статьи: - Panickssery et al., 2024 — самопредвзятость при оценке качества (NeurIPS 2024, arXiv:2404.13076) - Song, 2026 — разделение сессий производства и рецензии (arXiv:2603.12123) - Jiang et al., 2025 — модели плохо принимают внешнюю критику (arXiv:2506.11930) - IFEval верификатор — github.com/google-research/google-research/tree/master/instruction_following_eval

📋 Дайджест исследования

Ключевая суть

Принцип работы

Критерий либо проверяемый, либо нет — и это решает всё. Проверяемый: не больше 150 слов, содержит фразу X, начинается с Y, без слова Z. Непроверяемый: убедительно, в стиле X, лучше чем вариант B. Первое — делай в том же контексте, та же модель справится честно. Второе — открывай новый чат. Здесь предвзятость живёт и процветает. Процесс: дай список конкретных правил → попроси отметить «выполнено/нарушено» по каждому → для нарушений — минимальная точечная правка, не затрагивающая остальное.

Почему работает

Когда нет субъективности — нечему тянуть в сторону «своего». Оба варианта либо соответствуют правилу, либо нет. Модель не может «предпочесть» свой текст — здесь нет места для вкуса. Самопредвзятость включается именно в задачах сравнения: «чей текст убедительнее?» — модель тянется к знакомому. «Включено слово X?» — тут тянуться некуда. И вот это реально удивляет: когда модель всё-таки отклоняет правку к своему тексту — в 97% случаев она поймала реальный изъян, который автоматический верификатор пропустил. Модельное «нет» — почти всегда профессиональная претензия, не самолюбие. Стоит разбираться, а не настаивать.

Когда применять

Редактура и проверка текстов — посты, письма, техзадания, описания продуктов — когда есть чёткий список требований. Особенно удобно, когда не хочется открывать новый чат ради механической проверки. НЕ подходит для субъективной оценки: «убедительно», «в стиле X», «лучше чем вариант B» — там предвзятость сохраняется. Для таких задач свежий контекст или другая модель. Оговорка от исследователей: тестировалось на средних моделях (GPT-4o mini, Claude 3.5 Haiku, Gemini 2.5 Flash Lite, Llama 70B) на выборке 85 примеров. Совсем мелкая систематическая предвзятость (меньше ~13%) могла в данные не попасть.

Мини-рецепт

1. Переформулируй задачу: Вместо «проверь, хорошо ли написан текст» — «проверь текст по правилам 1, 2, 3».
2. Сделай критерии проверяемыми: Каждое правило — однозначный ответ «выполнено/нарушено». Примеры: не больше N слов, содержит фразу X, начинается с Y, без слова Z, заканчивается на Q.
3. Попроси точечные правки: Для каждого нарушения — минимальное исправление, которое трогает только его и не ломает остальное.
4. Не отмахивайся от отказа: Если модель не принимает правку — разберись почему. Скорее всего поймала реальный конфликт: правка слова X сломала выполнение правила Y.

Примеры

[ПЛОХО] : Я написал этот пост. Проверь — хорошо ли он написан?

[ХОРОШО] :

Проверь пост по трём правилам:
1. Не больше 150 слов
2. Содержит слово «автоматизация»
3. Заканчивается точной фразой «Пишите в личку»

Для каждого правила: выполнено или нарушено? Если нарушено — предложи минимальную правку, которая исправит только это, не меняя остального.

Текст: [вставь текст]

Источник: Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship

ArXiv ID: 2606.20093 | Сгенерировано: 2026-06-19 04:28

Проблемы LLM

Проблема	Суть	Как обойти
Модель нечестно оценивает качество своего текста	Просишь сравнить два варианта: свой и чужой. Модель тянется к своему. Не потому что он лучше — просто он знакомый. Результат: "мой текст лучше" без объективного основания. Срабатывает везде где критерий размытый: "убедительно", "живо", "в стиле X"	Не проси модель сравнивать или оценивать качество в том же чате где она писала. Открой новый чат или смени модель. Для сравнения ("чей текст лучше?") — только свежий контекст

Методы

Метод Суть

Самопроверка по объективным правилам — не нужен новый чат Попроси ту же модель проверить свой текст по чётким правилам. Проверь текст по правилам: 1. Не больше 150 слов. 2. Содержит слово «автоматизация». 3. Заканчивается фразой «Пишите в личку». Для каждого: выполнено или нет? Если нет — предложи минимальную правку. Почему работает: когда критерий проверяемый ("есть слово / нет слова"), нет субъективного притяжения к своему варианту. Задача — факт, не вкус. Когда да: счёт слов, наличие фразы, структура списка, заглавные буквы, запрет конкретного слова. Когда нет: "убедительно", "профессионально", "лучше чем вариант B" — туда предвзятость проникает

Метод	Суть
Самопроверка по объективным правилам — не нужен новый чат	Попроси ту же модель проверить свой текст по чётким правилам. `Проверь текст по правилам: 1. Не больше 150 слов. 2. Содержит слово «автоматизация». 3. Заканчивается фразой «Пишите в личку». Для каждого: выполнено или нет? Если нет — предложи минимальную правку.` Почему работает: когда критерий проверяемый ("есть слово / нет слова"), нет субъективного притяжения к своему варианту. Задача — факт, не вкус. Когда да: счёт слов, наличие фразы, структура списка, заглавные буквы, запрет конкретного слова. Когда нет: "убедительно", "профессионально", "лучше чем вариант B" — туда предвзятость проникает

Тезисы

Тезис	Комментарий
Самопредвзятость включается только на субъективных задачах	Модель защищает свой текст когда критерий — вкус ("хорошо написано?"). Когда критерий — факт ("выполнено правило?") — предвзятость не включается. Механика: субъективный критерий не даёт точки опоры, модель тянется к знакомому (своему). Объективный критерий — это да/нет, тянуться некуда. Применяй: любую задачу редактуры формулируй через проверяемые правила, не через качество. "Проверь соответствие правилам" вместо "оцени, хорошо ли написано"

Тезис

Комментарий

Самопредвзятость включается только на субъективных задачах

Модель защищает свой текст когда критерий — вкус ("хорошо написано?"). Когда критерий — факт ("выполнено правило?") — предвзятость не включается. Механика: субъективный критерий не даёт точки опоры, модель тянется к знакомому (своему). Объективный критерий — это да/нет, тянуться некуда. Применяй: любую задачу редактуры формулируй через проверяемые правила, не через качество. "Проверь соответствие правилам" вместо "оцени, хорошо ли написано"

📖 Простыми словами

Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-ModelTest Under Genuine Authorship

arXiv: 2606.20093

Проблема предвзятости нейросетей всегда упиралась в их «эго»: считалось, что модели по умолчанию подыгрывают сами себе и считают свои ответы эталоном. Но свежее исследование показывает, что этот механизм ломается, когда дело доходит до проверяемых инструкций. Как только у модели появляется четкая линейка в виде жестких правил, ее хваленая самовлюбленность испаряется. Она начинает оценивать свой текст так же беспристрастно, как работу соседа, потому что логика «соответствует или нет» перевешивает инстинкт self-preference.

Это похоже на ситуацию с поваром, который пересолил суп. Если ты просто спросишь: «Ну как, вкусно?», он из гордости ответит, что это шедевр. Но если ткнуть его носом в техкарту, где написано «не более 5 грамм соли», и показать результаты анализа, он молча признает косяк и переделает. В этом исследовании роль анализатора играла программа, которая находила нарушения правил, а модель выступала в роли судьи. Оказалось, что авторы текста и «независимые» модели принимали правки с одинаковой частотой — самолюбие не мешало признавать ошибки.

В работе использовали метод верифицируемого редактирования: модель пишет текст, алгоритм находит нарушение конкретного правила (например, «не использовать слово "однако"»), предлагает исправление, а модель решает, стало ли лучше. Исследователи прогнали через этот тест четыре топовые модели и выяснили, что предвзятость к авторству практически отсутствует. Если правка объективно исправляет нарушение инструкции, модель берет ее в работу, не пытаясь защитить свой первоначальный вариант.

Этот принцип легко масштабируется на любые задачи, где есть четкие критерии качества. Тестировали на текстах, но схема применима к коду, юридическим договорам или техническим спецификациям. Главное здесь — уйти от размытых просьб вроде «сделай красиво» к конкретным параметрам. Когда критерий измерим, GEO и другие методы оптимизации контента начинают работать на порядок эффективнее, потому что AI перестает «галлюцинировать» о собственном величии и превращается в строгого корректора.

Короче, миф о том, что нейросеть всегда будет защищать свой бред, разрушен — ей просто нужны понятные рамки. Хватит ждать от моделей адекватной самокритики в вакууме; нужно давать им внешнюю систему координат и конкретные правила проверки. Объективность достижима, если заменить субъективное «нравится» на жесткое «соответствует». Кто научится выстраивать такие цепочки проверки, получит контент без мусора, пока остальные будут жаловаться на «упрямство» алгоритмов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню