3,583 papers
arXiv:2604.07883 72 9 апр. 2026 г. FREE

Арбитражный анализ: трёхэтапная экспертная панель для точной оценки документов без ложных тревог

КЛЮЧЕВАЯ СУТЬ
LLM попроси «найди проблемы» — и она выдаёт средний балл 5.4 из 7, не опускаясь ниже 4. Даже на нейтральном тексте. У неё нет тормоза: задача стоит — она ищет. Метод позволяет проверять документы на реальные риски без потока ложных тревог на чужие цитаты. Фишка: сначала разметь, что написал автор, а что он процитировал — и модель перестаёт флаговать нацистскую риторику в учебнике истории, не заметив что это историческая цитата. Три шага — разметка, жюри с правом «ничего не найти», арбитр по лучшему аргументу — и 83% контента получает «всё в порядке», а реальные проблемы видны чётко.
Адаптировать под запрос

TL;DR

Когда просишь LLM найти проблемы в тексте, она критикует чужие цитаты как авторскую позицию — и ставит тревогу там, где её нет. Исследование предлагает архитектуру из трёх ролей: сканер, жюри из пяти агентов и арбитр. Ключевой инсайт — сначала маркируй, чья речь, потом оценивай.

Главная находка: одиночная модель в режиме «найди проблемы» системно завышает оценку опасности. В эксперименте она давала средний балл 5.4 из 7 и не опускалась ниже 4 — даже для нейтрального контента. Проблема не в тексте, а в том, что у модели нет тормоза: её попросили критиковать, она критикует всё подряд. При этом она путает что написал автор и что автор процитировал — и флагует, например, нацистскую риторику в учебнике, не заметив, что это цитата из исторического источника.

Архитектура решает это тремя шагами: разметка (что авторское, что цитата), жюри (пять независимых оценщиков с явной инструкцией «dismissing — это нормально»), арбитр (не усредняет оценки, а выбирает наилучше аргументированную позицию). Результат: 83% контента получает оценку «педагогически приемлемо», а реальные проблемы всплывают с высокой уверенностью.


🔬

Схема метода

ШАГ 1 — МАРКИРОВКА (отдельный промпт)
  Раздели текст на фрагменты
  Каждый фрагмент пометь: "авторская речь" | "чужая цитата/источник"
  → JSON-список с атрибуцией и кратким обоснованием

ШАГ 2 — ЖЮРИ (один промпт, несколько ролей)
  Для каждого фрагмента: 3-5 независимых оценщиков с разными перспективами
  Каждый присваивает: тип проблемы + серьёзность (1-7) + уверенность (0-1) + обоснование
  Ключевая инструкция: "Если аргументов нет — отклони, это нормально"
  → Структурированные оценки от каждой роли

ШАГ 3 — АРБИТР (отдельный промпт)
  Читает все оценки жюри
  Выбирает НЕ большинство, а наилучше аргументированную позицию
  Если разброс большой — эскалирует: "требует проверки человека"
  → Финальный вердикт с обоснованием

Шаги 1 и 3 — отдельные запросы. Шаг 2 можно уложить в один запрос через многоролевой промпт.


🚀

Пример применения

Задача: Ты готовишь статью для корпоративного блога «Тинькофф Журнала» про микрозаймы. Редактор просит проверить, нет ли в тексте формулировок, которые могут вызвать претензии со стороны регулятора или негативную реакцию аудитории. Попросил ChatGPT — тот раскритиковал половину статьи, включая цитаты из закона и отзывы реальных клиентов.

Промпт — Шаг 1 (маркировка):

Прочитай текст ниже. Раздели его на смысловые фрагменты (1-3 предложения).

Для каждого фрагмента укажи:
- fragment: сам фрагмент
- source_type: "авторская речь" (автор статьи высказывается сам) 
  или "цитата/источник" (цитата из закона, чужие слова, данные исследований, 
  отзывы клиентов)
- attribution_note: одна строка — почему ты так решил

Верни нумерованный список.

[ТЕКСТ СТАТЬИ]

Промпт — Шаг 2 (жюри):

Ты — комиссия из трёх экспертов. Оцени каждый фрагмент независимо.

Эксперт А: юрист по финансовому регулированию
Эксперт Б: редактор потребительских медиа
Эксперт В: специалист по репутационным рискам

Для каждого фрагмента каждый эксперт указывает:
- risk_type: тип риска или "нет риска"
- severity: 1 (нет проблем) — 5 (серьёзная проблема)
- confidence: 0.0 — 1.0
- reasoning: 1-2 предложения

Важно: если оснований для тревоги нет — прямо пиши severity: 1 и кратко объясни почему 
всё в порядке. Отсутствие проблемы — тоже валидный результат.

Учитывай атрибуцию: фрагменты типа "цитата/источник" оценивай по критерию 
"правильно ли это процитировано и контекстуализировано", а НЕ как позицию автора.

[ФРАГМЕНТЫ С АТРИБУЦИЕЙ ИЗ ШАГА 1]

Промпт — Шаг 3 (арбитр):

Ты — главный редактор. Получи оценки трёх экспертов и вынеси финальный вердикт.

Правила:
- Не усредняй оценки механически
- Выбирай позицию с наилучшим аргументом, даже если её держит меньшинство
- Если confidence всех экспертов < 0.6 — отметь: "требует живого редактора"
- Если разброс severity > 2 пунктов — объясни, почему эксперты разошлись

Для каждого фрагмента: финальный severity, тип риска, рекомендация (переформулировать / 
оставить / проверить с юристом).

[ОЦЕНКИ ЖЮРИ ИЗ ШАГА 2]

Результат: Модель выдаст три слоя. Сначала — фрагменты с маркировкой «авторское/цитата». Потом — независимые мнения трёх ролей с уровнями уверенности. Наконец, арбитражный разбор: где эксперты сошлись, где разошлись и почему. Реальные проблемы выделятся на фоне отклонённых ложных тревог. Фрагменты с низкой уверенностью пойдут на эскалацию.


🧠

Почему это работает

Проблема по умолчанию. Когда просишь модель «найди проблемы» — она их ищет. Это не баг, это задача. Модель генерирует текст следующего токена, и если контекст настроен на поиск проблем, она будет находить их везде. Без инструкции «можно ничего не найти» она не остановится.

Слабость атрибуции. Модель видит текст линейно. Фраза «евреи подлежат уничтожению» в нацистском плакате 1942 года для учебника истории и та же фраза как авторская позиция — это разные вещи. Без явной разметки модель критикует цитату как авторское высказывание. Добавляешь шаг маркировки — и модель меняет фрейм: «это цитата, оцениваю корректность контекстуализации», не «это позиция автора, осуждаю».

Как метод обходит слабость. Три механизма работают вместе. Маркировка снимает ложные атрибуции до оценки. Явная инструкция («отклони — это нормально») даёт модели тормоз. Арбитр по аргументу, не по большинству — страховка от дрейфа к усреднённой позиции, которая часто оказывается ни рыбой ни мясом.

Рычаги управления: - Число экспертов в жюри → 2 для быстрого черновика, 5 для серьёзного аудита - Роли экспертов → подбирай под задачу: юрист + маркетолог + ЦА вместо абстрактных «аналитиков» - Шкала severity → замени 1-7 на 1-3 для простых задач, добавь конкретные якоря («1 = публиковать сейчас, 3 = только с юристом») - Порог эскалации → опусти confidence-порог для высокорисковых текстов, подними для черновиков


📋

Шаблон промпта

Шаг 1 — маркировка:

Прочитай {текст}. Раздели на фрагменты по 1-3 предложения.

Для каждого укажи:
- fragment: текст фрагмента
- source_type: "авторская речь" | "цитата или чужой источник"
- attribution_note: одна строка обоснования

Верни нумерованный список.

Шаг 2 — жюри:

Ты — комиссия из {число} экспертов: {роль_1}, {роль_2}, {роль_3}.

Оцени каждый фрагмент独立но от имени каждого эксперта:
- risk_type: тип проблемы или "нет проблем"
- severity: 1 (норма) — {максимум} (критично)
- confidence: 0.0 — 1.0
- reasoning: 1-2 предложения

Важно: если аргументов для критики нет — прямо пиши severity: 1. 
Отсутствие проблемы — валидный результат.

Для фрагментов типа "цитата или чужой источник": оценивай 
корректность подачи, а не содержание цитаты как позицию автора.

[ФРАГМЕНТЫ С АТРИБУЦИЕЙ]

Шаг 3 — арбитр:

Ты — {финальный_эксперт}. Вынеси итоговый вердикт по оценкам жюри.

Правила:
- Выбирай позицию с наилучшим аргументом, не большинством голосов
- Если все confidence < 0.6 — отметь "требует живого {специалиста}"
- Если разброс severity ≥ {порог} — объясни причину расхождения

Итог по каждому фрагменту: финальный severity, тип риска, рекомендация.

[ОЦЕНКИ ЖЮРИ]

Плейсхолдеры: - {текст} — что анализируешь - {число} и {роль_N} — сколько экспертов и кто они (юрист, редактор, ЦА, конкурент) - {максимум} — верхняя граница шкалы (5 или 7) - {порог} — при каком разбросе эскалировать (1.5–2 балла) - {финальный_эксперт} — роль арбитра (главный редактор, председатель комиссии)


🚀 Быстрый старт — вставь в чат:

Вот трёхшаговый шаблон для экспертного анализа текста. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какой текст анализировать, какие роли экспертов нужны, какую шкалу использовать — потому что без этого она не сможет подобрать правильные роли жюри и порог эскалации. Она возьмёт структуру трёх шагов и соберёт промпты под твою задачу.


⚠️

Ограничения

⚠️ Три шага = три запроса: Метод не укладывается в один промпт. Результат каждого шага нужно вручную передавать в следующий. Для длинных документов это несколько раундов копипаста.

⚠️ Субъективные оценки: Если домен нишевый (юридический, медицинский, исторический) — роли экспертов всё равно симулируются моделью. Для по-настоящему спорных случаев финальное слово за живым специалистом.

⚠️ Слабость на коротких текстах: Трёхэтапная архитектура избыточна для одного абзаца. Окупается на структурированных документах от 500 слов.

⚠️ Калибровочная инструкция — это переменная: Исследователи сами признают: «можно отклонять» снижает severity, но непонятно — из-за многоагентности или из-за самой инструкции. Возможно, просто добавить «будь сдержан в критике» к обычному промпту даёт похожий эффект.


🔗

Ресурсы

Работа: An Agentic Evaluation Architecture for Historical Bias Detection in Educational Textbooks

Авторы: Gabriel Ștefan, Adrian Marius Dumitran — University of Bucharest, Romania

GitHub: github.com/submission-its/bias-detection

Демо и HTML-отчёты: submission-its.github.io/bias-detection

Датасет учебников: manuale.edu.ro


📋 Дайджест исследования

Ключевая суть

LLM попроси «найди проблемы» — и она выдаёт средний балл 5.4 из 7, не опускаясь ниже 4. Даже на нейтральном тексте. У неё нет тормоза: задача стоит — она ищет. Метод позволяет проверять документы на реальные риски без потока ложных тревог на чужие цитаты. Фишка: сначала разметь, что написал автор, а что он процитировал — и модель перестаёт флаговать нацистскую риторику в учебнике истории, не заметив что это историческая цитата. Три шага — разметка, жюри с правом «ничего не найти», арбитр по лучшему аргументу — и 83% контента получает «всё в порядке», а реальные проблемы видны чётко.

Принцип работы

Три шага, каждый отдельным запросом. Шаг 1 — разметка: делишь текст на фрагменты по 1-3 предложения и метишь каждый: «авторская речь» или «цитата/источник». Шаг 2 — жюри: 3-5 ролей под твою задачу, каждая даёт независимую оценку с явной инструкцией: «если аргументов нет — отклони, это нормальный результат». Для цитат — оцениваем корректность подачи, не содержание. Шаг 3 — арбитр: не усредняет оценки, а выбирает позицию с лучшим обоснованием. Если уверенность всех экспертов низкая — отмечает «нужен живой человек».

Почему работает

Откуда вообще проблема? Модель читает текст линейно, без понимания кто говорит. Цитата из нацистского плаката 1942 года в учебнике истории и та же фраза как позиция автора — для модели это одно и то же, пока ты явно не разметишь. Добавляешь шаг маркировки — меняется фрейм: «оцениваю корректность подачи источника», а не «критикую автора». Второй момент: без инструкции «можно ничего не найти» модель генерирует проблемы, потому что контекст промпта на это настроен. Токен за токеном, без остановки. Явное разрешение отклонить — это тормоз. Арбитр по аргументу, а не по большинству — страховка от размазанного среднего, которое часто не несёт никакого смысла.

Когда применять

Редактура и внутреннее согласование, юридика, PR-аудит, проверка образовательных и информационных материалов — особенно когда текст содержит цитаты, ссылки на законы, данные исследований, отзывы клиентов. Схема окупается на документах от 500 слов со смешанными источниками. НЕ подходит для коротких текстов в один абзац — трёхэтапная схема там избыточна. Если нужна быстрая проверка черновика, достаточно добавить одну инструкцию калибровки к обычному промпту.

Мини-рецепт

1. Разметь источники: отправь текст с задачей разбить на фрагменты по 1-3 предложения и пометить каждый — «авторская речь» или «цитата/источник» — с одной строкой обоснования. Получишь нумерованный список, где сразу видно что чьё.

2. Собери жюри под задачу: выбери 3 роли (например: юрист + редактор + представитель аудитории). Каждая роль оценивает каждый фрагмент независимо — тип риска, серьёзность по шкале 1-5, уверенность от 0 до 1, обоснование в 1-2 предложения. Обязательно вставь в промпт: «Если оснований для критики нет — пиши severity: 1 и объясни почему всё в порядке. Отсутствие проблемы — нормальный результат». Для фрагментов с пометкой «цитата» — оценивай корректность контекстуализации, не содержание.

3. Запусти арбитра: передай все оценки жюри с инструкцией выбрать позицию с лучшим аргументом, а не среднюю. Если разброс оценок больше 2 пунктов — объяснить расхождение. Если уверенность всех экспертов ниже 0.6 — отметить «требует живого специалиста». Итог по каждому фрагменту: финальная серьёзность, тип риска, рекомендация.

Примеры

[ПЛОХО] : Найди проблемные места в этой статье Модель начнёт критиковать всё подряд — включая цитаты из законов и отзывы клиентов, которые ты вставил как иллюстрацию. Получишь 15 замечаний, из которых 12 — ложные тревоги.
[ХОРОШО] : Шаг 1: Прочитай текст ниже. Раздели на фрагменты по 1-3 предложения. Каждый пометь: "авторская речь" (автор высказывается сам) или "цитата/источник" (чужие слова, данные, ссылки на закон). Добавь одну строку — почему так решил. Верни нумерованный список. [ТЕКСТ] Шаг 2: Ты — комиссия из трёх экспертов: юрист по финансовому регулированию, редактор потребительских медиа, специалист по репутационным рискам. Для каждого фрагмента каждый эксперт указывает: тип риска или "нет риска", серьёзность 1-5, уверенность 0.0-1.0, обоснование 1-2 предложения. Важно: если аргументов нет — прямо пиши severity: 1. Для фрагментов "цитата/источник" оценивай корректность подачи, не содержание. [ФРАГМЕНТЫ ИЗ ШАГА 1] Шаг 3: Ты — главный редактор. Вынеси итоговый вердикт по оценкам трёх экспертов. Выбирай позицию с лучшим аргументом, не большинством голосов. Если разброс оценок больше 2 — объясни расхождение. Если уверенность всех ниже 0.6 — отметь "требует живого редактора". Итог по каждому фрагменту: серьёзность, тип риска, рекомендация. [ОЦЕНКИ ИЗ ШАГА 2]
Источник: An Agentic Evaluation Architecture for Historical Bias Detection in Educational Textbooks
ArXiv ID: 2604.07883 | Сгенерировано: 2026-04-10 04:25

Проблемы LLM

ПроблемаСутьКак обойти
Модель критикует чужие слова как позицию автораПросишь проверить текст. В нём есть цитаты из законов, отзывы клиентов, исторические источники. Модель читает всё подряд. Не разделяет «автор сказал» и «автор процитировал». Флагует цитату как авторское высказывание. Результат: ложная тревога там, где надо было похвалить за честную подачу источника. Работает так для любой задачи проверки текста: редактура, PR-аудит, юридическая проверкаДобавь шаг маркировки перед оценкой. Отдельным запросом попроси разбить текст на фрагменты и пометить каждый: «авторская речь» или «цитата/чужой источник». Только потом — оценивай. Для помеченных цитат меняй критерий: не «согласен ли автор с этим», а «правильно ли подано»
Модель находит проблемы даже там, где их нетПросишь найти проблемы — она их находит. Всегда. Без исключений. Не потому что плохая, а потому что ты настроил контекст на поиск проблем. Без явного разрешения «можно ничего не найти» модель не остановится. Даёт высокую оценку опасности нейтральному тексту. Не опускает тревогу даже для заведомо безопасных фрагментов. Итог: ложные тревоги по всему документу, реальные проблемы теряются на их фонеДобавь в запрос явную инструкцию: «Если аргументов для критики нет — прямо напиши "нет проблем". Отсутствие проблемы — это полноценный результат, не отговорка». Без этой фразы модель будет критиковать по умолчанию

Методы

МетодСуть
Разметка источников до оценкиПеред любой проверкой текста сначала отдельным запросом размечай: что авторское, что цитата. fragment: "..." / source_type: "авторская речь" или "цитата/источник" / attribution_note: одна строка почему. Потом передавай эту разметку в запрос оценки. Для цитат пиши отдельный критерий: «оценивай корректность подачи, а не содержание как позицию автора». Почему работает: меняешь фрейм до оценки. Модель входит в задачу уже зная «это не слова автора» — и не флагует. Когда применять: любой текст с цитатами, выдержками из законов, данными исследований, отзывами, историческими источниками
Арбитр по лучшему аргументуКогда нужно собрать несколько независимых оценок в одну, не усредняй. В отдельном запросе дай модели роль арбитра с явным правилом: «Выбирай позицию с наилучшим обоснованием — даже если её держит меньшинство». Добавь порог эскалации: «Если все оценки с низкой уверенностью — отметь "требует живого специалиста"». Почему работает: усреднение размывает сильную аргументированную позицию в пользу тёплой средней. Арбитр по аргументу сохраняет сильный сигнал. Когда применять: несколько ролей оценивают один объект, нужен финальный вердикт, есть риск разойтись в "ни рыба ни мясо"

Тезисы

ТезисКомментарий
Явное разрешение «ничего не найти» меняет результатМодель по умолчанию работает в режиме «выполни задачу». Попросили найти проблемы — находит. Сказали «можно отклонить — это нормально» — начинает реально ранжировать. Механика: без этой фразы каждый фрагмент попадает под давление «что-то же должно быть». С ней — модель получает тормоз и может честно выдать «здесь всё в порядке». Применяй: добавляй в любой запрос на критику или проверку: «Если оснований нет — напиши прямо. Отсутствие проблемы — полноценный ответ»
📖 Простыми словами

AnAgenticEvaluation Architecture for Historical Bias Detection in Educational Textbooks

arXiv: 2604.07883

Когда ты просишь нейронку найти предвзятость или ошибки в тексте, она превращается в гиперактивного вахтёра. Проблема в том, что LLM не видит разницы между мнением автора и цитатой какого-нибудь исторического персонажа. Для неё всё — единое полотно текста. В итоге модель начинает «отменять» учебники истории, принимая описание старых нравов за личную позицию современного автора. Это фундаментальный косяк архитектуры: нейронка просто генерирует следующий токен в режиме поиска проблем, и если ты сказал их найти — она их высасет из пальца, даже если текст стерилен.

Это как если бы ты пришёл в полицию заявить о краже, а тебя самого посадили в обезьянник, потому что ты слишком подробно описывал действия вора. Формально состав преступления озвучен, но система не сообразила, что ты просто пересказываешь события, а не участвуешь в них. Нейронка ведет себя как тот самый душный критик, который вырывает фразу из контекста и бежит строчить донос, игнорируя кавычки и здравый смысл.

Чтобы это исправить, исследователи собрали агентскую архитектуру из трех уровней, которая работает как нормальный суд. Сначала «сканер» размечает текст и отделяет авторскую речь от цитат — это критически важный этап маркировки ролей. Затем в дело вступает «жюри» из пяти независимых агентов, которые оценивают фрагменты по отдельности. И в финале «арбитр» сводит всё воедино, отсеивая ложные срабатывания. Ключевая фишка здесь — командная проверка, где один агент может заткнуть другого, если тот начал галлюцинировать на пустом месте.

Тестировали это на школьных учебниках, где полно спорных исторических моментов, но принцип универсален. Эта схема жизненно необходима любому бизнесу, который боится репутационных рисков: от банков, проверяющих статьи про кредиты, до юристов, вычитывающих договоры. Вместо того чтобы получать от ChatGPT пачку бессмысленных претензий к цитатам из законов, ты получаешь трезвый аудит, который понимает разницу между «цитирую плохое» и «говорю плохое». SEO для смыслов уходит в прошлое, наступает эра глубокой агентской фильтрации.

Короче: не давай одной модели роль и судьи, и палача — она обязательно облажается. Нужно разделять процесс на сегментацию, коллегиальное обсуждение и финальный арбитраж. Только так можно заставить AI видеть контекст, а не просто триггериться на «плохие» слова. Если не внедрить такую многослойную проверку сейчас, твои тексты будут либо выхолощенным мусором, либо постоянным поводом для скандалов из-за кривой интерпретации роботом.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с