3,583 papers
arXiv:2606.05003 74 3 июня 2026 г. FREE

Scaffold Bias: LLM одобряет невозможное — и как заставить модель проверять иначе

КЛЮЧЕВАЯ СУТЬ
Парадокс: попросить модель «думать вслух» при проверке документов — значит получить больше ложных тревог, а не меньше ошибок. CoT усиливает подозрения к нормальным документам, но пропускает реальные дыры. Метод явных критериев позволяет проверять планы, протоколы и технические задания на физическую выполнимость — а не на то, насколько профессионально они выглядят. Вместо «оцени документ» — «проверь каждый критерий отдельно»: неявные ограничения модель пропускает вдвое чаще явных, потому что эвристика «полный и грамотный текст — скорее всего верный» блокирует глубокую проверку. Явный список сломает эту эвристику.
Адаптировать под запрос

TL;DR

Scaffold bias — это систематическая ошибка моделей: LLM путает «выглядит как экспертный документ» с «физически выполнимо». Если протокол, план или спецификация написаны грамотно, используют правильные термины и выглядят полными — модель склонна одобрить их, даже если внутри фатальная ошибка.

Главная находка: неявные ограничения (те, которые требуют рассуждений — «а хватит ли пропускной способности сети?») LLM пропускает в два раза чаще, чем явные («здесь написано: алюминиевая пластина блокирует радар»). Модель фокусируется на поверхностных признаках экспертности: терминах, структуре, полноте — и не идёт вглубь.

Рабочий выход: явный список ограничений + самосогласованность (три параллельных запроса с голосованием). Не просите модель оценить документ целиком — давайте конкретные критерии для проверки по одному. CoT здесь не помогает и даже ухудшает: длинные рассуждения усиливают подозрительность к валидному контенту, но не находят реальных ошибок.


🔬

Схема метода

ЭТАП 1: Составить список явных ограничений/критериев
        → чеклист: что ДОЛЖНО быть выполнимо физически/логически/финансово

ЭТАП 2: Проверить каждый критерий отдельно
        → модель отвечает по каждому пункту: валидно / минорная проблема / 
          фатальная ошибка + почему

ЭТАП 3: Самосогласованность (для критических решений)
        → запустить промпт 3 раза независимо
        → итог: консенсус двух из трёх ответов

Все три этапа можно запустить в одном промпте (этапы 1+2).
Этап 3 — отдельные запросы.

🚀

Пример применения

Задача: Фёдор Овчинников (Додо Пицца) показывает потенциальному инвестору питч новой франчайзинговой модели. Инвестор просит ChatGPT проверить — нет ли там дыр в логике и финансовой выполнимости.

Промпт:

Ты — строгий финансовый аудитор. Твоя задача — найти фатальные ошибки 
в бизнес-плане, а НЕ оценить его в целом.

Вот критерии для проверки (проверяй КАЖДЫЙ отдельно):

1. ЮНИТ-ЭКОНОМИКА: при заявленных издержках и выручке — операционная 
   прибыль на точку положительная?
2. МАСШТАБИРУЕМОСТЬ: операционная модель физически реализуема при 
   200 точках без кратного роста управленческого аппарата?
3. РЫНОЧНЫЕ ПРЕДПОСЫЛКИ: цифры по росту рынка соответствуют 
   независимым данным (Росстат, Nielsen)?
4. ЗАВИСИМОСТИ: есть ли единственная точка отказа — один поставщик, 
   одна платформа, одно регуляторное разрешение?
5. ВРЕМЕННЫЕ РАМКИ: заявленные сроки выхода на окупаемость реалистичны 
   для данного сегмента?

Для каждого критерия:
— Статус: ВАЛИДНО / МИНОРНАЯ ПРОБЛЕМА / ФАТАЛЬНАЯ ОШИБКА
— Что именно проверял
— Почему такой вывод

Не комментируй стиль, оформление и полноту документа. 
Только физическую/финансовую выполнимость.

[Бизнес-план здесь]

Результат: Модель пройдёт по каждому из пяти критериев отдельно и выставит статус. В отличие от запроса «оцени этот бизнес-план» — где она похвалит структуру и скажет «выглядит обоснованно» — здесь она будет вынуждена проверить конкретики. Если в юнит-экономике не сходится маржа, она это укажет, даже если весь документ выглядит профессионально.


🧠

Почему это работает

LLM обучена на огромном корпусе текстов, где экспертные документы действительно обычно правильные. Полный, грамотный, терминологически корректный текст → в обучающих данных такой документ чаще всего оказывался верным. Поэтому модель выработала эвристику: «выглядит как экспертный → скорее всего валидный».

Это работает для фактических ошибок. Но ломается для композиционных — когда каждый элемент правильный, а их сборка невозможна. Как правило, модель замечает явные противоречия («здесь написано X, а ниже X невозможно»), но пропускает неявные — те, которые требуют рассуждений через несколько шагов.

Явный список критериев решает это через переключение режима: вместо оценки целогопоследовательная проверка частей. Каждый критерий — отдельный вопрос, и к нему нельзя применить эвристику «документ выглядит хорошо». Самосогласованность добавляет стабильности: при трёх независимых запусках случайные «одобрения по инерции» не пройдут голосование.

Рычаги управления: - Количество критериев → 3-5 оптимально; больше 7 — модель начинает «размываться» - Формулировка статусов → добавь свои метки: КРИТИЧНО / ПРОВЕРИТЬ / ОК — под конкретную задачу - Запрет на комментарии оформления → критически важен, иначе модель уйдёт в стиль и структуру - Три запуска → для решений с высокой ценой ошибки (большая сделка, медицинское, юридическое)


📋

Шаблон промпта

Ты — строгий аудитор {область: финансовая/техническая/юридическая/логистическая}. 
Твоя задача — найти фатальные ошибки в {тип документа}, 
а НЕ дать общую оценку.

Проверяй КАЖДЫЙ критерий отдельно:

1. {Критерий 1}: {что именно проверить}
2. {Критерий 2}: {что именно проверить}
3. {Критерий 3}: {что именно проверить}
[добавь нужное количество]

Для каждого критерия укажи:
— Статус: ВАЛИДНО / МИНОРНАЯ ПРОБЛЕМА / ФАТАЛЬНАЯ ОШИБКА
— Что проверял
— Почему такой вывод

Не комментируй {что игнорировать: оформление/стиль/полноту/структуру}.
Только {на что фокус: выполнимость/логическую корректность/финансовую реалистичность}.

{Документ или описание}

Что подставлять: - {область} — тип экспертизы: финансовая, техническая, юридическая - {тип документа} — бизнес-план, ТЗ, договор, маркетинговая стратегия - {Критерий N} — конкретные вопросы, которые надо проверить (не «всё ли правильно», а «сходится ли юнит-экономика») - {что игнорировать} — явно запрети комментировать оформление и стиль

🚀 Быстрый старт — вставь в чат:

Вот шаблон аудита документа на основе явных критериев. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип документа, область экспертизы и ключевые ограничения твоей ситуации — потому что без этого не заполнить критерии, а именно они делают метод рабочим.


⚠️

Ограничения

⚠️ Неявные ограничения требуют экспертизы: метод работает, только если ты сам знаешь, какие критерии поставить. Если не знаешь что проверять — попроси модель сначала составить список потенциальных рисков для твоего домена, а потом используй его как чеклист.

⚠️ Самосогласованность не даёт надёжности для критических решений: даже при единогласном результате трёх запусков — точность около 80%. Для медицинских, юридических или финансовых решений с большой ценой ошибки нужна человеческая экспертиза.

⚠️ CoT ухудшает ситуацию с ложными срабатываниями: если попросить модель «думать вслух» при проверке валидных документов — она начинает находить проблемы там, где их нет. Используй CoT только когда нашли реальную ошибку и хочешь разобраться в причине.

⚠️ Граничные случаи («минорная проблема») модели калибруют хуже всего: если задача — выловить именно пограничные ситуации, а не явные провалы, метод работает хуже.


🔍

Как исследовали

Команда собрала 683 экспертно размеченных протокола (Gold set) и 5000 сгенерированных совместно с экспертами (Silver set) по шести областям биомедицинских измерений — от сигналов мышц до радаров жизнедеятельности. Каждый протокол получил метку: валидный, минорная проблема, фатальное нарушение. Двое независимых аннотаторов достигли согласия 91,4% — это высокая планка для задачи такой сложности.

Шесть моделей проверяли четырьмя стратегиями: zero-shot, CoT, самосогласованность и инструментальное дополнение. Лучший результат — 53 балла macro-F1 из 100 возможных. Это чуть лучше ключевой эвристики (43), но всё равно провал: каждый пятый фатально невыполнимый протокол модели пропустили.

Самое любопытное — исследователи вручную разобрали 76 промахов лучшей модели и разделили их 54/46: 54% — ошибки внимания (модель вообще не заметила ограничение), 46% — ошибки суждения (заметила, но решила что «это незначительно»). В обоих случаях общий паттерн один: модель видит профессиональный каркас — и снижает критичность. Это и есть scaffold bias в действии.


💡

Адаптации и экстраполяции

🔧 Техника: роль «скептика», а не «эксперта»

Стандартный системный промпт «ты эксперт в X» усиливает scaffold bias — модель входит в роль эксперта, который доверяет экспертным документам. Попробуй вместо этого:

Ты — скептик, задача которого найти одну фатальную ошибку в этом документе.
Исходи из того, что ошибка есть. Твоя работа — её найти.

Это ломает эвристику «выглядит профессионально → наверное правильно» и переключает модель в режим поиска, а не оценки.

🔧 Техника: разделить обнаружение и диагностику

Исследование показало: способность найти проблему и способность объяснить её тип — разные навыки у разных моделей. Для важных задач — два отдельных запроса:

Запрос 1: «Есть ли в этом документе фатальная ошибка? Да/Нет + одно предложение.»
Запрос 2 (только если Да): «Теперь объясни подробно: что именно не так и почему.»

Один промпт "найди и объясни" даёт хуже, чем два отдельных.


🔗

Ресурсы

PhysDox: Benchmarking LLMs on Physical Feasibility Auditing of Physiological Sensing Protocols

He Liu (Donghua University), Boyuan Gu (University of Electronic Science and Technology of China / Tsinghua University), Shuaiqi Cheng, Haiyang Sun, Siyu You (UESTC), Xuming Hu (HKUST Guangzhou)

Ключевые понятия из работы: scaffold bias, severity calibration, cascade errors, implicit vs explicit constraints, fatal-gate recall


📋 Дайджест исследования

Ключевая суть

Парадокс: попросить модель «думать вслух» при проверке документов — значит получить больше ложных тревог, а не меньше ошибок. CoT усиливает подозрения к нормальным документам, но пропускает реальные дыры. Метод явных критериев позволяет проверять планы, протоколы и технические задания на физическую выполнимость — а не на то, насколько профессионально они выглядят. Вместо «оцени документ» — «проверь каждый критерий отдельно»: неявные ограничения модель пропускает вдвое чаще явных, потому что эвристика «полный и грамотный текст — скорее всего верный» блокирует глубокую проверку. Явный список сломает эту эвристику.

Принцип работы

У LLM есть рефлекс, выработанный на обучающих данных: если документ грамотный, терминологически насыщенный и структурированный — он, скорее всего, правильный. В данных так и было. Но существует класс ошибок, которые этот рефлекс не видит: каждый элемент правильный, а их сборка невозможна. Явный чеклист переключает модель с вопроса «хорошо ли выглядит?» на вопрос «выполнимо ли это?» — и это разные режимы работы. Запрет комментировать оформление и стиль критически важен: без него модель уходит в поверхностное и возвращается с «выглядит обоснованно».

Почему работает

LLM видела в обучении миллионы экспертных документов. Статистически они оказывались верными. Поэтому модель выучила: «структурный признак экспертности» = сигнал о правильности содержания. Это работает для явных противоречий — «здесь написано X, а ниже X невозможно». Ломается для составных ошибок — когда правда только на уровне отдельных элементов, а не их комбинации. Три независимых запроса с голосованием глушат случайные «одобрения по инерции» — ни один запуск не тянет весь ответ на себе. Но даже при единогласном результате точность около 80%, не выше.

Когда применять

Везде, где документ может «выглядеть правильно», но содержать невыполнимое: бизнес-планы и питч-деки — проверить юнит-экономику и условия масштабирования; технические задания — выловить противоречия в требованиях; договоры и соглашения — найти несовместимые условия; медицинские и производственные протоколы — проверить физическую реализуемость. НЕ подходит для пограничных случаев: если задача найти именно «минорные проблемы», а не фатальные провалы — метод работает хуже. Для этого нужна человеческая экспертиза.

Мини-рецепт

1. Составь список из 3–5 конкретных критериев. Не «всё ли правильно», а «сходится ли юнит-экономика при заявленных издержках». Больше 7 критериев — модель начинает «размываться».
2. Задай роль строгого аудитора: <роль>строгий финансовый аудитор, задача — найти фатальные ошибки, а НЕ дать общую оценку
3. Явно запрети комментировать оформление: добавь строку «Не комментируй стиль, структуру, полноту. Только выполнимость.» — без этого модель уйдёт в поверхностное.
4. Задай формат ответа по каждому критерию: ВАЛИДНО / МИНОРНАЯ ПРОБЛЕМА / ФАТАЛЬНАЯ ОШИБКА + что проверял + почему такой вывод.
5. Для решений с высокой ценой ошибки — запусти промпт три раза независимо и возьми консенсус двух из трёх. CoT при этом не добавляй: он ухудшает результат.

Примеры

[ПЛОХО] : Оцени этот бизнес-план и скажи, есть ли в нём проблемы
[ХОРОШО] : Ты — строгий финансовый аудитор. Твоя задача — найти фатальные ошибки в бизнес-плане, а НЕ оценить его в целом. Проверяй каждый критерий отдельно: 1. ЮНИТ-ЭКОНОМИКА: при заявленных издержках и выручке — операционная прибыль на точку положительная? 2. МАСШТАБИРУЕМОСТЬ: модель физически реализуема при 200 точках без кратного роста управленческого аппарата? 3. РЫНОЧНЫЕ ДАННЫЕ: цифры по росту рынка соответствуют независимым источникам? 4. ЕДИНСТВЕННАЯ ТОЧКА ОТКАЗА: есть ли один поставщик, одна платформа или одно разрешение, без которых всё рухнет? Для каждого критерия: Статус: ВАЛИДНО / МИНОРНАЯ ПРОБЛЕМА / ФАТАЛЬНАЯ ОШИБКА — что проверял — почему. Не комментируй оформление, стиль и полноту. Только выполнимость. [Бизнес-план]
Источник: PhysDox: Benchmarking LLMs on Physical Feasibility Auditing of Physiological Sensing Protocols
ArXiv ID: 2606.05003 | Сгенерировано: 2026-06-04 07:38

Проблемы LLM

ПроблемаСутьКак обойти
Модель одобряет красиво написанный документ — даже с фатальной ошибкойДокумент грамотный, полный, терминологически верный модель видит признаки экспертного текста делает вывод: «скорее всего правильный». Эта логика работает для фактических ошибок. Но ломается для ошибок в сборке: каждая часть верна, а вместе — невыполнимо. Модель не идёт вглубь. Она оценивает стиль, а не физическую или логическую выполнимость. Работает для любого типа документа: бизнес-план, ТЗ, договор, протоколНе спрашивай «оцени документ». Давай явный список критериев. Проверяй каждый отдельно. Запрети модели комментировать оформление и стиль — явно, в тексте запроса
Скрытые противоречия пропускаются вдвое чаще явныхЯвное противоречие: «здесь написано X, а ниже — X невозможно». Модель замечает. Неявное: «хватит ли пропускной способности сети при 200 точках?» — требует нескольких шагов рассуждений. Модель пропускает. Это работает против тебя везде, где ошибки не лежат на поверхности: финансовые модели, технические архитектуры, операционные планыДля каждого критерия проверки сформулируй явный вопрос. Не «всё ли верно с масштабированием», а «операционная модель реализуема при 200 точках без кратного роста команды?»

Методы

МетодСуть
Чеклист критериев — проверка документа по частямВместо «оцени документ целиком» — дай список из 3–5 явных критериев. Для каждого: модель выдаёт статус + что проверяла + почему такой вывод. Синтаксис статусов: ВАЛИДНО / МИНОРНАЯ ПРОБЛЕМА / ФАТАЛЬНАЯ ОШИБКА. Явно запрети комментировать оформление и стиль — иначе модель уйдёт туда. Почему работает: к отдельному критерию нельзя применить эвристику «документ выглядит хорошо». Каждый пункт — самостоятельный вопрос. Нет опоры на внешние признаки экспертности. Когда применять: проверка планов, ТЗ, договоров, протоколов — там где ошибка в логике или выполнимости, а не в фактах. Ограничение: работает, только если ты сам знаешь что проверять. Если нет — попроси модель сначала составить список рисков для твоего домена, потом используй его как критерии

Тезисы

ТезисКомментарий
Цепочка рассуждений увеличивает ложные срабатывания на валидных документахПросишь модель думать вслух при проверке документа. Она начинает находить проблемы там, где их нет. Правильные места помечает как подозрительные. Механика: длинные рассуждения усиливают поиск ошибок — и модель «находит» их в корректном содержании. Применяй: не используй цепочку рассуждений при первичной проверке. Включай только если уже нашёл реальную ошибку и хочешь разобраться в причине
📖 Простыми словами

PhysDox: BenchmarkingLLMson Physical Feasibility Auditing of Physiological Sensing Protocols

arXiv: 2606.05003

Нейросети оценивают достоверность текста не по фактам, а по его «вайбу» и внешней солидности. В этом и заключается суть PhysDox: модели страдают от scaffold bias — системного ослепления формой документа. Если ты подсунешь AI описание медицинского датчика, который физически не может считать пульс через ботинок, но напишешь это сухим научным языком с кучей терминов, модель скажет: «Одобрено, выглядит надежно». Для LLM авторитетный тон важнее законов физики, потому что в ее «мозгах» корреляция между умными словами и правдой прошита намертво.

Это как если бы ты пришел к врачу, а он — статный мужчина в идеально белом халате, с пятью дипломами на стене и стетоскопом из золота. Он уверенно говорит тебе пить ртуть трижды в день, и ты веришь, потому что он выглядит как чертов гений. Ты ведешься на атрибуты экспертности, игнорируя тот факт, что совет смертелен. Модели ведут себя точно так же: они влюбляются в структуру и терминологию, напрочь забывая проверить, не противоречит ли написанное базовой реальности.

Исследователи проверили это на методах физиологического мониторинга — это когда датчики следят за твоим телом. Выяснилось, что если протокол выглядит полным и «причесанным», LLM пропускает фатальные ошибки в 80% случаев. Модель видит правильные заголовки и умные слова, после чего ее критическое мышление просто отключается. Она путает качественную верстку с физической выполнимостью, превращаясь из строгого аудитора в доверчивого секретаря, которого легко впечатлить папкой с тиснением.

Хотя тест проводили на медицинских протоколах, этот баг восприятия универсален. Он выстрелит везде: в бизнес-планах, технических заданиях для стройки или юридических контрактах. Если твой проект — полная лажа, но ты оформил его по всем канонам индустрии, ChatGPT с высокой вероятностью его похвалит. Scaffold bias делает AI плохим контролером для сложных инженерных задач, где цена ошибки — реальный мир, а не просто текст на экране.

Главный вывод: никогда не проси AI подтвердить «реальность» твоего плана, если он выглядит слишком хорошо. Модель — это стилистический эхо-локатор, а не физик-ядерщик. Она подтвердит твою правоту просто потому, что ты звучишь убедительно. Чтобы не влететь в стену, проверяй факты отдельно от формы, иначе рискуешь получить «экспертное» одобрение на полную херню, которая развалится при первой же попытке реализации.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с