3,583 papers
arXiv:2606.28574 76 26 июня 2026 г. FREE

Grain Calibration: как не дать LLM угадывать вместо оценки

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM согласна с экспертом в 80% случаев — это звучит как успех. Но это просто значит, что они оба читают один и тот же ложный сигнал. В реальном исследовании люди и модель одинаково путали негативизм с отсутствием романтического интереса — оба ошибались, поэтому «соглашались». Согласие — это надёжность, не точность. Grain Calibration позволяет проверить, что именно LLM измеряет: сам конструкт или его случайный коррелят. Метод вытаскивает оценку наружу: конструкт разбивается на компоненты, каждый требует цитату из текста как доказательство, а итог вычисляется по явному правилу — не в голове у модели, а прямо в промпте.
Адаптировать под запрос

TL;DR

LLM даёт правильный ответ по неправильной причине. Если попросить модель оценить текст по критерию — например, есть ли в нём моральная аргументация или реальная экспертиза — она не проверяет критерий. Она находит внешний признак, который коррелирует с критерием, и делает вывод из него. Результат совпадает с верным ответом... пока ситуация не выйдет за пределы типичного.

Главная находка: согласие LLM с экспертом — это надёжность, а не валидность. Инструмент может стабильно ошибаться, если эксперт и модель читают один и тот же ложный сигнал. В одном исследовании LLM и люди одинаково путали негативизм с отсутствием романтического интереса — оба ошибались, поэтому «соглашались». Ещё острее: смена формулировки промпта на одном и том же тексте меняла результат кодирования моральных конструктов с чрезмерного на недостаточное — то есть модель не измеряла конструкт, она была чувствительна к формулировке.

Grain Calibration — трёхшаговый метод, который закрывает эту дыру. Сначала конструкт декомпозируется на компоненты по теории. Затем для каждого компонента извлекается цитата из текста как доказательство. Наконец, итоговый вывод собирается по явно заявленному правилу — не «в голове» у модели, а прямо в промпте.


🔬

Схема метода

Все три шага выполняются в одном промпте.

ШАГ 1: Декомпозиция
  Конструкт ({что оцениваем}) → список компонентов по теории
  Каждый компонент = отдельный, независимо проверяемый вопрос

ШАГ 2: Доказательства
  Для каждого компонента → оценка (ЕСТЬ / НЕТ / ЧАСТИЧНО)
                          + цитата из текста как обоснование
                          (или "доказательств не найдено")

ШАГ 3: Явное правило комбинирования
  Правило задаётся в промпте, не оставляется на усмотрение модели
  Пример: "если хотя бы один компонент НЕТ — итог НЕТ"
  Итоговый вывод вычисляется по правилу из компонентных оценок

🚀

Пример применения

Задача: Артём отправляет питч-дек в акселератор Сколково. Нужно проверить: питч действительно демонстрирует product-market fit или только выглядит убедительно.

Промпт:

Оцени питч-дек на наличие product-market fit.

Конструкт: продукт решает реальную, подтверждённую проблему реальных пользователей.

Компоненты конструкта:
1. Конкретная проблема клиента сформулирована — не абстрактно, а с деталями
2. Существующие решения названы и объяснено, почему они недостаточны
3. Продукт устраняет именно эту проблему — прямая связь показана
4. Есть подтверждение от реальных пользователей — цитата, кейс, метрика

Текст питч-дека:
[вставить текст]

Для каждого компонента:
— оценка: ЕСТЬ / НЕТ / ЧАСТИЧНО
— процитируй конкретный фрагмент из текста как доказательство
  (если нет — напиши "доказательств не найдено")

Правило итоговой оценки: product-market fit подтверждён только если 
все 4 компонента — ЕСТЬ или ЧАСТИЧНО (без НЕТ).

Итог: ПОДТВЕРЖДЁН / НЕ ПОДТВЕРЖДЁН / ЧАСТИЧНО?

Результат: Модель покажет разбор по четырём компонентам с цитатами или отсутствием доказательств. В итоге — вывод, вычисленный по явному правилу. Если product-market fit «провалился» — будет видно, на каком именно компоненте и почему. Не «кажется слабовато», а конкретно: компонент 4 — доказательств не найдено.


🧠

Почему это работает

Слабость LLM — это distributional competence: модель делает выводы из того, какие слова встречаются рядом в обучающих данных. Для простых сигналов это работает отлично. Для конструктов с теоретической структурой — нет. «Забота» и «справедливость» в тексте могут выглядеть одинаково на уровне слов, но требуют разных инференций. Модель выбирает ближайший паттерн, а не проверяет различие.

Сильная сторона LLM — модель умеет хорошо работать с явными, конкретными вопросами и извлекать цитаты по заданному критерию. Если спросить «есть ли в тексте упоминание страдающего существа — процитируй» — справится надёжно. Слабость возникает на синтезе: когда нужно из многих сигналов вывести теоретический конструкт за один шаг.

Метод переключает режим: вместо одного сложного синтез-вопроса — серия простых фактических вопросов. Каждый компонент — это задача, с которой LLM справляется хорошо. Синтез выполняется по явному правилу, которое вы задали, а не по ассоциации, которую выбрала модель.

Рычаги управления: - Компоненты — чем точнее декомпозиция по теории, тем надёжнее результат. Размытые компоненты = неточные доказательства - Правило комбинирования — замените жёсткое «все должны быть ЕСТЬ» на взвешенное «3 из 4 достаточно» под свою задачу - Формат доказательств — добавьте «объясни, почему эта цитата подтверждает компонент» — увидите, где модель натянула связь - Блок различения — добавьте компонент «чем это НЕ является» (например, «это не просто негативный отзыв, а именно претензия к качеству»). Это самый сильный инструмент против ложных срабатываний


📋

Шаблон промпта

Оцени {текст_или_материал} на наличие: {конструкт}.

Определение конструкта: {точное_определение_что_это_такое}.

Компоненты конструкта (всё, что теория требует для подтверждения):
1. {компонент_1}
2. {компонент_2}
3. {компонент_3}
[добавь при необходимости]

Текст для анализа:
{текст}

Для каждого компонента:
— оценка: ЕСТЬ / НЕТ / ЧАСТИЧНО
— процитируй конкретный фрагмент как доказательство
  (если нет — напиши "доказательств не найдено")

Правило итогового вывода: {явное_правило_комбинирования}.

Итог: {конструкт} — ПОДТВЕРЖДЁН / НЕ ПОДТВЕРЖДЁН / ЧАСТИЧНО?

Плейсхолдеры: - {текст_или_материал} — питч, статья, отзыв, пост, письмо - {конструкт} — что именно оцениваешь: экспертность, лояльность клиента, реальный болевой запрос - {точное_определение} — без этого модель подставит своё - {компоненты} — разбей конструкт на части, которые можно проверить независимо - {правило} — например: «все ЕСТЬ» / «хотя бы 2 из 3» / «компонент 1 обязателен, остальные по большинству»


🚀 Быстрый старт — вставь в чат:

Вот шаблон Grain Calibration. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, что именно оцениваться и какое определение вы вкладываете в конструкт — потому что точная декомпозиция на компоненты невозможна без понимания, что именно считать «правильным» признаком.


⚠️

Ограничения

⚠️ Качество = качество декомпозиции: Если вы сами не знаете, из чего состоит ваш конструкт — метод не поможет. Grain Calibration усиливает хорошую теорию, не заменяет её.

⚠️ Конструкты с поверхностными признаками: Для задач, где правильный ответ действительно читается с поверхности — например, тональность отзыва «положительная / отрицательная» — метод избыточен. Работает там, где конструкт сложнее своих признаков.

⚠️ Компонент различения легко пропустить: Большинство ошибок — не в том, что конструкт не обнаружен, а в том, что его перепутали с соседним. Без явного компонента «отличи от X» — риск ложных срабатываний остаётся.

⚠️ Авторская рефлексия: Бумага признаёт, что Grain Calibration сам по себе не гарантирует, что LLM следует компонентам, а не продолжает использовать корреляты. Метод делает процесс видимым — и это уже ценность. Но стопроцентной гарантии нет.


🔍

Как исследовали

Это теоретическая работа, не эксперимент. Пита собрал несколько реальных исследований, где LLM демонстрировали точное кодирование при детальном разборе оказывавшееся ложным. Самый сильный пример — кодирование 2 407 интервью с беженцами-рохинджа против 19-кодовой схемы: лучший LLM ошибался вдоль демографических линий так сильно, что менял знак зависимости. Ошибки были не случайными — они были систематическими. Supervised-модель на тех же данных показала систематический перекос только в одном коде из 19-ти — это говорит о том, что дело не в сложности задачи, а именно в механике LLM.

Другой кейс: одна и та же задача кодирования морального основания «авторитет» — при разных формулировках промпта на одном корпусе текстов давала результаты от «96% чаще людей» до «38% реже людей». Другое основание — «забота» — оставалось стабильным при тех же изменениях. Это убедительно доказывает: проблема системная, а не связана с неудачным промптом.

Удивительный момент: исследование не предлагает готовый промпт или инструмент — оно переформулирует что именно нужно доказать, чтобы считать LLM валидным инструментом измерения. Это методологический сдвиг, не технический.


💡

Адаптации и экстраполяции

🔧 Техника: компонент различения → точность классификации

Добавьте к любому оценочному промпту блок «отличи от X». Это прямо закрывает самый частый тип ошибки: модель кодирует похожий, но другой конструкт.

Вместо: Есть ли в тексте экспертность?

Добавьте: Компонент 4: Это экспертность (знание из практики), а не авторитетность (апелляция к статусу) — есть ли признак именно практического знания?

🔧 Техника: явное правило → аудит решения

Если модель выдала итог, который вы не ожидали — правило позволяет найти, где произошёл сбой. Без явного правила вы не знаете, какой компонент «перевесил».

Экстраполяция: Grain Calibration × Chain-of-Thought

Бумага отмечает, что Chain-of-Thought не решает проблему — модель может выстроить объяснение задним числом, не проверяя компоненты. Но сочетание работает: сначала Grain Calibration структурирует что проверять, CoT помогает развернуть как. Они не конкуренты — декомпозиция и рассуждение решают разные задачи.


🔗

Ресурсы

Название: Correct codes for the wrong reasons? Validating LLMs as measurement instruments for theoretical constructs (preprint, June 2026)

Автор: Manuel Pita, Artificial Intelligence, Social Interaction and Complexity Laboratory, CICANT, Universidade Lusófona, Лиссабон

Контакт: manuel.pita@ulusofona.pt | ORCID: 0000-0003-2180-6823

Связанные работы из бумаги: Min et al. — о том, что примеры в промпте не устанавливают правило, а активируют ассоциации; McCoy et al. — модели следуют эвристике даже когда она заведомо неверна; Matz et al. — согласие LLM и людей как общая ошибка; ValiText (Birkenmaier et al.) — фреймворк валидации; Abdurahman et al. — праймер по оценке LLM в социальных науках


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM согласна с экспертом в 80% случаев — это звучит как успех. Но это просто значит, что они оба читают один и тот же ложный сигнал. В реальном исследовании люди и модель одинаково путали негативизм с отсутствием романтического интереса — оба ошибались, поэтому «соглашались». Согласие — это надёжность, не точность. Grain Calibration позволяет проверить, что именно LLM измеряет: сам конструкт или его случайный коррелят. Метод вытаскивает оценку наружу: конструкт разбивается на компоненты, каждый требует цитату из текста как доказательство, а итог вычисляется по явному правилу — не в голове у модели, а прямо в промпте.

Принцип работы

Стандартный подход — один большой вопрос: «есть ли в тексте X?» Модель синтезирует ответ по ассоциации из обучающих данных. Grain Calibration меняет режим. Один сложный синтез-вопрос разбивается на серию простых фактических вопросов. С простыми фактическими вопросами LLM справляется хорошо — может найти цитату, проверить наличие признака. Синтез выполняется по правилу, которое задал ты, а не по ассоциации, которую выбрала модель. Процесс: декомпозиция конструкта по теории → цитата-доказательство для каждого компонента → итог по явному правилу.

Почему работает

LLM работает на схожести того, какие слова встречаются рядом в обучающих данных. Для простых сигналов (тональность, факт наличия слова) это надёжно. Для теоретических конструктов — нет: «забота» и «справедливость» могут выглядеть одинаково на уровне слов, хотя требуют разного вывода. Модель выбирает ближайший поверхностный паттерн вместо того, чтобы проверить теоретическое различие. Отдельно: смена формулировки промпта на одном и том же тексте меняла вывод о моральных конструктах с чрезмерного на недостаточное — то есть модель не измеряла конструкт, она реагировала на слова запроса. Метод не пытается это исправить — он обходит проблему: убирает из LLM этап синтеза и оставляет только то, что она делает хорошо.

Когда применять

Контент-анализ и исследования → для оценки теоретических конструктов в текстах (моральная аргументация, экспертность, лояльность клиента, реальный болевой запрос), особенно когда конструкт сложнее своих поверхностных признаков. Отлично работает при проверке питч-деков, статей, отзывов, писем — везде, где нужно не «кажется убедительно», а «подтверждено по критерию». НЕ подходит, если правильный ответ читается прямо с поверхности текста — тональность отзыва «положительная/отрицательная» не требует такой декомпозиции. Там метод избыточен.

Мини-рецепт

1. Определи конструкт точно: Напиши, что именно ты измеряешь — и что это НЕ является. Без этого компоненты будут размытыми, а доказательства — натянутыми.
2. Разбей на части: Выпиши из теории 3–5 компонентов. Каждый должен быть проверяем независимо — «цитату можно найти или нет».
3. Добавь компонент различения: «Это не просто [похожий конструкт] — отличие вот в чём: [признак]». Это самый острый инструмент против ложных срабатываний. Большинство пропускают этот шаг — и получают ошибки.
4. Задай правило явно: Не оставляй итог модели. Напиши прямо: «подтверждено, только если компонент 1 — ЕСТЬ и хотя бы 2 из остальных — ЕСТЬ или ЧАСТИЧНО».
5. Проверь цитаты: Если для компонента написано «доказательств не найдено» — итог честный. Если цитата выглядит натянуто — добавь в промпт: «объясни, почему эта цитата подтверждает именно этот компонент».

Примеры

[ПЛОХО] : Есть ли в этом питч-деке product-market fit?
[ХОРОШО] : Оцени питч-дек на наличие product-market fit. Определение: продукт решает реальную подтверждённую проблему реальных пользователей. Компоненты: 1. Конкретная проблема клиента сформулирована с деталями, не абстрактно 2. Существующие решения названы и объяснено, почему они не работают 3. Продукт устраняет именно эту проблему — прямая связь показана 4. Есть подтверждение от реальных пользователей — цитата, кейс или метрика [вставить текст питч-дека] Для каждого компонента: оценка ЕСТЬ / НЕТ / ЧАСТИЧНО + цитата из текста как доказательство (если нет — «доказательств не найдено»). Правило: product-market fit подтверждён, только если все 4 компонента — ЕСТЬ или ЧАСТИЧНО, ни одного НЕТ. Итог: ПОДТВЕРЖДЁН / НЕ ПОДТВЕРЖДЁН / ЧАСТИЧНО? Результат: видно, на каком именно компоненте питч проваливается и почему — не «кажется слабовато», а конкретно: компонент 4, доказательств не найдено.
Источник: Correct codes for the wrong reasons? Validating LLMs as measurement instruments for theoretical constructs
ArXiv ID: 2606.28574 | Сгенерировано: 2026-06-30 04:30

Проблемы LLM

ПроблемаСутьКак обойти
Модель оценивает внешний признак вместо самого конструктаПросишь проверить сложный критерий — например, есть ли в тексте реальная экспертиза или product-market fit. Модель не ищет критерий. Она находит слова, которые в обучающих данных часто стоят рядом с критерием. Пока текст типичный — ответ верный. Как только текст нетипичный — модель ошибается, но уверенно. Это не баг подбора слов. Это фундаментальный режим работыРазбей конструкт на компоненты по теории. Для каждого попроси цитату из текста как доказательство. Не давай модели синтезировать за один шаг
Формулировка запроса меняет итог оценки — на том же текстеОдин и тот же текст. Один и тот же критерий. Разные слова в запросе — и оценка меняется на противоположную. Не потому что модель стала умнее или глупее. Потому что разная формулировка активирует разные поверхностные паттерны. Опасно для любой задачи оценки: анализ отзывов, проверка питча, классификация контентаЗафикси определение конструкта прямо в запросе. Добавь компонент "чем это НЕ является" — он закрывает большинство ложных срабатываний

Методы

МетодСуть
Разбивка конструкта на компоненты с доказательствами — точная оценка сложных критериевТри шага в одном запросе. Шаг 1: Дай точное определение конструкта. Разбей его на отдельные компоненты — каждый проверяется независимо. Шаг 2: Для каждого компонента попроси оценку ЕСТЬ / НЕТ / ЧАСТИЧНО и цитату из текста как доказательство. Если цитаты нет — "доказательств не найдено". Шаг 3: Задай явное правило итога прямо в запросе: "подтверждено только если все компоненты — ЕСТЬ или ЧАСТИЧНО". Синтаксис: Компоненты конструкта: 1. {компонент} 2. {компонент} ... Правило итога: {явное правило}. Почему работает: Модель плохо синтезирует теоретический конструкт за один шаг. Модель хорошо отвечает на конкретные фактические вопросы. Метод разбивает один сложный шаг на серию простых. Синтез выполняется по твоему правилу, а не по внутренней ассоциации модели. Когда применять: оценка питчей, анализ текстов на сложные критерии, классификация по теоретическим конструктам (экспертность, намерение, тип аргументации). Когда не нужен: простая тональность, поверхностные признаки — там конструкт совпадает со своим признаком

Тезисы

ТезисКомментарий
Модель хорошо отвечает на простые фактические вопросы. Плохо — синтезирует теоретический конструкт из многих сигналов сразуЭто разные режимы работы. "Есть ли в тексте упоминание страдающего существа — процитируй" — справится надёжно. "Есть ли в тексте моральная аргументация" — ищет ближайший паттерн из обучающих данных. Один синтез-вопрос = выбор ассоциации, а не проверка критерия. Применяй: переформулируй один сложный вопрос в серию простых фактических вопросов с просьбой процитировать доказательство
📖 Простыми словами

Correct codes for the wrong reasons? validatingLLMsas measurement instruments for theoretical constructs

arXiv: 2606.28574

LLM работают не как вдумчивые аналитики, а как ленивые студенты, которые выучили билеты по ключевым словам. Когда ты просишь модель оценить сложную штуку — например, есть ли в тексте реальная экспертиза или моральная дилемма — она не вникает в суть. Вместо того чтобы проверять логику и структуру, нейронка ищет поверхностные признаки, которые обычно сопутствуют правильному ответу. Она выдает верный результат, но делает это по совершенно ложным причинам, просто цепляясь за знакомые паттерны в тексте.

Это как если бы HR-директор оценивал профессионализм кандидата не по его кейсам, а по тому, насколько дорогой на нем костюм и как уверенно он сыплет терминами. Формально всё сходится — успешные люди часто носят хорошие костюмы. Но стоит прийти талантливому гику в худи или уверенному в себе шарлатану, и эта система оценки с треском проваливается. Модель видит корреляцию, но в упор не понимает причинно-следственную связь.

В исследовании это называют распределительной компетенцией. На практике это выглядит так: если ты просишь проверить питч-дек на product-market fit, модель не будет считать юнит-экономику или проверять глубину интервью. Она просто увидит слова "масштабируемость", "Retention" и "LTV", после чего радостно отрапортует, что всё круто. Для неё наличие терминов в тексте равнозначно наличию смысла, хотя на деле это может быть просто красиво упакованная пустышка.

Принцип универсален и касается любой оценки контента через AI. Будь то проверка кода на безопасность, анализ юридических рисков или модерация токсичности — модель всегда будет искать кратчайший путь к ответу через внешние признаки. Тестировали это на сложных теоретических конструктах, но лажа вскрывается везде, где нужно копнуть глубже первого слоя слов. LLM — это детекторы паттернов, а не измерительные приборы.

Главный вывод: нельзя доверять оценкам нейронок в вопросах, где важна суть, а не форма. Если модель говорит «да», это может значить лишь то, что твой текст похож на правильный, а не является им. Чтобы не попасть в ловушку, нужно заставлять модель обосновывать каждый шаг через конкретные факты из текста, а не просто выдавать вердикт. Иначе ты рискуешь построить стратегию на выводах, которые держатся на честном слове и паре удачных эпитетов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с