TL;DR
Когда просишь LLM оценить чью-то позицию, мнение или отношение к теме, модель не просто «ошибается иногда». Она ломается по предсказуемому паттерну: при чётком контексте — выдаёт слишком уверенные суждения, при размытом — уходит в нейтральное "непонятно". И между этими зонами — провал точности, где модель особенно ненадёжна.
Главная боль: пользователи добавляют сложные промпты — «поразмышляй шаг за шагом», «представь дискуссию двух экспертов», «найди подтверждения» — чтобы исправить плохие ответы. Исследователи проверили 15 таких методов. Большинство не улучшили результат, а переключили тип ошибки: модель перестала ошибаться в одну сторону, но начала ошибаться в другую. Это «эффект маятника» — метод лечит симптом, не причину.
SICI — диагностический фреймворк из 7 измерений, который позволяет заранее оценить, насколько задача «съедает» рабочую зону LLM. Чем выше сложность по этой шкале, тем надёжнее прогноз: LLM уйдёт в уклончивые ответы, и никакой промпт-инжиниринг не поможет.
Схема метода
ДИАГНОСТИКА (один промпт):
Задать LLM: оцени текст по 7 измерениям SICI
└── Каждое измерение: 0 (просто) → 4 (очень сложно)
└── Вычислить: SICI = 0.65 × (среднее / 4) + 0.35 × (максимум / 4)
ИНТЕРПРЕТАЦИЯ:
SICI < 0.45 → Зона 1: "Будет уверенный ответ, склонный к сильным позициям"
0.45–0.70 → Зона 2: "Нестабильная граница — результат непредсказуем"
SICI > 0.70 → Зона 3: "LLM уйдёт в нейтральное 'непонятно' — анализ нет смысла делегировать"
РЕШЕНИЕ:
Зона 1 → Доверяй ответу, но проверь на чрезмерную категоричность
Зона 2 → Упрости задачу: разбей на конкретные вопросы
Зона 3 → Не трать время на промпт-инжиниринг; нужен человек
Диагностика и основной анализ делаются отдельными запросами.
Пример применения
Задача: Ты читаешь отзывы на маркетплейсе (Ozon, Wildberries) и хочешь понять — этот покупатель за твой продукт или против? Просишь LLM классифицировать 50 отзывов.
Промпт-диагностика (перед массовой обработкой):
Оцени этот отзыв по 7 параметрам от 0 до 4, где 0 = просто, 4 = очень сложно.
Отзыв: «Брала не для себя, в итоге всё как всегда. Качество на уровне, но вы понимаете о чём я.»
Тема для оценки: отношение покупателя к товару.
Параметры:
1. Явность темы: насколько прямо упоминается товар и отношение к нему?
2. Фокус текста: текст в основном про товар или про что-то ещё?
3. Косвенность: мнение выражено прямо или намёком/иронией?
4. Нужны ли фоновые знания о контексте, чтобы понять отзыв?
5. Нужен ли внешний контекст (предыдущие сообщения, диалог)?
6. Однозначен ли смысл или можно трактовать по-разному?
7. Совпадают ли эмоция (тон) и реальная позиция, или есть разрыв?
Выдай каждый балл и итоговое число: SICI = (0.65 × среднее/4) + (0.35 × максимум/4)
Результат:
Модель выдаст оценку по каждому из 7 параметров и итоговый индекс SICI. Если значение выше 0.70 — LLM в основной задаче (классификация отзыва) скорее всего ответит «нейтрально, непонятно», даже если за текстом стоит чёткое недовольство. Это сигнал: такие отзывы нужно перечитывать вручную, а не доверять автоматической классификации.
Почему это работает
LLM не «думает» над смыслом — она генерирует следующий токен по паттернам. Когда тема в тексте названа явно и мнение выражено прямо, модель распознаёт знакомый паттерн → уверенный ответ. Когда тема упомянута косвенно, через иронию или вообще не упомянута — паттерн размыт → модель генерирует нейтральный placeholder.
Почему сложные промпты не помогают. Добавляя «порассуждай шаг за шагом» или «представь дискуссию», ты меняешь, с каким знаком модель ошибается — но не убираешь ошибку. Исследователи назвали это маятником: промпт «думай косвенно» снижает ложно-позитивные суждения, но увеличивает ложные нейтральные. Промпт «будь осторожен» — наоборот. Маятник раскачивается, а точность почти не растёт.
Три зоны поведения — это системное свойство всех моделей. Границы зон сдвигаются у более сильных моделей (GPT-4o чуть шире рабочая зона), но сами зоны никуда не деваются. Это значит: понимание этого паттерна работает независимо от того, какую именно модель ты используешь.
Шаблон промпта
Оцени текст по 7 параметрам сложности (0 = просто, 4 = очень сложно).
Текст: {текст}
Тема оценки: {тема или вопрос}
Параметры:
1. Явность темы: тема названа прямо или нужно догадываться?
2. Фокус текста: текст про тему или про что-то смежное?
3. Косвенность высказывания: мнение прямое или через намёк, иронию, образ?
4. Нужны фоновые знания: без них смысл понятен?
5. Нужен внешний контекст (диалог, история): понятно из самого текста?
6. Однозначность: смысл один или можно читать по-разному?
7. Разрыв эмоция↔позиция: тон совпадает с реальным отношением или нет?
Для каждого параметра: оценка (0–4) + одна строчка объяснения.
Итог: SICI = (0.65 × среднее/4) + (0.35 × максимум/4)
Вывод: зона 1 (<0.45) / зона 2 (0.45–0.70) / зона 3 (>0.70)
Интерпретация: стоит ли доверять автоматическому анализу этого текста?
Плейсхолдеры:
- {текст} — отзыв, комментарий, сообщение, фрагмент статьи
- {тема} — то, чью позицию ты хочешь понять: «отношение к продукту», «поддерживает ли автор идею X», «доволен ли клиент сервисом»
🚀 Быстрый старт — вставь в чат:
Вот шаблон SICI-диагностики сложности текста.
Адаптируй под мою задачу: {твоя задача}.
Задай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про тип текстов и тему анализа — потому что ей нужно понять, что считать «явным» или «косвенным» именно в твоём контексте. Она возьмёт структуру из шаблона и подстроит под твой случай.
Почему это работает
LLM ненадёжна в зоне прагматической сложности. Когда в тексте нет прямого сигнала («мне нравится» / «я против»), а смысл вытекает из иронии, умолчания или фоновых знаний — модель не «читает между строк». Она генерирует наиболее частотный ответ для таких паттернов. Для неоднозначных текстов этот ответ — нейтральный.
Первая зона (чёткий контекст) — другая ловушка. Когда всё явно, LLM выдаёт уверенный ответ. Но эта уверенность бывает ложной: модель обучена на текстах, где критика часто дана через «против», и это создаёт систематическое смещение в сторону негативных суждений даже там, где их нет.
Рычаги управления: попробуй упростить задачу для сложных текстов — дать модели явные критерии («считай позицию позитивной, если автор использует эти слова: ...»), или разбить анализ: сначала пересказ, потом оценка. Это снижает сложность по параметрам «косвенность» и «нужны фоновые знания».
Ограничения
⚠️ Только для задач анализа позиций/мнений: Фреймворк разработан для оценки, поддерживает ли текст какую-то точку зрения. Для других задач (генерация, суммаризация, перевод) эти 7 измерений напрямую не применимы.
⚠️ Нейтральный ответ — не всегда ошибка: В части случаев «непонятно» — правильный вывод, потому что текст действительно ничего не говорит о теме. SICI помогает отличить «ложное нейтральное» от «законного нейтрального», но не автоматически.
⚠️ Более сложные промпты не снимают потолок: Для текстов с SICI > 0.70 ни один из 15 протестированных методов (дебаты агентов, CoT, RAG с Википедией) не дал надёжного улучшения. Потолок системный.
⚠️ Диагностика требует отдельного запроса: Это не «вотергейт в одном промпте» — сначала проверяешь сложность, потом делаешь основной анализ. Для единичных текстов оверхед; полезно для потоков.
Как исследовали
Исследователи взяли почти 4 700 размеченных примеров из двух датасетов — твиты с политическими мнениями (SemEval-2016) и тексты на произвольные темы (VAST). Каждый пример — это пара «текст + тема»: поддерживает ли автор позицию, против или нейтрален. GPT-4o-mini оценил каждую пару по 7 параметрам SICI.
Дальше проверили: предсказывает ли SICI точность моделей лучше, чем простые сигналы (длина текста, частота упоминания темы, плотность отрицаний)? Ответ — да, и с большим отрывом. SICI объясняет точность лучше всех поверхностных прокси. Особенно интересная деталь: сегментированная регрессия (три зоны) объяснила данные на 70% точнее, чем простая линейная связь «сложнее = хуже». Это подтвердило: перед нами не постепенное снижение, а скачки между режимами.
Финальный эксперимент: взяли 187 самых сложных примеров (SICI ≥ 0.70) и прогнали через 15 методов улучшения. Результат обескураживающий: лучшие методы — ноль улучшений по сравнению с базовым промптом. Несколько методов сделали хуже. Это редкий случай, когда исследование системно показывает: «не трать время на это» — и объясняет почему.
Адаптации и экстраполяции
1. Применение SICI как фильтра перед пакетной обработкой
🔧 Техника: диагностика перед делегированием → точечная ручная проверка
Если обрабатываешь много текстов (100+ отзывов, комментариев, заявок), сначала прогони небольшую выборку через SICI-диагностику. Это покажет, какой процент текстов попадает в «ненадёжную зону». Если зона 3 занимает >30% — результаты всей пакетной обработки будут сомнительными, и лучше переосмыслить подход.
2. Принцип «маятника» как предупреждение
🔧 Техника: распознавать маятниковые исправления → не переусложнять
Если LLM даёт слишком много нейтральных ответов и ты пытаешься это исправить через усложнение промпта — проверь: не начала ли модель теперь выдавать слишком уверенные суждения вместо нейтральных? Маятник — сигнал, что проблема не в промпте, а в сложности исходных текстов.
3. Упрощение задачи вместо усложнения промпта
Вместо того чтобы добавлять в промпт «подумай глубже», попробуй упростить входные данные: - Разбей длинный текст на абзацы и анализируй по частям - Дай модели явные критерии: «считай позицию позитивной, если...» - Добавь один-два примера с похожей прагматической структурой (few-shot с аналогичной косвенностью)
Это снижает сам SICI, а не пытается «перебороть» сложность.
Ресурсы
SICI: A Semantic-Pragmatic Complexity Index Reveals Regime Shifts in LLM Stance Detection
Авторы: Fuqiang Niu (School of Cyber Science and Technology, University of Science and Technology of China, Hefei), Bowen Zhang (School of Artificial Intelligence, Shenzhen Technology University, Shenzhen)
Датасеты: SemEval-2016 Task 6, VAST, P-Stance, MTSD
