3,583 papers
arXiv:2606.13189 76 11 июня 2026 г. FREE

SICI: три режима ошибок LLM при анализе позиций — почему сложные промпты делают хуже

КЛЮЧЕВАЯ СУТЬ
Парадокс: 15 техник улучшения промптов не повысили точность распознавания позиций — они просто переключили тип ошибки. Добавишь «рассуждай шаг за шагом» — модель перестаёт рубить сплеча, но начинает плыть в нейтральные ответы. Добавишь «будь осторожен» — наоборот. Маятник качается, точность стоит. SICI позволяет заранее оценить прагматическую сложность текста и принять решение — отдавать задачу модели или нет. Семь параметров сложности дают один индекс: ниже 0.45 — модель справится, выше 0.70 — никакой промпт-инжиниринг не поможет, потолок точности одинаков у всех моделей в этой зоне.
Адаптировать под запрос

TL;DR

Когда просишь LLM оценить чью-то позицию, мнение или отношение к теме, модель не просто «ошибается иногда». Она ломается по предсказуемому паттерну: при чётком контексте — выдаёт слишком уверенные суждения, при размытом — уходит в нейтральное "непонятно". И между этими зонами — провал точности, где модель особенно ненадёжна.

Главная боль: пользователи добавляют сложные промпты — «поразмышляй шаг за шагом», «представь дискуссию двух экспертов», «найди подтверждения» — чтобы исправить плохие ответы. Исследователи проверили 15 таких методов. Большинство не улучшили результат, а переключили тип ошибки: модель перестала ошибаться в одну сторону, но начала ошибаться в другую. Это «эффект маятника» — метод лечит симптом, не причину.

SICI — диагностический фреймворк из 7 измерений, который позволяет заранее оценить, насколько задача «съедает» рабочую зону LLM. Чем выше сложность по этой шкале, тем надёжнее прогноз: LLM уйдёт в уклончивые ответы, и никакой промпт-инжиниринг не поможет.


🔬

Схема метода

ДИАГНОСТИКА (один промпт):
  Задать LLM: оцени текст по 7 измерениям SICI
  └── Каждое измерение: 0 (просто) → 4 (очень сложно)
  └── Вычислить: SICI = 0.65 × (среднее / 4) + 0.35 × (максимум / 4)

ИНТЕРПРЕТАЦИЯ:
  SICI < 0.45 → Зона 1: "Будет уверенный ответ, склонный к сильным позициям"
  0.45–0.70 → Зона 2: "Нестабильная граница — результат непредсказуем"
  SICI > 0.70 → Зона 3: "LLM уйдёт в нейтральное 'непонятно' — анализ нет смысла делегировать"

РЕШЕНИЕ:
  Зона 1 → Доверяй ответу, но проверь на чрезмерную категоричность
  Зона 2 → Упрости задачу: разбей на конкретные вопросы
  Зона 3 → Не трать время на промпт-инжиниринг; нужен человек

Диагностика и основной анализ делаются отдельными запросами.


🚀

Пример применения

Задача: Ты читаешь отзывы на маркетплейсе (Ozon, Wildberries) и хочешь понять — этот покупатель за твой продукт или против? Просишь LLM классифицировать 50 отзывов.

Промпт-диагностика (перед массовой обработкой):

Оцени этот отзыв по 7 параметрам от 0 до 4, где 0 = просто, 4 = очень сложно.

Отзыв: «Брала не для себя, в итоге всё как всегда. Качество на уровне, но вы понимаете о чём я.»
Тема для оценки: отношение покупателя к товару.

Параметры:
1. Явность темы: насколько прямо упоминается товар и отношение к нему?
2. Фокус текста: текст в основном про товар или про что-то ещё?
3. Косвенность: мнение выражено прямо или намёком/иронией?
4. Нужны ли фоновые знания о контексте, чтобы понять отзыв?
5. Нужен ли внешний контекст (предыдущие сообщения, диалог)?
6. Однозначен ли смысл или можно трактовать по-разному?
7. Совпадают ли эмоция (тон) и реальная позиция, или есть разрыв?

Выдай каждый балл и итоговое число: SICI = (0.65 × среднее/4) + (0.35 × максимум/4)

Результат:

Модель выдаст оценку по каждому из 7 параметров и итоговый индекс SICI. Если значение выше 0.70 — LLM в основной задаче (классификация отзыва) скорее всего ответит «нейтрально, непонятно», даже если за текстом стоит чёткое недовольство. Это сигнал: такие отзывы нужно перечитывать вручную, а не доверять автоматической классификации.


🧠

Почему это работает

LLM не «думает» над смыслом — она генерирует следующий токен по паттернам. Когда тема в тексте названа явно и мнение выражено прямо, модель распознаёт знакомый паттерн → уверенный ответ. Когда тема упомянута косвенно, через иронию или вообще не упомянута — паттерн размыт → модель генерирует нейтральный placeholder.

Почему сложные промпты не помогают. Добавляя «порассуждай шаг за шагом» или «представь дискуссию», ты меняешь, с каким знаком модель ошибается — но не убираешь ошибку. Исследователи назвали это маятником: промпт «думай косвенно» снижает ложно-позитивные суждения, но увеличивает ложные нейтральные. Промпт «будь осторожен» — наоборот. Маятник раскачивается, а точность почти не растёт.

Три зоны поведения — это системное свойство всех моделей. Границы зон сдвигаются у более сильных моделей (GPT-4o чуть шире рабочая зона), но сами зоны никуда не деваются. Это значит: понимание этого паттерна работает независимо от того, какую именно модель ты используешь.


📋

Шаблон промпта

Оцени текст по 7 параметрам сложности (0 = просто, 4 = очень сложно).

Текст: {текст}
Тема оценки: {тема или вопрос}

Параметры:
1. Явность темы: тема названа прямо или нужно догадываться?
2. Фокус текста: текст про тему или про что-то смежное?
3. Косвенность высказывания: мнение прямое или через намёк, иронию, образ?
4. Нужны фоновые знания: без них смысл понятен?
5. Нужен внешний контекст (диалог, история): понятно из самого текста?
6. Однозначность: смысл один или можно читать по-разному?
7. Разрыв эмоция↔позиция: тон совпадает с реальным отношением или нет?

Для каждого параметра: оценка (0–4) + одна строчка объяснения.
Итог: SICI = (0.65 × среднее/4) + (0.35 × максимум/4)
Вывод: зона 1 (<0.45) / зона 2 (0.45–0.70) / зона 3 (>0.70)
Интерпретация: стоит ли доверять автоматическому анализу этого текста?

Плейсхолдеры: - {текст} — отзыв, комментарий, сообщение, фрагмент статьи - {тема} — то, чью позицию ты хочешь понять: «отношение к продукту», «поддерживает ли автор идею X», «доволен ли клиент сервисом»


🚀 Быстрый старт — вставь в чат:

Вот шаблон SICI-диагностики сложности текста. 
Адаптируй под мою задачу: {твоя задача}.
Задай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип текстов и тему анализа — потому что ей нужно понять, что считать «явным» или «косвенным» именно в твоём контексте. Она возьмёт структуру из шаблона и подстроит под твой случай.


🧠

Почему это работает

LLM ненадёжна в зоне прагматической сложности. Когда в тексте нет прямого сигнала («мне нравится» / «я против»), а смысл вытекает из иронии, умолчания или фоновых знаний — модель не «читает между строк». Она генерирует наиболее частотный ответ для таких паттернов. Для неоднозначных текстов этот ответ — нейтральный.

Первая зона (чёткий контекст) — другая ловушка. Когда всё явно, LLM выдаёт уверенный ответ. Но эта уверенность бывает ложной: модель обучена на текстах, где критика часто дана через «против», и это создаёт систематическое смещение в сторону негативных суждений даже там, где их нет.

Рычаги управления: попробуй упростить задачу для сложных текстов — дать модели явные критерии («считай позицию позитивной, если автор использует эти слова: ...»), или разбить анализ: сначала пересказ, потом оценка. Это снижает сложность по параметрам «косвенность» и «нужны фоновые знания».


⚠️

Ограничения

⚠️ Только для задач анализа позиций/мнений: Фреймворк разработан для оценки, поддерживает ли текст какую-то точку зрения. Для других задач (генерация, суммаризация, перевод) эти 7 измерений напрямую не применимы.

⚠️ Нейтральный ответ — не всегда ошибка: В части случаев «непонятно» — правильный вывод, потому что текст действительно ничего не говорит о теме. SICI помогает отличить «ложное нейтральное» от «законного нейтрального», но не автоматически.

⚠️ Более сложные промпты не снимают потолок: Для текстов с SICI > 0.70 ни один из 15 протестированных методов (дебаты агентов, CoT, RAG с Википедией) не дал надёжного улучшения. Потолок системный.

⚠️ Диагностика требует отдельного запроса: Это не «вотергейт в одном промпте» — сначала проверяешь сложность, потом делаешь основной анализ. Для единичных текстов оверхед; полезно для потоков.


🔍

Как исследовали

Исследователи взяли почти 4 700 размеченных примеров из двух датасетов — твиты с политическими мнениями (SemEval-2016) и тексты на произвольные темы (VAST). Каждый пример — это пара «текст + тема»: поддерживает ли автор позицию, против или нейтрален. GPT-4o-mini оценил каждую пару по 7 параметрам SICI.

Дальше проверили: предсказывает ли SICI точность моделей лучше, чем простые сигналы (длина текста, частота упоминания темы, плотность отрицаний)? Ответ — да, и с большим отрывом. SICI объясняет точность лучше всех поверхностных прокси. Особенно интересная деталь: сегментированная регрессия (три зоны) объяснила данные на 70% точнее, чем простая линейная связь «сложнее = хуже». Это подтвердило: перед нами не постепенное снижение, а скачки между режимами.

Финальный эксперимент: взяли 187 самых сложных примеров (SICI ≥ 0.70) и прогнали через 15 методов улучшения. Результат обескураживающий: лучшие методы — ноль улучшений по сравнению с базовым промптом. Несколько методов сделали хуже. Это редкий случай, когда исследование системно показывает: «не трать время на это» — и объясняет почему.


💡

Адаптации и экстраполяции

1. Применение SICI как фильтра перед пакетной обработкой

🔧 Техника: диагностика перед делегированием → точечная ручная проверка

Если обрабатываешь много текстов (100+ отзывов, комментариев, заявок), сначала прогони небольшую выборку через SICI-диагностику. Это покажет, какой процент текстов попадает в «ненадёжную зону». Если зона 3 занимает >30% — результаты всей пакетной обработки будут сомнительными, и лучше переосмыслить подход.

2. Принцип «маятника» как предупреждение

🔧 Техника: распознавать маятниковые исправления → не переусложнять

Если LLM даёт слишком много нейтральных ответов и ты пытаешься это исправить через усложнение промпта — проверь: не начала ли модель теперь выдавать слишком уверенные суждения вместо нейтральных? Маятник — сигнал, что проблема не в промпте, а в сложности исходных текстов.

3. Упрощение задачи вместо усложнения промпта

Вместо того чтобы добавлять в промпт «подумай глубже», попробуй упростить входные данные: - Разбей длинный текст на абзацы и анализируй по частям - Дай модели явные критерии: «считай позицию позитивной, если...» - Добавь один-два примера с похожей прагматической структурой (few-shot с аналогичной косвенностью)

Это снижает сам SICI, а не пытается «перебороть» сложность.


🔗

Ресурсы

SICI: A Semantic-Pragmatic Complexity Index Reveals Regime Shifts in LLM Stance Detection

Авторы: Fuqiang Niu (School of Cyber Science and Technology, University of Science and Technology of China, Hefei), Bowen Zhang (School of Artificial Intelligence, Shenzhen Technology University, Shenzhen)

Датасеты: SemEval-2016 Task 6, VAST, P-Stance, MTSD


📋 Дайджест исследования

Ключевая суть

Парадокс: 15 техник улучшения промптов не повысили точность распознавания позиций — они просто переключили тип ошибки. Добавишь «рассуждай шаг за шагом» — модель перестаёт рубить сплеча, но начинает плыть в нейтральные ответы. Добавишь «будь осторожен» — наоборот. Маятник качается, точность стоит. SICI позволяет заранее оценить прагматическую сложность текста и принять решение — отдавать задачу модели или нет. Семь параметров сложности дают один индекс: ниже 0.45 — модель справится, выше 0.70 — никакой промпт-инжиниринг не поможет, потолок точности одинаков у всех моделей в этой зоне.

Принцип работы

LLM не «читает» текст — она ищет знакомый паттерн и генерирует наиболее частый ответ для него. Чёткий паттерн даёт уверенный вывод. Размытый — нейтральный placeholder. Из этого вырастают три зоны поведения. SICI < 0.45: тема явная, мнение прямое. Модель отвечает уверенно. Но осторожно — уверенность бывает ложной. Из-за перекоса в тренировочных данных модель тянет в сторону негативных суждений там, где их нет. SICI 0.45–0.70: граница нестабильности. Результат непредсказуем. Здесь особенно не стоит доверять автоматике. SICI > 0.70: тема косвенная, ирония, нужны фоновые знания. Модель уходит в нейтральное «непонятно». Добавляй промпты, не добавляй — потолок один. Формула: SICI = 0.65 × (среднее по 7 параметрам / 4) + 0.35 × (максимум / 4). Максимум в формуле важен: один очень сложный параметр уже тянет индекс вверх.

Почему работает

LLM генерирует токен с наибольшей вероятностью при данном контексте. Текст с иронией, умолчаниями или косвенными намёками — редкий паттерн с размытым сигналом. Для таких паттернов наиболее вероятный ответ — нейтральный, и никакая структура промпта это не меняет. Это не баг конкретной модели — это свойство всей архитектуры. GPT-4o работает в чуть более широкой рабочей зоне, но три зоны есть у всех. Понимание этого паттерна работает независимо от того, какую именно модель ты используешь.

Когда применять

Анализ позиций и мнений → конкретно для классификации отзывов, комментариев, постов в потоке, особенно когда часть из них написана с иронией, намёками или без явного оценочного слова. НЕ подходит для: генерации, суммаризации, перевода — семь параметров SICI заточены только под задачу «поддерживает ли текст определённую позицию?». Для других задач эта диагностика не работает.

Мини-рецепт

1. Запусти диагностику: возьми несколько неочевидных примеров из своего потока. Прогони через шаблон из 7 параметров (каждый от 0 до 4), получи SICI по формуле.

2. Интерпретируй зону: меньше 0.45 — работай, но проверяй на чрезмерную категоричность; 0.45–0.70 — упрощай задачу; больше 0.70 — не трать время на промпты, нужен человек.

3. Упрощай для зоны 2: дай модели явные критерии — «считай позицию позитивной, если автор использует слова из этого списка: ...». Или разбей на два шага: сначала пересказ своими словами, потом оценка. Это снижает косвенность и убирает зависимость от фоновых знаний.

4. Для потоков: прогоняй диагностику на 10–20 примерах перед массовой обработкой. Так увидишь, какая доля текстов вообще поддаётся автоматике, а что сразу идёт на ручную проверку.

Примеры

[ПЛОХО] : Определи позицию автора в каждом из этих 50 отзывов: [список]
[ХОРОШО] : Сначала запускаем диагностику на неочевидных примерах из потока: Оцени отзыв по 7 параметрам от 0 до 4, где 0 = просто, 4 = очень сложно. 1) Явность темы: тема названа прямо или нужно догадываться? 2) Фокус: текст про оцениваемый объект или про что-то смежное? 3) Косвенность: мнение прямое или через намёк, иронию? 4) Фоновые знания: без них смысл понятен? 5) Внешний контекст: понятно из самого текста? 6) Однозначность: смысл один или можно читать по-разному? 7) Разрыв тон↔позиция: эмоция совпадает с реальным отношением? Итог: SICI = 0.65×(среднее/4) + 0.35×(максимум/4). Отзыв: «Брала не для себя, качество на уровне, но вы понимаете о чём я.» Если SICI выше 0.70 — такие тексты отсекаем от автоматики. Остальные 50 делим: «чёткие» идут в LLM, «сложные» — на ручной разбор.
Источник: SICI: A Semantic-Pragmatic Complexity Index Reveals Regime Shifts in LLM Stance Detection
ArXiv ID: 2606.13189 | Сгенерировано: 2026-06-12 04:23

Проблемы LLM

ПроблемаСутьКак обойти
LLM даёт заведомо ненадёжный ответ при неоднозначном тексте — и это предсказуемоКогда смысл текста неявный — ирония, намёк, пропущенный контекст — модель не «читает между строк». Она генерирует самый частый ответ для таких паттернов. Для размытых текстов он всегда нейтральный: «непонятно», «сложно сказать». Обратная сторона: когда текст чёткий, модель уверена сильнее, чем надо. Обе зоны дают ненадёжный результат — по разным причинамПеред массовой обработкой запусти отдельный диагностический запрос на паре примеров. Попроси модель оценить: «Насколько прямо в тексте выражено мнение? Нужны ли внешние знания? Есть ли ирония или двойной смысл?» Высокая сложность по этим пунктам — сигнал: автоматизация не поможет, нужен человек

Методы

МетодСуть
Предварительная диагностика сложности — до массовой обработкиПрежде чем запускать LLM на поток текстов, проверь на 5–10 примерах: «Оцени от 0 до 4: насколько прямо выражено мнение? Нужны ли фоновые знания? Есть ли ирония или разрыв между тоном и смыслом?» Если модель стабильно даёт оценки 3–4 — дальше гнать поток нет смысла. Почему работает: Ты заранее видишь где модель будет систематически ошибаться. Это экономит время: не тратишь его на промпт-инжиниринг там, где задача структурно за пределами возможностей LLM. Когда применять: любые задачи где нужно понять чьё-то мнение, отношение, позицию по потоку текстов. Не для: генерации, перевода, суммаризации — там другие ограничения
📖 Простыми словами

SICI: A Semantic-Pragmatic Complexity Index Reveals Regime Shifts inLLMStance Detection

arXiv: 2606.13189

Определение позиции автора в тексте для нейросети — это не интеллектуальный анализ, а игра в ассоциации. Модели не вникают в суть спора, они просто ищут знакомые паттерны и статистические зацепки. Если текст написан прямолинейно, LLM впадает в избыточную уверенность и рубит сплеча. Но стоит контексту стать чуть более размытым или ироничным, как модель моментально «тупеет» и прячется за нейтральными формулировками. Исследователи вывели индекс SICI, который доказывает: точность нейросетей падает не плавно, а обваливается в конкретных «серых зонах» между очевидным и непонятным.

Это похоже на пьяного гостя на свадьбе, который пытается понять, за кого он — за невесту или за жениха. Если его спросят в лоб у алтаря, он будет орать громче всех, даже если видит их впервые. Но если беседа зайдет о чем-то косвенном, он просто начнет мычать что-то невнятное, чтобы не выдать свою дезориентацию. В обоих случаях он абсолютно бесполезен как свидетель, потому что его мнение зависит не от фактов, а от того, насколько громко играет музыка.

Главная проблема здесь — режимные сдвиги. Когда вы просите модель проанализировать отзывы на товар, она работает в двух крайностях. Либо она видит ключевые слова и выдает вердикт с фанатичной уверенностью, либо, встретив малейшую двусмысленность, уходит в безопасный нейтралитет. Промежуточного состояния, где модель могла бы честно сказать «я сомневаюсь, но скорее всего так», практически нет. Вместо этого мы получаем провал точности именно там, где человеческое мнение становится тонким и нюансированным.

Этот принцип применим везде: от модерации комментариев до анализа политических предпочтений в соцсетях. Исследование наглядно показывает, что LLM-классификация — это мина замедленного действия. Если ваш бизнес-процесс завязан на том, что нейросеть сортирует фидбек от клиентов, знайте: она либо галлюцинирует уверенностью там, где всё сложно, либо сливает важные инсайты в корзину «неопределенного». Вы не просто получаете ошибки, вы получаете системно искаженную картину реальности.

Короче: нельзя слепо доверять нейронке оценку чужого мнения, особенно если оно выражено сложнее, чем лозунг на заборе. Индекс SICI четко фиксирует, что модели ломаются на стыке семантики и прагматики. Если хотите адекватных результатов, перестаньте ждать от LLM глубокого понимания контекста — она всегда будет либо самоуверенным дураком, либо трусливым молчуном. Либо проверяйте «серые зоны» руками, либо готовьтесь к тому, что ваши данные — это просто статистический шум.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с