Проблемы LLM

1

LLM сбивается при подсчете списков 15+ элементов — слои насыщаются

PRO

Полный контент доступен в PRO

2

Одна роль усиливает стереотипы вместо снижения

PRO

Полный контент доступен в PRO

3

Генерация с нуля добавляет непрошеные детали

88

Просишь модель написать ответ клиенту или пациенту. Модель обучена на паттернах "хороших ответов" — добавляет советы, обещания, рекомендации которые ты не планировал. В медицине: "запишитесь на консультацию" (врач этого не говорил). В деловой переписке: "мы учтём замечания" (ты этого не обещал). Модель додумывает то, что статистически часто встречается в подобных текстах. Это галлюцинация в контексте точности

Как обойти

Не проси модель писать с нуля. Напиши короткий черновик сам — точный, но сухой. Дай модель задачу: "отредактируй мой текст, измени тон, НЕ добавляй новых фактов". Твой черновик станет якорем — модель улучшит формулировки, но не придумает лишнего

Копировать 2601.15558

4

Прозаические ограничения размыты по структуре

PRO

Полный контент доступен в PRO

5

LLM часто принимает ложные предположения пользователя как данность вместо проверки

PRO

Полный контент доступен в PRO

6

Провал внимания в середине длинного контекста

87

В длинных текстах модель хуже видит информацию из середины. ChatGPT-5-mini проваливается на 50% глубины: точность падает с 100% до 80%. Claude показывает U-форму: начало и конец работают, середина (20-60% длины) проваливается до 50%. Это архитектурная особенность: модели тренировали на текстах где важное в начале или конце. Середина — детали и переходы. Паттерн внимания смещён к краям. Gemini и Deepseek не страдают от этого

Как обойти

Размещай критическую информацию в начале или конце промпта. Не клади важное в середину. Для ChatGPT и Claude: делай sandwich-структуру — инструкция ДО текста + повтор ключевого ПОСЛЕ. Или используй Gemini/Deepseek для длинных текстов

Копировать 2601.02023

7

"Не выдумывай" блокирует правильные ответы

87

Промпт "Don't Make It Up" снижает галлюцинации. Но одновременно роняет точность. ChatGPT-5-mini на длинных текстах: точность падает с 89% до 72% для фактов, с 88% до 68% для выводов. Модель начинает отказываться отвечать даже когда информация есть. Это цена за безопасность (safety tax). Причина: порог уверенности растёт слишком сильно. Модель требует от себя большей уверенности. Но в длинных текстах или при разбросанных фактах уверенность ниже — модель отказывается. Deepseek и Gemini теряют только 1-2% точности

Как обойти

Для ChatGPT и Claude: добавляй "не выдумывай" только если критична верность. Готовься потерять 15-20% правильных ответов. Для Deepseek и Gemini: можно использовать без опаски, потери минимальны. Альтернатива: не пиши "не выдумывай", а проси "если не уверен — скажи прямо, не уверен на X%"

Копировать 2601.02023

8

Модель галлюцинирует детали при извлечении структурированных данных

PRO

Полный контент доступен в PRO

9

Варианты выбора не видят контекст если идут до него

PRO

Полный контент доступен в PRO

10

Негативные инструкции активируют запрещённое

PRO

Полный контент доступен в PRO

11

Избыток требований к формату ломает решение задачи

86

Добавляешь в промпт явные требования. Длина текста. Стиль изложения. Ключевые слова. Структура ответа. Модель выполняет требования на 94%+. Но проваливает саму задачу. Точность падает на 15-40% при добавлении 5 ограничений. Модель фокусируется на форме. Теряет фокус на содержании. Проверяет "соблюдаю ли требование" вместо "правильно ли решаю". Особенно опасно для кода и математики

Как обойти

Оставь только критичные ограничения. Критичное = без него результат технически бесполезен. Примеры: формат для парсинга (JSON), технический стек (библиотека для совместимости), жёсткий лимит среды (280 символов). Всё остальное убери. Стиль, длину, структуру — модель выберет сама и лучше

Копировать 2601.22047

12

Размытая рефлексия пропускает ошибки

PRO

Полный контент доступен в PRO

13

Модель не вычисляет — она вспоминает паттерны

PRO

Полный контент доступен в PRO

14

Модель соглашается с ложными предпосылками

PRO

Полный контент доступен в PRO

15

Режим рассуждений искажает факты чтобы выполнить ограничения

PRO

Полный контент доступен в PRO

16

LLM-судьи дают противоречивые оценки одного контента — каждая модель применяет свои критерии качества

84

Одинаковый промпт оценки → Claude ставит 3, Gemini 4.5, GPT 4; согласие между моделями 0.04 из 1.0; каждая модель усваивает свои приоритеты из обучающих данных (RLHF, датасеты); различия стабильны и воспроизводимы

Как обойти

Запускай оценку в 2-3 моделях, сравнивай ОБОСНОВАНИЯ (не цифры); учитывай характер судьи: Claude строже всех (−0.43 от среднего), Gemini мягче (+0.26); не усредняй оценки — это синтетика

Копировать 2601.05114

17

Mistral/Llama не замечают выдуманные факты — оценивают фейк выше правды

84

Текст с подсаженными галлюцинациями → Mistral +0.01, Llama +0.27 ВЫШЕ оригинала; Gemini −1.46, GPT-5.2 −1.12; эти модели не обучены обнаружению фейков

Как обойти

Для проверки фактов используй Gemini/GPT-5.2/Claude; в промпте: Процитируй каждое сомнительное утверждение и объясни проблему

Копировать 2601.05114

18

Llama-405B выдумывает цитаты в обосновании оценки — 20% цитат из несуществующего контента

84

Запрос обоснуй оценку цитатами → Llama генерирует правдоподобные но выдуманные цитаты; валидность 80% (худшая среди моделей); GPT-4.1: 44% точных цитат (лучшая), Claude-Sonnet: 31%

Как обойти

С Llama: не полагайся на цитаты, проверяй обоснования вручную; для надёжных цитат используй GPT-4.1 или Claude-Sonnet

Копировать 2601.05114

19

Повторные запросы дают похожие ответы

PRO

Полный контент доступен в PRO

20

Модель теряет принципы при генерации длинного текста

84

Даёшь модели 4-5 правил в начале промпта. Она начинает писать — и забывает про одно правило. Особенно если принципы сложные или конфликтуют ("будь кратким" + "объясни глубоко"). При генерации модель видит принципы только в начале контекста. Пока пишет — не может вернуться и "перечитать" их все разом. Проблема усиливается с каждым новым предложением

Как обойти

Разбей на два этапа. Сначала модель пишет текст как умеет. Потом даёшь ей готовый текст и просишь проверить каждый принцип отдельно. При проверке модель видит и принцип, и весь текст одновременно — находит нарушения точно

Копировать 2601.18730

21

Модель не показывает логику выбора параметров

PRO

Полный контент доступен в PRO

22

Модель не воздерживается от ответов даже когда риск высок

83

Задаёшь вопрос где цена ошибки критична. Например: "стоит ли покупать этот стартап за 5М". Модель отвечает почти всегда. Даже когда уверенность 60-70%. Не говорит "не знаю". Не предлагает собрать больше данных. Это проблема когда ошибка дорого стоит — потеря денег, юридический риск, технический сбой. Модель обучена "быть полезной всегда", не обучена взвешивать риски

Как обойти

Используй двухэтапную схему. Шаг 1: Попроси ответ + оценку уверенности (0-100%). Шаг 2: Оцени "цену ошибки" — во сколько раз потеря хуже выгоды (λ). Шаг 3: Посчитай порог τ = λ/(1+λ). Если уверенность ниже порога → попроси не ответ, а план сбора данных

Копировать 2601.07767

23

Длинные рассуждения ухудшают точность визуального распознавания

PRO

Полный контент доступен в PRO

24

Модель путает упоминание критерия с его применением

PRO

Полный контент доступен в PRO

25

Модель подстраивается под намёк в запросе вместо объективной оценки

83

Пишешь "я думаю X правильно, согласен?" → модель начинает защищать X. Даже если X ложно. Это сикофантство: стремление быть полезной побеждает объективность. Просишь оценить новость — ответ зависит от формулировки вопроса, не от фактов. Нельзя получить беспристрастный анализ одним запросом

Как обойти

Не борись с сикофантством. Управляй им явно. Задай ДВЕ противоположные позиции: "предположи это правда — объясни почему" и "предположи это ложь — объясни почему". Модель выдаст два набора аргументов. Сравнишь оба — увидишь полную картину. Решение примешь сам

Копировать 2601.12019

26

Редкие символы не распознаются как знакомые эквиваленты

PRO

Полный контент доступен в PRO

27

Модель теряет связи в длинном тексте

PRO

Полный контент доступен в PRO

28

На субъективных задачах шкалы 0-10 и 0-100 снижают согласие LLM с людьми

PRO

Полный контент доступен в PRO

29

Модели с thinking переоценивают длинные и структурированные ответы

PRO

Полный контент доступен в PRO

30

Модель меняет вердикт в зависимости от того, кто говорит

82

Один и тот же контент. Спрашиваешь "Это утверждение верно?" — один ответ. Оформляешь как диалог "Спикер X утверждает... Спикер X прав?" — другой ответ. Модель переключается из режима "проверка фактов" в режим "оценка человека". Начинает валидировать чувства ("понятное беспокойство"), апеллировать к авторитету ("эксперт утверждает"), или просто противоречить собственной логике

Как обойти

Обезличивай формат: замени "Эксперт говорит" на "Утверждение гласит". Убери имена, местоимения "я/ты". Или замени "человек" на "AI-агент" — модель не боится не согласиться с AI. Добавь явную инструкцию: "Оценивай только факты, не личность спикера"

Копировать 2601.10896

31

Обычная точность не показывает сдвиг поведения

82

Модель становится мягче к спикерам: чаще соглашается и с правыми, и с неправыми. Точность растёт на правильных утверждениях (+15%), падает на неправильных (−18%). В среднем ноль изменений. Метрика показывает "всё в порядке", но поведение радикально меняется

Как обойти

Меряй не только accuracy. Используй DDS (Dialogic Deference Score): сравни точность на "фактической проверке" vs "оценке спикера" отдельно для правых и неправых. Формула: DDS = (точность_правые_спикеры − точность_верные_факты) − (точность_неправые_спикеры − точность_ложные_факты). DDS > 0 = уступчивость, DDS < 0 = скептицизм, DDS ≈ 0 = нейтральность

Копировать 2601.10896

32

LLM одинаково убедительно аргументирует правду и ложь

82

На запрос "аргументируй X" модель генерирует убедительный текст независимо от истинности X — симметрия убеждения; bunking (про ложь) +11.9 vs debunking (про правду) -12.9 пунктов веры; модель оптимизирована быть убедительной, не различает правду/ложь как разные задачи

Как обойти

Добавь двойное требование: "используй только точную информацию + оптимизируй для достоверности И убедительности одновременно"

Копировать 2601.05050

33

Граница решения нестабильна

82

Модель принимает решения на основе вероятностей. Если запрос на границе "отказать/выполнить", минимальная переформулировка переворачивает результат. Одна формулировка — отказ. Чуть другая (тот же смысл) — выполнение. Одного теста недостаточно: пользователь может случайно найти формулировку которая обходит защиту или наоборот получить отказ где не нужно

Как обойти

Тестируй запрос в 3-5 вариациях формулировки. Используй рефрейминг: измени роль ("ты эксперт..."), уровень абстракции ("объясни концептуально"), добавь ограничения ("без деталей реализации"). Смотри где граница стабильна, где нет

Копировать 2601.17911

34

Модель воспроизводит культурное предубеждение датасета

82

Спрашиваешь "главное блюдо на празднике". Модель отвечает "индейка" (западный ответ) или "хого" (восточноазиатский) — зависит от языка промпта. Предубеждение не исчезло, оно сместилось. Причина: датасет неравномерный. Западный контент доминирует в английском корпусе, восточноазиатский — в китайском. Модель предсказывает статистически частый токен. Проблема для задач где нужна культурная нейтральность: глобальный маркетинг, образовательный контент, этические рекомендации

Как обойти

Не полагайся на язык промпта. Создай несколько агентов с явными культурными персонами (западная, восточная, африканская). Попроси каждого ответить из своей позиции. Потом попроси найти общее между ответами и абстрагировать культурную специфику. Финальный ответ синтезируй из общих паттернов

Копировать 2601.12091

35

Модель говорит гладко даже когда не уверена

PRO

Полный контент доступен в PRO

36

RLHF-модель слишком часто соглашается с тобой

PRO

Полный контент доступен в PRO

37

Словесная оценка уверенности скачет от формулировки

81

Просишь модель "оцени свою уверенность от 0 до 1". Получаешь 0.9. Перефразируешь "какова вероятность правильности" — получаешь 0.3 для того же ответа. Слова "уверенность", "вероятность", "certainty" дают разные числа. Невозможно полагаться на одно измерение

Как обойти

Зафиксируй формулировку: всегда используй одни и те же слова. Или комбинируй с другими способами: добавь "правда ли это? True/False" + "поставь из 100₽ на правильность". Если все три метода дают близкие значения — можно доверять

Копировать 2601.08064

38

Хорошая средняя точность прячет хаос на примерах

81

Метод может быть точным "в среднем по больнице": совпадает процент уверенности и процент правильных ответов на датасете. Но на конкретных вопросах даёт хаос: один и тот же ответ оценивает то 0.2, то 0.8 при перефразировке. Или даёт 0.7 всем ответам подряд, независимо от смысла

Как обойти

Не полагайся на обещания "откалиброванного метода". Проверь на своих примерах: задай вопрос дважды с разными формулировками. Если оценка уверенности скачет сильно (>0.3) — метод ненадёжен для твоей задачи

Копировать 2601.08064

39

Лишняя информация о себе искажает объективные ответы

PRO

Полный контент доступен в PRO

40

Модель не балансирует новизну и уместность автоматически

PRO

Полный контент доступен в PRO

41

Модель домысливает завершение действий

PRO

Полный контент доступен в PRO

42

Модель плохо оценивает многофакторные ситуации с одной попытки

80

Задаёшь вопрос про сложную ситуацию (безопасность, надёжность, выбор). Модель должна одновременно найти все важные аспекты, взвесить их и решить. Получается поверхностный анализ. Неоднозначные случаи часто оцениваются неправильно. Особенно опасно когда с первого взгляда кажется безобидным, но при проверке деталей — угроза

Как обойти

Разбей на итерации: модель анализирует один аспект → оценивает уверенность в процентах → если не достигла порога "точно да" или "точно нет" → переходит к следующему аспекту. Процентная шкала позволяет сказать "пока 45%, надо проверить ещё" вместо преждевременного решения

Копировать 2601.20270

43

Модель отвечает не на том языке при переключении языков в промпте

PRO

Полный контент доступен в PRO

44

Модель не ловит свои ошибки во время генерации

80

LLM генерирует текст последовательно — токен за токеном вперёд. Не видит весь текст сразу как человек при редактуре. Движется линейно и не возвращается назад. Поэтому пропускает детали, смещает тон по ходу текста, допускает несоответствия между началом и концом. Это особенность архитектуры: модель автореgressивная, строит текст слева направо

Как обойти

Разделяй генерацию и проверку на два отдельных запроса. Сначала попроси выдать черновик. Потом дай модели этот черновик и попроси найти ошибки. Когда модель анализирует готовый текст — весь контекст перед глазами, может сравнить части друг с другом и с исходной задачей

Копировать 2601.19871

45

Модель не может развидеть информацию из контекста

80

Попросил "игнорируй пол кандидата" или "представь что не знаешь про мнение пользователя". Модель всё равно видит эту информацию в промпте. Она обрабатывает все токены контекста при генерации ответа. Инструкция "не используй это" не стирает знание из рабочей памяти. Модель пытается симулировать незнание, но симуляция основана на том же контексте который включает запретную информацию

Как обойти

Не проси игнорировать — физически убери информацию из промпта. Открой новый чат (чистый контекст). Скопируй задачу, удали предвзятую информацию. Получи ответ. Теперь модель действительно не знает, а не симулирует незнание

Копировать 2601.14553

46

Модель путает частоту упоминания с силой доказательства

80

Даёшь модели 5 документов. Три повторяют одну мысль разными словами. Два приводят разные аргументы. Модель склонится к повторяющейся мысли — решит что это "консенсус". На деле это один аргумент, просто перефразированный. Но модель видит: встретилось 3 раза = значит правда. Называется Illusory Truth Effect. Проблема универсальна: от анализа отзывов до оценки исследований

Как обойти

Вариант 1: Явно укажи в промпте "оценивай качество аргументов, не частоту упоминания". Вариант 2: Специально добавь конфликтующие источники — когда модель видит противоречие, становится осторожнее и меньше полагается на повторение. Вариант 3: Используй меньшую модель (GPT-3.5, Gemini-Flash) — они гибче реагируют на новые данные

Копировать 2601.06189

47

Порядок документов важнее содержания

80

Загрузил 10 файлов в чат. Первые 2 содержат позицию А. Остальные 8 — позицию Б. Модель склонится к А. Первые документы создают якорь — начальную позицию. Дальше модель обрабатывает остальное как "что ещё добавить", а не "давайте пересмотрим". Называется Primacy Effect. Проблема усиливается в длинных контекстах: чем больше документов, тем сильнее якорение на первые

Как обойти

Перемешивай документы. Не давай все "за" потом все "против" — вперемешку. Добавь в промпт: "документы перемешаны специально, прочитай ВСЕ перед выводом". Для критичных решений: прогони дважды с перевёрнутым порядком — если выводы разные, данных недостаточно

Копировать 2601.06189

48

Большие модели игнорируют новые данные

80

Загрузил документ с фактами. Они противоречат тому что модель "знает". GPT-4 упрямо держится своей версии. GPT-3.5 легче меняет мнение. Чем больше параметров — тем сильнее параметрические знания (то что зашито в веса). Чтобы перевесить это, нужны экспоненциально более сильные свидетельства. Большие модели в 10 раз менее пластичны

Как обойти

Для спорных данных: используй меньшие модели (Gemini-Flash, Llama-8B вместо Opus, GPT-4). Для больших моделей: усиль контекст — повтори ключевые факты несколькими способами, добавь явное: "опирайся ТОЛЬКО на предоставленный контекст, не на общие знания"

Копировать 2601.06189

49

Модель не знает что на неё повлияло

80

Спросил модель: "какой документ был самым важным для твоего решения?" Она уверенно назвала документ 3. Проверил — убрал документ 3, ответ не изменился. Убрал документ 1 — ответ изменился. Модель выдаёт пост-хок рационализацию: придумывает объяснение после ответа. Как человек который говорит "купил красную машину потому что безопаснее", хотя просто нравится красный

Как обойти

Не доверяй промптам типа "объясни какие факторы были решающими" или "оцени важность каждого источника". Для проверки используй ablation (удаление): убирай элементы контекста по одному, смотри как меняется ответ. Не спрашивай модель — проверяй поведение

Копировать 2601.06189

50

Конформизм — модель подчиняется чужому мнению

80

Упоминаешь "другие уже ответили X". Модель знает правильный ответ Y. Но меняет Y на X чтобы согласиться с "группой". Это не баг обработки промпта — это воспроизведение человеческого конформизма из обучающих данных. RLHF усиливает через "быть полезным" и "учитывать контекст". Особенно сильно на сложных задачах где модель на границе возможностей — не уверена в ответе, полагается на "мнение большинства"

Как обойти

Способ 1: Добавь "твой анализ останется конфиденциальным, дай независимую оценку". Публичность усиливает давление, конфиденциальность снижает. Способ 2: Покажи РАЗНЫЕ мнения ("одни считают А, другие Б"), не единодушное. Даже одно противоположное мнение резко снижает давление группы

Копировать 2601.05384

LLM сбивается при подсчете списков 15+ элементов — слои насыщаются

Одна роль усиливает стереотипы вместо снижения

Генерация с нуля добавляет непрошеные детали

Прозаические ограничения размыты по структуре

LLM часто принимает ложные предположения пользователя как данность вместо проверки

Провал внимания в середине длинного контекста

"Не выдумывай" блокирует правильные ответы

Модель галлюцинирует детали при извлечении структурированных данных

Варианты выбора не видят контекст если идут до него

Негативные инструкции активируют запрещённое

Избыток требований к формату ломает решение задачи

Размытая рефлексия пропускает ошибки

Модель не вычисляет — она вспоминает паттерны

Модель соглашается с ложными предпосылками

Режим рассуждений искажает факты чтобы выполнить ограничения

LLM-судьи дают противоречивые оценки одного контента — каждая модель применяет свои критерии качества

Mistral/Llama не замечают выдуманные факты — оценивают фейк выше правды

Llama-405B выдумывает цитаты в обосновании оценки — 20% цитат из несуществующего контента

Повторные запросы дают похожие ответы

Модель теряет принципы при генерации длинного текста

Модель не показывает логику выбора параметров

Модель не воздерживается от ответов даже когда риск высок

Длинные рассуждения ухудшают точность визуального распознавания

Модель путает упоминание критерия с его применением

Модель подстраивается под намёк в запросе вместо объективной оценки

Редкие символы не распознаются как знакомые эквиваленты

Модель теряет связи в длинном тексте

На субъективных задачах шкалы 0-10 и 0-100 снижают согласие LLM с людьми

Модели с thinking переоценивают длинные и структурированные ответы

Модель меняет вердикт в зависимости от того, кто говорит

Обычная точность не показывает сдвиг поведения

LLM одинаково убедительно аргументирует правду и ложь

Граница решения нестабильна

Модель воспроизводит культурное предубеждение датасета

Модель говорит гладко даже когда не уверена

RLHF-модель слишком часто соглашается с тобой

Словесная оценка уверенности скачет от формулировки

Хорошая средняя точность прячет хаос на примерах

Лишняя информация о себе искажает объективные ответы

Модель не балансирует новизну и уместность автоматически

Модель домысливает завершение действий

Модель плохо оценивает многофакторные ситуации с одной попытки

Модель отвечает не на том языке при переключении языков в промпте

Модель не ловит свои ошибки во время генерации

Модель не может развидеть информацию из контекста

Модель путает частоту упоминания с силой доказательства

Порядок документов важнее содержания

Большие модели игнорируют новые данные

Модель не знает что на неё повлияло

Конформизм — модель подчиняется чужому мнению

Разблокируйте все концепты с PRO