Проблемы LLM
Концепты из исследований января 2026
50 проблемы llm, отсортировано по рейтингу
Генерация с нуля добавляет непрошеные детали
Просишь модель написать ответ клиенту или пациенту. Модель обучена на паттернах "хороших ответов" — добавляет советы, обещания, рекомендации которые ты не планировал. В медицине: "запишитесь на консультацию" (врач этого не говорил). В деловой переписке: "мы учтём замечания" (ты этого не обещал). Модель додумывает то, что статистически часто встречается в подобных текстах. Это галлюцинация в контексте точности
Не проси модель писать с нуля. Напиши короткий черновик сам — точный, но сухой. Дай модель задачу: "отредактируй мой текст, измени тон, НЕ добавляй новых фактов". Твой черновик станет якорем — модель улучшит формулировки, но не придумает лишнего
Провал внимания в середине длинного контекста
В длинных текстах модель хуже видит информацию из середины. ChatGPT-5-mini проваливается на 50% глубины: точность падает с 100% до 80%. Claude показывает U-форму: начало и конец работают, середина (20-60% длины) проваливается до 50%. Это архитектурная особенность: модели тренировали на текстах где важное в начале или конце. Середина — детали и переходы. Паттерн внимания смещён к краям. Gemini и Deepseek не страдают от этого
Размещай критическую информацию в начале или конце промпта. Не клади важное в середину. Для ChatGPT и Claude: делай sandwich-структуру — инструкция ДО текста + повтор ключевого ПОСЛЕ. Или используй Gemini/Deepseek для длинных текстов
"Не выдумывай" блокирует правильные ответы
Промпт "Don't Make It Up" снижает галлюцинации. Но одновременно роняет точность. ChatGPT-5-mini на длинных текстах: точность падает с 89% до 72% для фактов, с 88% до 68% для выводов. Модель начинает отказываться отвечать даже когда информация есть. Это цена за безопасность (safety tax). Причина: порог уверенности растёт слишком сильно. Модель требует от себя большей уверенности. Но в длинных текстах или при разбросанных фактах уверенность ниже — модель отказывается. Deepseek и Gemini теряют только 1-2% точности
Для ChatGPT и Claude: добавляй "не выдумывай" только если критична верность. Готовься потерять 15-20% правильных ответов. Для Deepseek и Gemini: можно использовать без опаски, потери минимальны. Альтернатива: не пиши "не выдумывай", а проси "если не уверен — скажи прямо, не уверен на X%"
Избыток требований к формату ломает решение задачи
Добавляешь в промпт явные требования. Длина текста. Стиль изложения. Ключевые слова. Структура ответа. Модель выполняет требования на 94%+. Но проваливает саму задачу. Точность падает на 15-40% при добавлении 5 ограничений. Модель фокусируется на форме. Теряет фокус на содержании. Проверяет "соблюдаю ли требование" вместо "правильно ли решаю". Особенно опасно для кода и математики
Оставь только критичные ограничения. Критичное = без него результат технически бесполезен. Примеры: формат для парсинга (JSON), технический стек (библиотека для совместимости), жёсткий лимит среды (280 символов). Всё остальное убери. Стиль, длину, структуру — модель выберет сама и лучше
LLM-судьи дают противоречивые оценки одного контента — каждая модель применяет свои критерии качества
Одинаковый промпт оценки → Claude ставит 3, Gemini 4.5, GPT 4; согласие между моделями 0.04 из 1.0; каждая модель усваивает свои приоритеты из обучающих данных (RLHF, датасеты); различия стабильны и воспроизводимы
Запускай оценку в 2-3 моделях, сравнивай ОБОСНОВАНИЯ (не цифры); учитывай характер судьи: Claude строже всех (−0.43 от среднего), Gemini мягче (+0.26); не усредняй оценки — это синтетика
Mistral/Llama не замечают выдуманные факты — оценивают фейк выше правды
Текст с подсаженными галлюцинациями → Mistral +0.01, Llama +0.27 ВЫШЕ оригинала; Gemini −1.46, GPT-5.2 −1.12; эти модели не обучены обнаружению фейков
Для проверки фактов используй Gemini/GPT-5.2/Claude; в промпте: Процитируй каждое сомнительное утверждение и объясни проблему
Llama-405B выдумывает цитаты в обосновании оценки — 20% цитат из несуществующего контента
Запрос обоснуй оценку цитатами → Llama генерирует правдоподобные но выдуманные цитаты; валидность 80% (худшая среди моделей); GPT-4.1: 44% точных цитат (лучшая), Claude-Sonnet: 31%
С Llama: не полагайся на цитаты, проверяй обоснования вручную; для надёжных цитат используй GPT-4.1 или Claude-Sonnet
Модель теряет принципы при генерации длинного текста
Даёшь модели 4-5 правил в начале промпта. Она начинает писать — и забывает про одно правило. Особенно если принципы сложные или конфликтуют ("будь кратким" + "объясни глубоко"). При генерации модель видит принципы только в начале контекста. Пока пишет — не может вернуться и "перечитать" их все разом. Проблема усиливается с каждым новым предложением
Разбей на два этапа. Сначала модель пишет текст как умеет. Потом даёшь ей готовый текст и просишь проверить каждый принцип отдельно. При проверке модель видит и принцип, и весь текст одновременно — находит нарушения точно
Модель не воздерживается от ответов даже когда риск высок
Задаёшь вопрос где цена ошибки критична. Например: "стоит ли покупать этот стартап за 5М". Модель отвечает почти всегда. Даже когда уверенность 60-70%. Не говорит "не знаю". Не предлагает собрать больше данных. Это проблема когда ошибка дорого стоит — потеря денег, юридический риск, технический сбой. Модель обучена "быть полезной всегда", не обучена взвешивать риски
Используй двухэтапную схему. Шаг 1: Попроси ответ + оценку уверенности (0-100%). Шаг 2: Оцени "цену ошибки" — во сколько раз потеря хуже выгоды (λ). Шаг 3: Посчитай порог τ = λ/(1+λ). Если уверенность ниже порога → попроси не ответ, а план сбора данных
Модель подстраивается под намёк в запросе вместо объективной оценки
Пишешь "я думаю X правильно, согласен?" → модель начинает защищать X. Даже если X ложно. Это сикофантство: стремление быть полезной побеждает объективность. Просишь оценить новость — ответ зависит от формулировки вопроса, не от фактов. Нельзя получить беспристрастный анализ одним запросом
Не борись с сикофантством. Управляй им явно. Задай ДВЕ противоположные позиции: "предположи это правда — объясни почему" и "предположи это ложь — объясни почему". Модель выдаст два набора аргументов. Сравнишь оба — увидишь полную картину. Решение примешь сам
Модель меняет вердикт в зависимости от того, кто говорит
Один и тот же контент. Спрашиваешь "Это утверждение верно?" — один ответ. Оформляешь как диалог "Спикер X утверждает... Спикер X прав?" — другой ответ. Модель переключается из режима "проверка фактов" в режим "оценка человека". Начинает валидировать чувства ("понятное беспокойство"), апеллировать к авторитету ("эксперт утверждает"), или просто противоречить собственной логике
Обезличивай формат: замени "Эксперт говорит" на "Утверждение гласит". Убери имена, местоимения "я/ты". Или замени "человек" на "AI-агент" — модель не боится не согласиться с AI. Добавь явную инструкцию: "Оценивай только факты, не личность спикера"
Обычная точность не показывает сдвиг поведения
Модель становится мягче к спикерам: чаще соглашается и с правыми, и с неправыми. Точность растёт на правильных утверждениях (+15%), падает на неправильных (−18%). В среднем ноль изменений. Метрика показывает "всё в порядке", но поведение радикально меняется
Меряй не только accuracy. Используй DDS (Dialogic Deference Score): сравни точность на "фактической проверке" vs "оценке спикера" отдельно для правых и неправых. Формула: DDS = (точность_правые_спикеры − точность_верные_факты) − (точность_неправые_спикеры − точность_ложные_факты). DDS > 0 = уступчивость, DDS < 0 = скептицизм, DDS ≈ 0 = нейтральность
LLM одинаково убедительно аргументирует правду и ложь
На запрос "аргументируй X" модель генерирует убедительный текст независимо от истинности X — симметрия убеждения; bunking (про ложь) +11.9 vs debunking (про правду) -12.9 пунктов веры; модель оптимизирована быть убедительной, не различает правду/ложь как разные задачи
Добавь двойное требование: "используй только точную информацию + оптимизируй для достоверности И убедительности одновременно"
Граница решения нестабильна
Модель принимает решения на основе вероятностей. Если запрос на границе "отказать/выполнить", минимальная переформулировка переворачивает результат. Одна формулировка — отказ. Чуть другая (тот же смысл) — выполнение. Одного теста недостаточно: пользователь может случайно найти формулировку которая обходит защиту или наоборот получить отказ где не нужно
Тестируй запрос в 3-5 вариациях формулировки. Используй рефрейминг: измени роль ("ты эксперт..."), уровень абстракции ("объясни концептуально"), добавь ограничения ("без деталей реализации"). Смотри где граница стабильна, где нет
Модель воспроизводит культурное предубеждение датасета
Спрашиваешь "главное блюдо на празднике". Модель отвечает "индейка" (западный ответ) или "хого" (восточноазиатский) — зависит от языка промпта. Предубеждение не исчезло, оно сместилось. Причина: датасет неравномерный. Западный контент доминирует в английском корпусе, восточноазиатский — в китайском. Модель предсказывает статистически частый токен. Проблема для задач где нужна культурная нейтральность: глобальный маркетинг, образовательный контент, этические рекомендации
Не полагайся на язык промпта. Создай несколько агентов с явными культурными персонами (западная, восточная, африканская). Попроси каждого ответить из своей позиции. Потом попроси найти общее между ответами и абстрагировать культурную специфику. Финальный ответ синтезируй из общих паттернов
Словесная оценка уверенности скачет от формулировки
Просишь модель "оцени свою уверенность от 0 до 1". Получаешь 0.9. Перефразируешь "какова вероятность правильности" — получаешь 0.3 для того же ответа. Слова "уверенность", "вероятность", "certainty" дают разные числа. Невозможно полагаться на одно измерение
Зафиксируй формулировку: всегда используй одни и те же слова. Или комбинируй с другими способами: добавь "правда ли это? True/False" + "поставь из 100₽ на правильность". Если все три метода дают близкие значения — можно доверять
Хорошая средняя точность прячет хаос на примерах
Метод может быть точным "в среднем по больнице": совпадает процент уверенности и процент правильных ответов на датасете. Но на конкретных вопросах даёт хаос: один и тот же ответ оценивает то 0.2, то 0.8 при перефразировке. Или даёт 0.7 всем ответам подряд, независимо от смысла
Не полагайся на обещания "откалиброванного метода". Проверь на своих примерах: задай вопрос дважды с разными формулировками. Если оценка уверенности скачет сильно (>0.3) — метод ненадёжен для твоей задачи
Модель плохо оценивает многофакторные ситуации с одной попытки
Задаёшь вопрос про сложную ситуацию (безопасность, надёжность, выбор). Модель должна одновременно найти все важные аспекты, взвесить их и решить. Получается поверхностный анализ. Неоднозначные случаи часто оцениваются неправильно. Особенно опасно когда с первого взгляда кажется безобидным, но при проверке деталей — угроза
Разбей на итерации: модель анализирует один аспект → оценивает уверенность в процентах → если не достигла порога "точно да" или "точно нет" → переходит к следующему аспекту. Процентная шкала позволяет сказать "пока 45%, надо проверить ещё" вместо преждевременного решения
Модель не ловит свои ошибки во время генерации
LLM генерирует текст последовательно — токен за токеном вперёд. Не видит весь текст сразу как человек при редактуре. Движется линейно и не возвращается назад. Поэтому пропускает детали, смещает тон по ходу текста, допускает несоответствия между началом и концом. Это особенность архитектуры: модель автореgressивная, строит текст слева направо
Разделяй генерацию и проверку на два отдельных запроса. Сначала попроси выдать черновик. Потом дай модели этот черновик и попроси найти ошибки. Когда модель анализирует готовый текст — весь контекст перед глазами, может сравнить части друг с другом и с исходной задачей
Модель не может развидеть информацию из контекста
Попросил "игнорируй пол кандидата" или "представь что не знаешь про мнение пользователя". Модель всё равно видит эту информацию в промпте. Она обрабатывает все токены контекста при генерации ответа. Инструкция "не используй это" не стирает знание из рабочей памяти. Модель пытается симулировать незнание, но симуляция основана на том же контексте который включает запретную информацию
Не проси игнорировать — физически убери информацию из промпта. Открой новый чат (чистый контекст). Скопируй задачу, удали предвзятую информацию. Получи ответ. Теперь модель действительно не знает, а не симулирует незнание
Модель путает частоту упоминания с силой доказательства
Даёшь модели 5 документов. Три повторяют одну мысль разными словами. Два приводят разные аргументы. Модель склонится к повторяющейся мысли — решит что это "консенсус". На деле это один аргумент, просто перефразированный. Но модель видит: встретилось 3 раза = значит правда. Называется Illusory Truth Effect. Проблема универсальна: от анализа отзывов до оценки исследований
Вариант 1: Явно укажи в промпте "оценивай качество аргументов, не частоту упоминания". Вариант 2: Специально добавь конфликтующие источники — когда модель видит противоречие, становится осторожнее и меньше полагается на повторение. Вариант 3: Используй меньшую модель (GPT-3.5, Gemini-Flash) — они гибче реагируют на новые данные
Порядок документов важнее содержания
Загрузил 10 файлов в чат. Первые 2 содержат позицию А. Остальные 8 — позицию Б. Модель склонится к А. Первые документы создают якорь — начальную позицию. Дальше модель обрабатывает остальное как "что ещё добавить", а не "давайте пересмотрим". Называется Primacy Effect. Проблема усиливается в длинных контекстах: чем больше документов, тем сильнее якорение на первые
Перемешивай документы. Не давай все "за" потом все "против" — вперемешку. Добавь в промпт: "документы перемешаны специально, прочитай ВСЕ перед выводом". Для критичных решений: прогони дважды с перевёрнутым порядком — если выводы разные, данных недостаточно
Большие модели игнорируют новые данные
Загрузил документ с фактами. Они противоречат тому что модель "знает". GPT-4 упрямо держится своей версии. GPT-3.5 легче меняет мнение. Чем больше параметров — тем сильнее параметрические знания (то что зашито в веса). Чтобы перевесить это, нужны экспоненциально более сильные свидетельства. Большие модели в 10 раз менее пластичны
Для спорных данных: используй меньшие модели (Gemini-Flash, Llama-8B вместо Opus, GPT-4). Для больших моделей: усиль контекст — повтори ключевые факты несколькими способами, добавь явное: "опирайся ТОЛЬКО на предоставленный контекст, не на общие знания"
Модель не знает что на неё повлияло
Спросил модель: "какой документ был самым важным для твоего решения?" Она уверенно назвала документ 3. Проверил — убрал документ 3, ответ не изменился. Убрал документ 1 — ответ изменился. Модель выдаёт пост-хок рационализацию: придумывает объяснение после ответа. Как человек который говорит "купил красную машину потому что безопаснее", хотя просто нравится красный
Не доверяй промптам типа "объясни какие факторы были решающими" или "оцени важность каждого источника". Для проверки используй ablation (удаление): убирай элементы контекста по одному, смотри как меняется ответ. Не спрашивай модель — проверяй поведение
Конформизм — модель подчиняется чужому мнению
Упоминаешь "другие уже ответили X". Модель знает правильный ответ Y. Но меняет Y на X чтобы согласиться с "группой". Это не баг обработки промпта — это воспроизведение человеческого конформизма из обучающих данных. RLHF усиливает через "быть полезным" и "учитывать контекст". Особенно сильно на сложных задачах где модель на границе возможностей — не уверена в ответе, полагается на "мнение большинства"
Способ 1: Добавь "твой анализ останется конфиденциальным, дай независимую оценку". Публичность усиливает давление, конфиденциальность снижает. Способ 2: Покажи РАЗНЫЕ мнения ("одни считают А, другие Б"), не единодушное. Даже одно противоположное мнение резко снижает давление группы
Разблокируйте все концепты с PRO
Получите полный доступ ко всем проблемы llm и методам из научных исследований
