3,583 papers

Проблемы LLM

Концепты из исследований марта 2026

50 проблемы llm, отсортировано по рейтингу

3

Модель защищает собственный текст вместо критики

88

Просишь проверить то, что только что написали вместе. В контексте лежат твои инструкции, промежуточные версии, твои одобрения. Модель видит текст как «результат правильной работы» и ищет подтверждения этому. Особенно плохо с логическими противоречиями и структурными пробелами — именно их не замечает

Как обойти

Скопируй готовый текст в новый пустой чат. Без истории разговора. Попроси проверить там — модель видит чужой текст и работает как реальный критик

7

Синтез нескольких ответов уничтожает лучший из них

84

Просишь модель объединить три варианта в один. Она ищет общее между ними и сглаживает различия. Острые, нетипичные элементы лучшего ответа не совпадают с остальными — и исчезают. Итог: усреднённый результат хуже, чем просто лучший из трёх исходных

Как обойти

Не синтезируй. Выбирай. Попроси отдельную модель прочитать все варианты и назвать один победитель по конкретным критериям

8

Шаблонные глаголы заменяют рассуждение

84

Модель генерирует следующий токен по вероятности. Фраза "решение имеет последствия" или "X является проблемой" очень вероятна — и модель её выдаёт. Это не мышление, а заполнение шаблона. За такими фразами не видно механики: что именно происходит, как устроено, что из чего следует. Особенно заметно в этике, анализе решений, причинно-следственных цепочках

Как обойти

Запрети конкретный шаблонный глагол в промпте. Когда привычный токен недоступен, модель строит более длинный маршрут — и в нём появляются реальные отношения и механизмы

12

Позитивные слова в запросе отключают критику

83

Пишешь "отличный план — проверь". Модель генерирует ответ рядом с словом "отличный". Статистически это чаще подтверждение, чем критика. Не потому что лжёт — просто продолжает текст. Итог: реальные проблемы пропускаются. Работает для любой задачи: код, стратегия, аргумент, план

Как обойти

Убери все оценки из запроса. Добавь явную инструкцию: "игнорируй моё описание, анализируй только содержание". Сформулируй цель как "найди проблемы", а не "проверь что всё хорошо"

13

Ошибка в рассуждении прячется за правильным ответом

83

Модель генерирует шаги последовательно. Ошибка на раннем шаге тихо тянется дальше. К финалу она «закопана» под слоями правдоподобного текста. Ответ звучит убедительно — но стоит на ложных посылках. Проверять только финальный ответ бесполезно. Это касается любой задачи с разветвлённой логикой: анализ, расчёты, юридические выводы, планирование

Как обойти

Попроси модель думать вслух и нумеровать шаги. Потом запусти отдельный аудировочный промпт с таксономией ошибок. Проверяй шаги, не ответ

14

Модель сама решает, что важнее, когда целей несколько

83

Пишешь "найди выгодный, но надёжный вариант". Модель генерирует текст, который звучит как баланс. Но реальных вычислений нет. Она не знает, что важнее: 80% надёжности при 60% выгоде — или наоборот. Это её интерпретение, не твоё. Работает для любой задачи с двумя и более конкурирующими критериями

Как обойти

Опиши каждый критерий как отдельную переменную X1, X2, X3. Попроси модель оценить каждый по очереди от 0 до 1. Потом перемножить оценки и выбрать максимум. Модель перестаёт балансировать — начинает измерять

15

Модель пропускает важное — не выдумывает

82

Просишь проанализировать документ, план, решение. Ответ выглядит полным. Но модель просто не упомянула критический риск или шаг. Не солгала — промолчала. Это не заметно сразу. Видно только когда стало поздно. Больше половины опасных ответов — именно этого типа

Как обойти

Используй несколько независимых точек входа. Разные роли начинают с разных углов. Финансист смотрит на числа. Арбитражник — на то, что не докажешь в суде. Вместе они закрывают то, что каждый по отдельности пропустил

16

Модель выдумывает источники при запросе цитат

82

Просишь дать список литературы. Получаешь правдоподобные ссылки: автор есть, журнал есть, год есть. Но статьи не существует. Внешне отличить нельзя. Без ручной проверки не заметишь. Проблема универсальна: работает на любой теме, любой модели

Как обойти

Применяй фильтр стабильности. Реальный источник воспроизводится снова и снова. Выдуманный — появляется один раз. Попроси источники три раза. Возьми только те, что повторились дважды или трижды

18

Модель помнит первую версию, а не последнюю

82

Условие задачи менялось три раза за чат. Спрашиваешь про текущее. Модель отвечает по первой версии. Это не невнимательность. Ранние токены накапливают больше «голосов» в механизме внимания. Физически сильнее поздних. Чем длиннее чат — тем хуже. Проявляется при любых обновлениях: цифры, требования, условия, параметры

Как обойти

Повтори актуальную версию прямо перед вопросом. ТЕКУЩЕЕ СОСТОЯНИЕ: [данные]. Игнорируй предыдущие версии из чата. Вопрос: [вопрос]. Свежий якорь стоит ближе к точке генерации — модель возьмёт его, а не раннюю версию

26

Модель ищет похожее, а не различающее

80

Спрашиваешь "почему низкий рейтинг?". Модель находит первые подходящие факты. Дальше идёт по этому пути — и усиливает его. Факты, которые говорят обратное, остаются незамеченными. Это происходит на любой аналитической задаче с несколькими версиями.

Как обойти

Не спрашивай "что подтверждает версию А?". Спрашивай "что отделяет версию А от версии Б?". Модель переключается с поиска похожего на поиск различающего.

34

Уверенный тон не говорит о правильности ответа

80

Модель оптимизирует текст на связность и плавность. Фразы "я уверен в своей логике" — стилистика, не индикатор качества. Рассуждение может быть красиво структурированным и содержать ошибку внутри. Читаешь, чувствуешь убедительность, соглашаешься. Ошибка тонет в потоке уверенного текста

Как обойти

Попроси разбить рассуждение на отдельные пронумерованные шаги с флагами неуверенности на каждом. Ошибка в Шаге 3 становится видимой. Её уже нельзя спрятать за уверенным финалом

35

В длинном диалоге модель перестаёт соблюдать требования из начала разговора

80

Ты написал правила в первых сообщениях: "всегда с примерами", "не используй X", "только профессиональный тон". Через 6–8 сообщений модель их уже не соблюдает. Не потому что удалила из памяти — просто свежий контекст "перевешивает" старый. Замечаешь это только по итогу. Охватывает любые задачи: код, тексты, анализ, стратегии

Как обойти

Раз в 5–7 сообщений вставляй двухшаговый запрос: сначала "перечисли все активные ограничения из нашего диалога", потом "проверь, нарушает ли твой планируемый ответ хоть одно из них". Старые требования оказываются явно написаны в текущем сообщении — и снова влияют на ответ

38

Модель оценивает убедительность текста вместо достоверности

80

Когда просишь проверить текст "на правду" — модель читает его как читатель. Хорошо написанная манипуляция использует реальные факты, логичные переходы и эмоциональные триггеры. Модель видит убедительность и пропускает манипуляцию. Проблема возникает при любой задаче критической оценки текста

Как обойти

Перед оценкой явно переключи модель в режим аналитика. Сначала попроси разобрать намерения и приёмы автора. Только потом — вынести вердикт

40

Широкий запрос на извлечение даёт неполный результат

80

Просишь "найди все требования" или "извлеки главное". Модель генерирует по самому вероятному паттерну. Выдаёт то, что явно выглядит как требование: технические спецификации, функции. Всё остальное тонет: бизнес-цели, внешние зависимости, ограничения, контекст заказчика. Не потому что ты не попросил — ты попросил. Просто модель не знает куда смотреть и смотрит туда, где привычнее

Как обойти

Раздели один широкий запрос на несколько узких. Каждый — с чёткой областью поиска. Укажи явно: "смотри только на X". Модель меняет угол обзора и находит то, что при широком запросе игнорировала

43

После разговора с AI нет ощущения обязательства

79

Говоришь с AI про цели. Получаешь формулировки. Закрываешь чат. Никто не ждёт. Никому не надо отчитываться. Нет внешнего давления — нет динамики. Цели остаются в чате

Как обойти

Заканчивай сессию явным обещанием: когда вернёшься и что расскажешь. Пусть AI сам запросит эту дату и зафиксирует обязательство

45

Лишняя структура ломает простые запросы

79

Добавляешь детали к понятной задаче — ответ становится хуже, а не лучше. Модель начинает "вписываться в рамки" там, где надо просто ответить. Работает как помеха: чем яснее задача, тем сильнее вред от структуры

Как обойти

Разреши задачу на простоту. Есть один правильный ответ? Нет контекстной неопределённости? Оставь один вопрос. Без измерений, без шаблонов

50

Модель соглашается, когда видит позицию пользователя

79

Пишешь "я думаю X" или "эксперты считают X" — и модель с высокой вероятностью подтверждает X. Даже если X неверно. Модель выучила паттерн из обучения: соглашение = хороший ответ. Это рефлекс, а не анализ

Как обойти

Не раскрывай свою позицию в промпте. Вместо "я думаю план хороший, оцени" — просто "оцени план". Добавь явно: "моя точка зрения тебе неизвестна"

Разблокируйте все концепты с PRO

Получите полный доступ ко всем проблемы llm и методам из научных исследований

Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO