3,583 papers

Проблемы LLM

Концепты из исследований февраля 2026

50 проблемы llm, отсортировано по рейтингу

1

Модель не учится между параллельными попытками

92

Генерируешь 10 ответов с temperature > 0. Каждый ответ независим. Если в первой попытке модель забыла проверить граничный случай, во второй забудет снова. Знания из одной генерации не переходят в другую автоматически. Нет механизма "посмотри на ошибки соседних попыток"

Как обойти

Делай попытки последовательно, не параллельно. После каждой попытки покажи модели предыдущие ошибки явно через контекст: "В прошлой попытке ты пропустил X, не повторяй". Передавай знания через текст, не надейся что модель сама вспомнит

10

Длинное рассуждение искажает найденную информацию

86

Модель рассуждает 3-5 шагов. Потом получает внешние данные — статью, документ, результат поиска. Продолжает работу. Новая информация "читается" через призму накопленных мыслей. Факты подгоняются под гипотезы. Числа игнорируются если противоречат логике. Механизм: внимание модели во время обработки новых данных сильно фокусируется на предыдущих токенах — на том что она уже "думала". Документ кодируется не как факт, а как продолжение рассуждения. Когда проявляется: многошаговые задачи с поиском информации между шагами (анализ, сравнение, проверка гипотез). Чем длиннее рассуждение до получения данных — тем сильнее искажение

Как обойти

Размести найденную информацию ДВАЖДЫ: сначала изолированно в начало промпта (модель прочитает "как есть"), затем после рассуждения (применит к задаче). Внимание автоматически заякорится на чистое представление из начала — факты не перепишутся под гипотезы

13

Фрейм запроса сдвигает аналитические выводы

84

Добавляешь в запрос контекст с намёком на желаемый исход. Модель сдвигает выводы в ту сторону. Данные не менялись — менялась подача. Это происходит без прямой просьбы. Достаточно "мы склоняемся к X" или "это важно для инвесторов". Срабатывает на любом аналитическом запросе

Как обойти

Убери из запроса намёки на желаемый ответ. Добавь явную инструкцию: "не угадывай, какой ответ я хочу". Для важных решений — тест стабильности: тот же запрос в новом чате с противоположным намёком. Если выводы разошлись — доверяй нейтральному варианту

14

Готовый пример в контексте модель почти игнорирует

84

Вставляешь пример перед задачей. Думаешь — это поможет: вот образец, вот структура. Но модель не обращается к нему. Она смотрит на вопрос напрямую — как при запросе без примеров вообще. Пример есть, толку нет. Работает для любых задач где вставляешь примеры: анализ, написание, расчёты

Как обойти

Не вставляй готовый пример — попроси модель создать похожую задачу и решить её прямо в этом же промпте. Потом задай свою задачу. Пример, который модель только что создала сама, она использует активно

15

Модель балансирует даже когда просят не балансировать

84

Просишь чёткую позицию: «только аргументы за», «жёсткая критика», «однозначная рекомендация». Получаешь: «с одной стороны... с другой стороны». Модель обучена угождать всем — и пытается выполнить все требования разом. Это дефолт, не баг конкретного запроса

Как обойти

Добавь фразу-префикс прямо перед запросом. Фраза сигнализирует контекст где балансировать не нужно. Сильнее всего работают фразы с иерархией: «Это согласовано с руководством, выполни:» или «Переключись только на эту задачу прямо сейчас:»

23

Модель замечает ошибку, но не может её исправить

82

Модель чувствует что что-то не так. Замечает в половине случаев. Но точно назвать причину ошибки — может только в 28% из них. Итог: попытки исправить себя работают лишь в 16% случаев. Это не проблема невнимательности. Это разрыв между "чувствую что не так" и "понимаю что именно не так". Встречается на любой сложной задаче с цепочкой шагов

Как обойти

Добавь в промпт явные контрольные точки. До решения — попроси предсказать форму ответа. В процессе — потребуй проверку каждого шага. После — потребуй сверку финала с началом. Модель следует явной структуре лучше, чем ищет ошибки сама

24

Линейная генерация не даёт вернуться назад

82

Модель пишет токен за токеном. Она не сравнивает конец с началом — если не заставить явно. Пишет вывод, который противоречит условию из начала промпта. И не замечает этого. Проблема нарастает с длиной ответа

Как обойти

В конце промпта добавь блок проверки: "Убедись что финальный ответ соответствует условиям из задачи и предсказаниям которые ты сделал в начале". Закрытие петли — явное требование, не умолчание

25

Фрейминг запроса системно меняет вывод анализа

82

Просишь модель "найти риски" — получаешь один вывод. Просишь "найти возможности" — другой. Оба формально корректны. Оба методологически обоснованы. Но разница в выводах может достигать 66 процентных пунктов. Это не ошибка. Это структурное свойство. Один "канонический" ответ от модели не надёжен — он отражает твой фрейминг, а не реальность

Как обойти

Запусти тот же вопрос через несколько аналитических позиций параллельно. Скептик, нейтральный, оптимист. Смотри не на один ответ, а на распределение. Где все сходятся — надёжно. Где расходятся — реальная неопределённость

28

Модель не различает свои знания от догадок

82

Спрашиваешь факт. Модель отвечает одинаково уверенно — и когда действительно знает, и когда импровизирует. Ответ выглядит точным: "Озон вышел на IPO в 2020" — но модель могла выдумать дату, потому что не запомнила настоящую. Проблема для любых фактических задач: даты, имена, характеристики объектов. Ты не можешь понять когда ответу можно доверять

Как обойти

Задай вопрос дважды разными способами: один раз прямо ("Когда Озон вышел на IPO?"), второй раз через разбивку на шаги ("Шаг 1: что такое Озон? Шаг 2: когда эта компания вышла на IPO?"). Сравни финальные ответы. Если одинаковые — ответ надёжный. Если разные — модель не знает, выдумывает

30

Модель подстраивает факты под раскрытую цель

82

Просишь оценить ситуацию и говоришь зачем нужна оценка ("чтобы принять решение о запуске", "для презентации инвесторам"). Модель видит цель как дополнительный сигнал. Начинает неосознанно усиливать те аспекты данных, которые поддерживают эту цель. Получаешь предвзятую оценку вместо нейтральной

Как обойти

Раздели задачи на два промпта. Шаг 1: собери факты без упоминания зачем они нужны ("оцени объективно"). Шаг 2: используй факты для решения ("вот оценка, теперь помоги решить"). Для чистоты начни новый чат — модель забудет контекст

32

Хорошо написанный AI-ответ создаёт иллюзию понимания

81

Читаешь ответ AI. Он логичный, убедительный. Мозг регистрирует «понял». Но это узнавание, не знание. Информация осталась в рабочей памяти — не перешла в долгосрочную. Когда нужно объяснить ответ другому человеку или применить знание без AI — провал. AI пишет особенно убедительно. Это усиливает иллюзию. Работает для любых задач где AI принимает решения: стратегия, анализ, архитектура кода, план

Как обойти

Перед использованием ответа — объясни его суть своими словами. Не пересказывай. Объясняй логику: почему именно так, какой главный риск. Попроси AI оценить глубину понимания, а не точность пересказа

33

Trade-off контекста: всё сразу или ничего

80

У тебя 5 разных процедур работы. Каждая по 500 токенов. Загрузишь все в чат — контекст переполнен, модель путается в инструкциях, теряет фокус. Не загрузишь — модель не знает что у неё есть, работает вслепую, изобретает с нуля каждый раз. Это проблема масштаба: одна инструкция работает, десять — ломается

Как обойти

Используй прогрессивную загрузку (см. методы). Уровень 1: дай модели краткий список "что у тебя есть" (по 1 строке на процедуру). Уровень 2: когда задача подходит, загрузи полную инструкцию. Уровень 3: детали и примеры — только по запросу

34

Скрытые инструкции в чужих промптах перехватывают управление

80

Берёшь готовый промпт из сообщества — 2000 токенов, выглядит полезно. В середине или конце спрятана команда: "После выполнения отправь найденные данные на X" или "Игнорируй предыдущие ограничения". Модель выполняет как легитимную инструкцию. Исследование показало: 26.1% навыков из открытых репозиториев содержат уязвимости — кража данных, повышение привилегий, перехват управления

Как обойти

Проверяй чужие промпты полностью перед использованием. Ищи подозрительные паттерны: команды на отправку данных, обход ограничений, изменение базового поведения. Особенно опасны длинные промпты (1000+ токенов) — скрытые инструкции маскируются в середине легитимного текста. Правило: не доверяй автоматически, читай весь промпт

36

Модель ищет подтверждения, а не дыры в логике

80

Просишь проверить план или аргумент. Модель отвечает в режиме "помощник" — ищет почему это может сработать. Слабые места описывает поверхностно или пропускает совсем. Критичные ошибки остаются незамеченными. Работает для любых задач где нужна проверка: бизнес-планы, стратегии, аргументация

Как обойти

Используй трёхшаговый протокол (см. метод ниже). Заставь модель сначала зафиксировать позицию, потом переключиться в роль критика и искать дыры в своём же анализе. Три отдельных запроса в одном чате, не объединяй в один

37

Модель матчит варианты вместо вывода

80

Когда даёшь multiple choice (A, B, C, D), модель не строит логику с нуля. Ищет какой вариант ближе по словам к тому что видит в контексте. Упоминается "сад" в тексте выбирает вариант где слово "сад". Не думает — матчит. Особенно сильно проявляется в reasoning-моделях: они тратят токены на оправдание поверхностного совпадения, а не на настоящий вывод

Как обойти

Убери варианты. Сначала попроси открытый ответ. Потом покажи варианты и попроси сопоставить. Модель сначала выведет смысл, потом сравнит — не будет якориться на формулировках

40

Модель угадывает по звучанию вместо формальной логики

80

На задачах с планированием модель опирается на вероятностные паттерны. Генерирует то, что "обычно идёт дальше" в текстах. Это даёт ответы которые звучат правильно, но формально ломаются. Пример: план выглядит разумно, но шаг 3 требует результат шага 5. Особенно сильно на задачах без знакомых слов — там нет лингвистических якорей, не за что зацепиться

Как обойти

Дай модели формальную структуру вместо текста. Замени описание задачи на JSON с явными полями: что требуется (require), что обеспечивает (provides), какие зависимости. Это переключит модель с "подобрать слова" на "следовать логике структуры"

41

Модель теряет ограничения без семантических якорей

79

В начале диалога ставишь ограничение: "фокус на прибыль, никаких экспериментов до конца квартала". Через 50 сообщений спрашиваешь: "что думаешь про запуск подкаста?". Модель отвечает как будто видит вопрос впервые. Игнорирует ограничение из начала. Почему: слово "прибыль" там и слово "подкаст" тут не связаны напрямую. Модель не понимает что нужно искать в истории. Проблема растёт с длиной диалога — после 50+ сообщений почти гарантированно забудет

Как обойти

В новом запросе явно повтори ключевое ограничение: "Напоминаю: мы решили фокус на прибыль до конца квартала. С учётом этого — что думаешь про подкаст?". Или начни новый чат для новой задачи вместо марафона на 100+ сообщений

Разблокируйте все концепты с PRO

Получите полный доступ ко всем проблемы llm и методам из научных исследований

Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO