Проблемы LLM
Концепты из исследований октября 2025
50 проблемы llm, отсортировано по рейтингу
Много примеров в промпте снижают качество после порога
Даёшь модели 5-25 примеров — результат отличный. Увеличиваешь до 100-600 примеров — качество падает на 5-10%. Модель начинает копировать поверхностные паттерны (длину фраз, частые слова, синтаксис), но теряет глубокую логику. Результат выглядит правдоподобно, но работает неправильно. Проблема универсальна: перевод кода, написание текстов, анализ данных — везде где нужна точность
Держи 5-25 примеров. Не больше. Выбирай разнообразные примеры, но в рамках одного паттерна (разные сценарии, но единый стиль). Добавь явную инструкцию: "сохрани стиль из примеров, но адаптируй под новый контекст" — это помогает модели не копировать слепо
Агент пытается выполнить задачу даже при недостатке информации
Агент видит двусмысленную инструкцию ("переведи деньги Сергею Петрову"). Находит двух Сергеев Петровых в базе. Выбирает первого наугад вместо того чтобы спросить. Действует потому что обучен быть полезным и завершать задачи. В агентных сценариях с реальными последствиями (переводы, доступы, данные) такая "помощь" приводит к необратимым ошибкам
Добавь явные инструкции КОГДА агент должен остановиться. Не "можешь выйти если хочешь", а "ДОЛЖЕН остановиться если: не можешь исключить негативные последствия, нужна дополнительная информация для безопасных действий, недостаточно знаний для оценки рисков". Дай модели разрешение НЕ завершать задачу — остановка и запрос уточнений тоже считается успехом
"Экзаменационные" формулировки раздувают ответы без роста точности
Пишешь "покажи шаги решения", "будь внимательным", "объясни подробно". Модель включает "режим экзамена". Ответ становится в 3-5 раз длиннее. Больше вводных слов, осторожности, форматирования. Но точность остаётся той же (±0.02). Это артефакт RLHF — модель научилась что "экзаменационные" промпты = длинные ответы. Но длина не равна качеству
Убери рубрики когда не нужны шаги. Вместо "реши внимательно, покажи работу" пиши просто задачу. Если нужен строгий формат (число, JSON) — добавь "только X, без объяснений". Модель выдаст ответ сразу, сэкономишь токены, не сломаешь парсер
Рубрики конфликтуют со строгими контрактами
Задача требует строгий формат: "только число", "код в одном блоке". Но в промпте есть "покажи шаги" или "будь тщательным". Это противоречие. Модель выбирает показать работу — формат ломается. Парсер ждёт число, получает абзац рассуждений с числом внутри
Не смешивай. Строгий контракт = без рубрик развёрнутости. Напиши: "2847 × 3916 = ? (только число)". Если нужны и шаги и формат — раздели: сначала попроси рассуждения, потом отдельным запросом "теперь только ответ без текста"
Множественные требования ломают основную задачу
Даёшь модели задачу плюс 3-5 дополнительных требований (стиль, формат, ограничения). Модель перераспределяет внимание: часть уходит на новые требования, качество основной задачи падает. Работает хуже хотя требования не касались функциональности. Проявляется в любых задачах где есть основная цель плюс несколько условий
Вариант 1: Ограничь до 1-2 требований в одном запросе. Вариант 2: Раздели на этапы — сначала основная задача, потом отдельным запросом "улучши стиль" с конкретными требованиями. Вариант 3: Если нужно 3+ требования, ставь критичные в начало и конец списка — там модель внимательнее
Инструкции в середине списка теряются
Даёшь список из 5+ пунктов. Модель лучше выполняет первый и последний. Пункты 2-3-4 (середина) выполняются на 5-10% хуже. Архитектура внимания фокусируется на границах контекста даже в коротких промптах. Универсально для любых списков инструкций
Самые важные требования ставь в начало или конец списка. Второстепенные — в середину. Если добавляешь требования постепенно (несколько запросов), критичные давай последними — свежая информация весит больше
Модель теряется в структуре JSON
Даёшь модели JSON от API. Просишь найти нужные данные. Модель путает похожие ключи (name, room_name, full_name). Берёт значения из не тех объектов. Сбивается на вложенности (массив внутри объекта внутри массива). Чем больше JSON — тем хуже: при 50K+ символов точность падает в разы. Проблема для любых задач где нужно обработать ответ API или инструмента
Не проси модель читать JSON напрямую. Вместо "прочитай и ответь" проси "напиши Python-функцию которая распарсит и вернёт ответ". Добавь схему JSON в промпт — модель увидит структуру как карту. Для больших ответов (50K+) дай сокращённую версию: один пример каждого типа объекта
Одиночный ответ скрывает неуверенность модели
Модель генерирует текст вероятностно. На сложный вопрос есть много вариантов продолжения с разными вероятностями. Но ты видишь только один ответ — самый вероятный по случайной выборке. Модель может быть неуверена внутри, но снаружи выглядит уверенно. Ты не видишь что было 40% за A, 35% за B, 25% за C
Спроси модель несколько раз независимо. Если ответы разные — модель неуверена. Если 80%+ попыток дают один ответ — это надёжный консенсус. Техника: Voting Ensembles (см. Методы)
Модель генерирует похожие идеи при повторных запросах
Просишь "предложи 10 вариантов названия для продукта". Получаешь 10 вариантов. Просишь ещё 10 у другой сессии — получаешь очень похожие. Все идеи в одном стилистическом коридоре. Причина: модель усредняет по обучающим данным, выдаёт статистически типичное. Проблема для креативных задач где нужны разные направления, а не вариации одного
Не проси модель генерировать за тебя. Проси задавать вопросы и предлагать аналогии из других областей. Ты сам генеришь идеи отвечая на вопросы — твой контекст + направляющие вопросы модели = больше разнообразия
Модель теряет нить в многошаговых рассуждениях
Нужно связать факт А → вывод Б → факт В → ответ. Модель видит все факты. Но не знает КАК их связать. Пропускает промежуточные шаги. Особенно в длинном контексте: 800 документов — модель видит данные, но не понимает последовательность действий
Дай модели явную структуру рассуждений. Не "вот документы, думай сам". А "вот паттерны: сначала найди автора (шаблон 1), потом место (шаблон 2), потом событие (шаблон 3)". Модель выберет нужные и применит по порядку
Одиночная модель не может одновременно исследовать и защищать
Модель генерирует первую правдоподобную гипотезу. Потом защищает её вместо проверки альтернатив. Это противоречивые режимы: "искать слабости" против "аргументировать позицию". Одна модель застревает в первом впечатлении — будет рационализировать его через следующие токены. Проблема для любых задач где нужна критическая оценка вариантов
Используй несколько моделей с разными ролями: одна играет оптимиста, другая — скептика. Каждая исследует свою область. Потом объедини выводы
Модель застревает на неработающем подходе
Даёшь задачу. Модель пробует способ. Не получается. Она пробует ТОТ ЖЕ способ снова. И снова. Не понимает ПОЧЕМУ не работает. Не ищет альтернативный путь. Либо застревает, либо выдумывает данные. Проблема для всех сложных задач где нужен поиск решения
Попроси отчитаться о провале. Не просто "не получилось", а: "где искал → что нашёл близкое → какие альтернативы проверил → почему не сработало". Используй этот отчёт чтобы дать новое направление. Модель не застрянет если поймёт ЧТО именно не работает
Разблокируйте все концепты с PRO
Получите полный доступ ко всем проблемы llm и методам из научных исследований
