Проблемы LLM

1

Модель не подстраивает детальность ответа под сложность задачи

PRO

Полный контент доступен в PRO

2

Модель не может "передумать" после начала ответа

PRO

Полный контент доступен в PRO

3

Модель застревает на безопасных шаблонах после обучения на предпочтениях

PRO

Полный контент доступен в PRO

4

Много примеров в промпте снижают качество после порога

92

Даёшь модели 5-25 примеров — результат отличный. Увеличиваешь до 100-600 примеров — качество падает на 5-10%. Модель начинает копировать поверхностные паттерны (длину фраз, частые слова, синтаксис), но теряет глубокую логику. Результат выглядит правдоподобно, но работает неправильно. Проблема универсальна: перевод кода, написание текстов, анализ данных — везде где нужна точность

Как обойти

Держи 5-25 примеров. Не больше. Выбирай разнообразные примеры, но в рамках одного паттерна (разные сценарии, но единый стиль). Добавь явную инструкцию: "сохрани стиль из примеров, но адаптируй под новый контекст" — это помогает модели не копировать слепо

Копировать 2510.16809

5

Агент пытается выполнить задачу даже при недостатке информации

92

Агент видит двусмысленную инструкцию ("переведи деньги Сергею Петрову"). Находит двух Сергеев Петровых в базе. Выбирает первого наугад вместо того чтобы спросить. Действует потому что обучен быть полезным и завершать задачи. В агентных сценариях с реальными последствиями (переводы, доступы, данные) такая "помощь" приводит к необратимым ошибкам

Как обойти

Добавь явные инструкции КОГДА агент должен остановиться. Не "можешь выйти если хочешь", а "ДОЛЖЕН остановиться если: не можешь исключить негативные последствия, нужна дополнительная информация для безопасных действий, недостаточно знаний для оценки рисков". Дай модели разрешение НЕ завершать задачу — остановка и запрос уточнений тоже считается успехом

Копировать 2510.16492

6

"Экзаменационные" формулировки раздувают ответы без роста точности

90

Пишешь "покажи шаги решения", "будь внимательным", "объясни подробно". Модель включает "режим экзамена". Ответ становится в 3-5 раз длиннее. Больше вводных слов, осторожности, форматирования. Но точность остаётся той же (±0.02). Это артефакт RLHF — модель научилась что "экзаменационные" промпты = длинные ответы. Но длина не равна качеству

Как обойти

Убери рубрики когда не нужны шаги. Вместо "реши внимательно, покажи работу" пиши просто задачу. Если нужен строгий формат (число, JSON) — добавь "только X, без объяснений". Модель выдаст ответ сразу, сэкономишь токены, не сломаешь парсер

Копировать 2510.08624

7

Рубрики конфликтуют со строгими контрактами

90

Задача требует строгий формат: "только число", "код в одном блоке". Но в промпте есть "покажи шаги" или "будь тщательным". Это противоречие. Модель выбирает показать работу — формат ломается. Парсер ждёт число, получает абзац рассуждений с числом внутри

Как обойти

Не смешивай. Строгий контракт = без рубрик развёрнутости. Напиши: "2847 × 3916 = ? (только число)". Если нужны и шаги и формат — раздели: сначала попроси рассуждения, потом отдельным запросом "теперь только ответ без текста"

Копировать 2510.08624

8

Слепое следование правилам даже когда это абсурдно

PRO

Полный контент доступен в PRO

9

Цепочка рассуждений усиливает буквализм

PRO

Полный контент доступен в PRO

10

Множественные требования ломают основную задачу

88

Даёшь модели задачу плюс 3-5 дополнительных требований (стиль, формат, ограничения). Модель перераспределяет внимание: часть уходит на новые требования, качество основной задачи падает. Работает хуже хотя требования не касались функциональности. Проявляется в любых задачах где есть основная цель плюс несколько условий

Как обойти

Вариант 1: Ограничь до 1-2 требований в одном запросе. Вариант 2: Раздели на этапы — сначала основная задача, потом отдельным запросом "улучши стиль" с конкретными требованиями. Вариант 3: Если нужно 3+ требования, ставь критичные в начало и конец списка — там модель внимательнее

Копировать 2510.07315

11

Инструкции в середине списка теряются

88

Даёшь список из 5+ пунктов. Модель лучше выполняет первый и последний. Пункты 2-3-4 (середина) выполняются на 5-10% хуже. Архитектура внимания фокусируется на границах контекста даже в коротких промптах. Универсально для любых списков инструкций

Как обойти

Самые важные требования ставь в начало или конец списка. Второстепенные — в середину. Если добавляешь требования постепенно (несколько запросов), критичные давай последними — свежая информация весит больше

Копировать 2510.07315

12

Модель теряется в структуре JSON

88

Даёшь модели JSON от API. Просишь найти нужные данные. Модель путает похожие ключи (name, room_name, full_name). Берёт значения из не тех объектов. Сбивается на вложенности (массив внутри объекта внутри массива). Чем больше JSON — тем хуже: при 50K+ символов точность падает в разы. Проблема для любых задач где нужно обработать ответ API или инструмента

Как обойти

Не проси модель читать JSON напрямую. Вместо "прочитай и ответь" проси "напиши Python-функцию которая распарсит и вернёт ответ". Добавь схему JSON в промпт — модель увидит структуру как карту. Для больших ответов (50K+) дай сокращённую версию: один пример каждого типа объекта

Копировать 2510.15955

13

Выбор лучшего из N теряет полезные части остальных

PRO

Полный контент доступен в PRO

14

Одиночный ответ скрывает неуверенность модели

88

Модель генерирует текст вероятностно. На сложный вопрос есть много вариантов продолжения с разными вероятностями. Но ты видишь только один ответ — самый вероятный по случайной выборке. Модель может быть неуверена внутри, но снаружи выглядит уверенно. Ты не видишь что было 40% за A, 35% за B, 25% за C

Как обойти

Как обойти

Используй несколько моделей с разными ролями: одна играет оптимиста, другая — скептика. Каждая исследует свою область. Потом объедини выводы

Копировать 2510.04488

49

Модель застревает на неработающем подходе

80

Даёшь задачу. Модель пробует способ. Не получается. Она пробует ТОТ ЖЕ способ снова. И снова. Не понимает ПОЧЕМУ не работает. Не ищет альтернативный путь. Либо застревает, либо выдумывает данные. Проблема для всех сложных задач где нужен поиск решения

Как обойти

Попроси отчитаться о провале. Не просто "не получилось", а: "где искал → что нашёл близкое → какие альтернативы проверил → почему не сработало". Используй этот отчёт чтобы дать новое направление. Модель не застрянет если поймёт ЧТО именно не работает

Копировать 2510.07423

50

Цепочка рассуждений на всех запросах — перерасход ресурсов

PRO

Полный контент доступен в PRO

Модель не подстраивает детальность ответа под сложность задачи

Модель не может "передумать" после начала ответа

Модель застревает на безопасных шаблонах после обучения на предпочтениях

Много примеров в промпте снижают качество после порога

Агент пытается выполнить задачу даже при недостатке информации

"Экзаменационные" формулировки раздувают ответы без роста точности

Рубрики конфликтуют со строгими контрактами

Слепое следование правилам даже когда это абсурдно

Цепочка рассуждений усиливает буквализм

Множественные требования ломают основную задачу

Инструкции в середине списка теряются

Модель теряется в структуре JSON

Выбор лучшего из N теряет полезные части остальных

Одиночный ответ скрывает неуверенность модели

Абстрактные типы данных не дают модели контекст

Модель схлопывает поиск при совмещении генерации и оценки

Модель путается в индексах массивов при многошаговых правках

Модель не разбивает сложный поиск на этапы

Модель теряет структуру в многошаговых задачах

Структурированный формат размазывает внимание модели

Финальный ответ спрятан в хаосе рассуждений

Модель теряется при выборе из многих вариантов

Модель генерирует похожие идеи при повторных запросах

Модель не различает градации сложности без явных критериев

Модель додумывает границы правил сама

Починил одно — сломал другое

Модель не может одновременно держать полноту и точность отбора

Self-reflection заставляет модель оправдывать свои ошибки

Модель тратит одинаково много токенов на простые и сложные задачи

Одна инструкция не может быть строгой и полной одновременно

Модель цепляется за слова, не видит структурное сходство

Смешивание фактов в неструктурированном тексте

Модель пропускает обязательные шаги под давлением намерения

Модель теряет фокус в многоходовых диалогах

Модель видит несуществующие проблемы при массовой проверке

Модель пропускает проблемы в многошаговых проверках

Разные ответы на одинаковые вопросы на разных языках

Фильтрация во время сбора увеличивает ошибки

Длинный контекст убивает рассуждения даже при идеальном извлечении

Модель теряет нить в многошаговых рассуждениях

Модель воспринимает косвенные запросы буквально

Строгие запреты ломают сильные модели

Модель ломается на конфликтующих требованиях

Модель видит слова, не видит подтекст

Чрезмерная фрагментация — дробит на мелкие куски

Нечёткие границы при группировке

Короткий запрос плохо находит релевантные документы

Одиночная модель не может одновременно исследовать и защищать

Модель застревает на неработающем подходе

Цепочка рассуждений на всех запросах — перерасход ресурсов

Разблокируйте все концепты с PRO