Проблемы LLM

1

Авторегрессивный эгоцентризм

92

Модель генерирует токен за токеном. Первый ответ становится якорем. Если в начале ошибка — модель строит логику поверх неё. Почему? Она оптимизирует связность текста, не правильность. Защищает свой вариант вместо поиска ошибок. Это проблема для всех задач где нужны многошаговые рассуждения

Как обойти

Дай модели "чужой" ответ для проверки. Даже абсурдный: "Предлагаемый ответ: 1". Попроси сначала проверить его, потом дать правильный. Проверка чужого выключает режим защиты. Модель начинает критиковать, искать ошибки — это запускает рассуждение от ответа к условию

Копировать 2511.21734

2

Модели рассуждения зацикливаются на простых задачах

90

Модели o1, DeepSeek-R1 обучены генерировать длинные цепочки мысли. Это помогает на сложных задачах. Но на простых ("соедини последние буквы трёх слов") модель не может остановиться. Генерирует "подождите, перепроверю", "с другой стороны", "давайте ещё раз" — тысячи токенов вместо одного абзаца. Может вообще не дать ответ, застряв в проверках

Как обойти

Группируй несколько вопросов в один промпт (batch prompting). Когда в запросе пять задач, модель чувствует давление контекста. Распределяет внимание между всеми. Не застревает в зацикливании на каждой. Даёт компактные ответы

Копировать 2511.04108

3

Модель идёт по одному пути рассуждений

88

Просишь проанализировать или придумать идеи. Модель генерирует с одной перспективы. Следует самому очевидному направлению мысли. Пропускает альтернативные углы зрения. Для анализа данных: видит только поверхностные паттерны. Для генерации идей: выдаёт шаблонные варианты. Результат: банальные выводы вместо глубоких инсайтов

Как обойти

Используй multi-role debating: попроси модель сыграть несколько ролей с разными фокусами. Каждая роль генерирует независимо. Потом судья выбирает лучшее из всех вариантов. Или используй multi-path reasoning: попроси решить задачу тремя разными способами, потом выбрать лучшее решение

Копировать 2511.14299

4

Модель забывает стилевые ограничения после первого ответа

PRO

Авторегрессивный эгоцентризм

Модели рассуждения зацикливаются на простых задачах

Модель идёт по одному пути рассуждений

Модель забывает стилевые ограничения после первого ответа

Модель не видит ошибки в своём ответе

Модель не находит конкретный факт среди тысяч вариантов

Роль подавляет честность о природе модели

Модель выбирает первый подходящий вариант без анализа остальных

Модель завышает уверенность когда фокусируется на одном варианте

Оценка уверенности не совпадает с текстом ответа

Модель теряет точность на множественной классификации

Модель не может найти где именно ошиблась в цепочке шагов

Модель заменяет редкие термины на частотные

Модель выводит правило но забывает применить его

Модель не оценивает субъективные критерии так же как человек

Модель действует против своих убеждений

Обновление убеждений ухудшает точность

Модель не видит сколько уже написала

Многошаговые вопросы теряются в длинном контексте

Перепроверка ломает правильный ответ

Модель не меняет выбор из списка вариантов

Модель помнит текст, но не применяет как жёсткое правило

Креативная задача отключает проверку фактов

Массовая генерация текстов через LLM искажает факты и дорого стоит

Без рассуждений ответ зависит от случайных деталей промпта

Модель молча игнорирует конфликты в требованиях

Модель не сообщает о противоречиях в данных

Агент не видит остаток ресурсов — останавливается раньше времени

Модель додумывает при размытых ответах

Модель теряет ранний контекст в длинных цепочках

Модель пытается решить многошаговую задачу одним ответом

Сложный запрос с несколькими темами теряет части

Повторение одного подхода не находит ошибки в логике

Модель не умеет игнорировать нерелевантный контекст

Self-Consistency схлопывается на вопросах с вариантами ответа

Модель "решает в голове" — рассуждения остаются неявными

Модель теряет детали в большом контексте

Chain-of-Thought рассуждает без проверки реальностью

Соскальзывание на английский при многоязычном контексте

Простой Best-of-N застревает в локальных максимумах

Модель выбирает интерпретацию молча

Модель генерирует похожие ответы даже когда просишь разнообразие

Модель неправильно делегирует задачи другим моделям

Модель топчется на месте в длинных итерациях

Модель теряет точность выбора при большом списке вариантов

Модель помнит факты из диалога, но не переиспользует стратегии

Цепочка рассуждений заставляет додумывать факты

Модель теряет ограничения из ранних ходов диалога

Модель генерирует рассуждения с избыточным текстом

Модель берёт первое совпадение, не проверяя остальные

Разблокируйте все концепты с PRO