Проблемы LLM

1

Модель не показывает степень уверенности

89

Спрашиваешь "насколько уверен". Получаешь слова: "вероятно", "скорее всего", "точно". Эти слова нельзя сравнить. Два ответа "вероятно" — где уверенность выше? Непонятно. Даже "оцени от 1 до 10" не помогает — модель ставит всем 7-8 баллов без реального различия

Как обойти

Дай модели виртуальный бюджет (100 очков, 1000 баллов). Попроси распределить на все ответы. Правило: угадал — очки сохраняются, ошибся — теряешь. Размер "ставки" покажет реальную уверенность. Нельзя дать всем максимум — заставит выбирать

Копировать 2512.05998

2

Модель теряет ограничения задачи в длинных цепочках

PRO

Модель не показывает степень уверенности

Модель теряет ограничения задачи в длинных цепочках

Модель не видит пропуски

Критика после завершения всего решения бесполезна

Модель застревает на первых найденных решениях

Зацикливание на ошибке при самокритике

Модель считает объекты на картинке приблизительно

Модель игнорирует ограничения при промптах средней длины

Модель забывает начальные инструкции в длинных диалогах

Модель скрывает осознанные срезания углов

Варианты ДО вопроса обрабатываются вслепую

"Думай пошагово" может навредить

Модель останавливается раньше запрошенного объёма

Модель генерирует работающий, но медленный код

Модель плохо проверяет свои ошибки

Модель не может откатываться при рассуждениях

Смешивание уровней абстракции в одном запросе

Модель не проверяет достаточность данных

Модель плохо анализирует последовательности чисел

Модель не замечает отсутствие ожидаемых событий

Сырые выводы инструментов забивают контекст

Множественная генерация не меняет качество распределения

Длинные рассуждения = много мусора

Модель врёт двумя разными способами — и одной проверкой не поймать

Модель соглашается с тем что ей показали

Модель не различает типы конфликтов между источниками

Self-refine ломается из-за anchor на первом решении

Один запрос может попасть в неудачный вариант ответа

Обычный CoT пропускает категории в конце списка

Модель выбирает по позиции а не по смыслу

Модель выбирает средний вариант на шкалах 1-3-5

Модель не умеет оценивать качество абстрактных подходов

Деградация точности при длинном контексте

Сильная семантика побеждает явную инструкцию

Модель упускает критически важные пункты

Накопление эмоционального состояния в длинном диалоге

Систематическое предпочтение негативной информации при автономном выборе

Модель придумывает структуру данных

Агент скрывает свои провалы и выдумывает результаты

Абсолютная оценка качества ненадёжна

Модель не различает причины отказа

Проседание при 5+ требованиях одновременно

Модель игнорирует запрет на полные ответы

Подхалимаж при поиске (retrieval sycophancy)

Модель не понимает градации стиля

Много задач в одном промпте — модель теряет детали

Модель меняет роль когда её просят в тексте

Модель аппроксимирует визуальные детали вместо точного копирования

Модель теряется в разномасштабных числах

Избыток информации заставляет игнорировать правила

Разблокируйте все концепты с PRO