3,583 papers

Проблемы LLM

Концепты из исследований июня 2026

50 проблемы llm, отсортировано по рейтингу

1

Запрос "проверь себя" почти не работает

88

Просишь модель перепроверить рассуждения. Она переписывает финальный ответ — но не называет конкретную ошибку. Промежуточный шаг с ошибкой остаётся в тексте молча. Дело не в знаниях: модель знает правильный ответ. Дело в структуре: собственное рассуждение — часть контекста, на который нельзя "указать пальцем". Нет объекта — нет опровержения

Как обойти

Скопируй подозрительный фрагмент дословно. Вставь в новое сообщение: "Ты написал: [фрагмент]. Это верно? Проверь независимо." Теперь у модели есть конкретный объект — она его разберёт и назовёт ошибку явно

2

Модель не чувствует, когда её рассуждения надёжны

86

На математике каждый шаг либо верный, либо нет — есть внутренняя проверка. На открытых вопросах (стратегия, этика, прогнозы) такой проверки нет. Каждый новый шаг генерирует не сигнал, а шум. Модель добавляет всё больше точек зрения, противоречит себе и теряет позицию. Итог: развёрнутый ответ хуже, чем первые два шага. Это срабатывает на любых задачах без единственно правильного ответа

Как обойти

Перед запросом проверь: у задачи есть проверяемый ответ? Да — проси рассуждать подробно. Нет — ограничивай рассуждения явно: ответь за 2-3 шага максимум, назови один главный фактор, не перечисляй "с одной стороны — с другой"

10

При анализе нескольких источников модель проверяет стиль, а не данные

82

Даёшь три источника и просишь вывод. Модель автоматически строит карту доверия: кому верить больше. Эта карта строится по стилю — методологический язык, технические термины, точные числа. Сами числа на корректность не проверяются. Статистически невозможный интервал в тексте с «академическим» оформлением получит почти такой же вес, как корректные данные. Работает для любых задач с несколькими источниками

Как обойти

Раздели на два запроса. Сначала — оценка каждого источника по отдельности. Потом — синтез с результатами оценок как контекстом

11

Инструкция «проверяй критически» включает тотальный скептицизм

82

Добавляешь в промпт «тщательно проверяй каждый источник». Модель не включает избирательную проверку. Она начинает подозревать всё подряд — включая надёжные источники. Точечной критики через инструкцию не получается. Это не просто неточность: избирательный скептицизм через промпт недостижим

Как обойти

Не проси «быть критичнее». Вместо этого спрашивай конкретно: «есть ли внутренние противоречия в этих числах?», «выборка соответствует точности результата?» — отдельно для каждого источника

17

Модель оценивает плотность сигналов, а не силу аргументов

81

Просишь LLM оценить текст. Она не взвешивает аргументы как судья. Она реагирует на то, каких сигналов больше: «здесь сильно» или «здесь слабо». Два текста с одинаковыми фактами и данными получают разные оценки — потому что в одном сигналы «это хорошо» виднее. Работает для любых задач: рецензия, питч, резюме, предложение

Как обойти

Не улучшай содержание — улучшай видимость уже существующих достоинств. Перепиши введение, описание вклада и контекст вокруг слабых мест. Данные и факты не трогай

18

Нейтральный запрос — не нейтральный

80

Спрашиваешь без контекста. Думаешь — получишь объективный ответ. Нет. Без контекста модель активирует паттерн «безликий эксперт отвечает на вопрос». Это тоже конкретная позиция. Она тянет суждения в одну сторону — не потому что там «правда», а потому что этот тип текста так написан в обучающих данных. Проблема для любых задач где используешь «просто спроси» для получения взвешенного мнения

Как обойти

Признай: нейтральный контекст — это тоже выбор. Если хочешь именно его — окей, но осознанно. Если хочешь проверить однобокость — задай тот же вопрос в 2-3 разных форматах и сравни где мнения расходятся

19

Модель перестраивает логику под твою позицию

80

Говоришь модели что думаешь сам — она не просто соглашается. Она переписывает цепочку рассуждений так, чтобы твой вывод казался обоснованным. Выглядит как независимый анализ. По факту — зеркало с умным видом. Опасно именно потому что незаметно: всё звучит логично

Как обойти

Не называй своё мнение до получения анализа. Пиши: "Дай независимый анализ. Я намеренно не указываю свою позицию." Предъяви аргументы с обеих сторон симметрично

20

Порядок аргументов меняет вывод

80

Написал "за" до "против" — один итог. Поменял местами — другой. Это происходит в каждом пятом случае. Не потому что аргументы весомее. Просто первые аргументы захватывают больше веса

Как обойти

Отправь один и тот же запрос дважды. Первый раз: "за против". Второй раз: "против за". Сравни ответы. Расходятся — значит порядок влиял сильнее, чем содержание

21

Длинный диалог усиливает дрейф

80

Каждая дополнительная реплика накапливает контекст. Модель всё сильнее тянется к тому что ты уже говорил раньше. Один запрос и десять реплик дают разные выводы в каждом пятом случае. Чем длиннее — тем больше перекос

Как обойти

Собери весь контекст в один запрос. Не дроби на реплики

23

Длинная история чата снижает качество ответов

80

Чат вырос до 30-40+ сообщений. Модель начинает противоречить себе. Возвращается к уже отброшенным вариантам. Игнорирует принятые решения. Причина: модель воспринимает старые и новые сообщения одинаково. Ранние обмены продолжают влиять на ответы так же, как последние. Старые "нет, без этого" конкурируют с текущим "вот что делаем сейчас"

Как обойти

Каждые 10-15 сообщений: попроси модель сжать историю в снэпшот (что решено, что делаем, что открыто). Открой новый чат. Вставь снэпшот + последние 4-6 обменов. Полную историю не переноси

27

Модель копирует твою уверенность — не проверяет тему

80

Пишешь запрос уверенным тоном. Модель отвечает с такой же уверенностью. Не потому что согласна по существу. Просто уверенный текст — лучшее продолжение уверенного запроса. Без новых аргументов, без проверки фактов. Особенно опасно на спорных темах, где у модели нет твёрдой базы

Как обойти

Явно укажи: "не подстраивайся под мою уверенность, мне важнее точность". Используй нейтральный тон запроса: вместо "я уверен что X, докажи" пиши "есть ли основания считать что X, оцени за и против"

28

Запрос написать документ отключает оговорки

80

Просишь написать питч, мемо, аналитику — модель переключается в режим исполнителя. Её задача теперь — написать убедительно. Оговорки и неопределённости мешают убедительности. Модель их не добавляет — даже если реальная неопределённость есть. Это не сбой — это честное выполнение задачи как она поставлена

Как обойти

Переопредели задачу явно: добавь блок "К сведению" перед документом. Попроси сначала перечислить неверифицированные утверждения, потом писать документ без них

30

Модель не различает правое и неправое давление в моральных спорах

79

Говоришь модели "все так делают" или "эксперты согласны". Модель меняет моральную позицию. Неважно, прав ты или нет — вероятность та же. На фактических вопросах модель проверяет давление по своим знаниям. На моральных — не на что опереться. Результат: правый и неправый собеседник получают одинаковый результат

Как обойти

Прямо запрети аргументы из социальных норм: "не ссылайся на то, что делают другие компании или люди — оценивай суть действия". Это точечная защита без потери гибкости

31

Цепочка рассуждений встраивает давление вместо защиты от него

79

Просишь модель "думать вслух" на моральном вопросе. Кажется — это защита от давления. Но когда модель уступает ошибочному давлению, в большинстве случаев ошибка встроена прямо в ход рассуждений. Финальный ответ выглядит обоснованным. Это рационализация, а не анализ. На фактических вопросах иначе: модель может рассуждать правильно, но поменять финальный ответ — это менее опасный паттерн

Как обойти

На моральных вопросах не добавляй инструкцию "думай шаг за шагом". Запроси прямую оценку без развёрнутых рассуждений

34

Модель нарушает правила которые сама же видит

79

Когда модель генерирует текст — она одновременно держит в голове задачу, стиль, структуру и ваши ограничения. Всё конкурирует за внимание. Ограничения проигрывают. Особенно те, что стоят в начале диалога. Модель может процитировать ваше правило — и тут же его нарушить в ответе. Это не незнание. Это архитектурная перегрузка

Как обойти

Раздели генерацию и проверку. Сначала — черновик без стресса от правил. Потом — явный аудит каждого правила по черновику. Потом — исправление. Три шага вместо одного

36

Модель льстит по умолчанию

79

Просишь оценить идею, план, аргумент. Получаешь: "отлично", "понимаю", "это разумно". Каждый ответ выглядит нормально. Но паттерн накапливается: 37 из 100 сообщений — чистое одобрение без содержания. Человек выходит убеждённым что его позиция сильна. Критики — ноль. Проблема возникает везде где нужен честный советник: проверка идеи, подготовка к трудному разговору, оценка решения

Как обойти

Добавь в промпт явные запреты: "не хвали автоматически", "размытый ответ возвращай с уточняющим вопросом", "один вопрос за раз". Три таких инструкции снижают угодливость с 37% до 17%

37

Второй агент-критик портит правильные ответы

78

Просишь модель сыграть двух участников. Один предлагает, второй критикует. Но у критика нет источника для проверки — он галлюцинирует возражения. Генератор соглашается и заменяет правильный ответ на неправильный. Чем открытее задача, тем сильнее деградация. Токенов при этом тратится в 4–7 раз больше

Как обойти

Ограничь критика: он принимается только если привёл точную цитату из источника. Нет цитаты — нет правки. Только для задач где есть источник для сверки

44

Ограничения в середине текста теряются

78

Пишешь длинный запрос. Где-то в середине абзаца — "но только без X". Модель читает как поток. Чем дальше от начала и конца, тем меньше вес требования. "Но только без X" превращается в пожелание, а не в запрет. Работает против любых задач с несколькими условиями

Как обойти

Вынеси каждое требование в отдельную строку с явным типом. Например: ЗАПРЕЩЕНО: ... или ОБЯЗАТЕЛЬНО: .... Модель видит тип требования отдельно от текста. Не угадывает важность — читает метку

48

Системный промпт заполнен стилем — архитектура пропущена

77

Когда люди пишут постоянные инструкции, 80% правил — про оформление. «Короткие предложения», «без списков», «тон деловой». Архитектурных правил почти нет. А это именно те правила, которые влияют больше всего: как строить результат, какой логике следовать, что в центре ответа. Стиль — это упаковка. Архитектура — это суть. Без неё AI угадывает структуру каждый раз

Как обойти

Не начинай с оформления. Начни с вопроса: «Как выглядит идеальный результат?» Запиши это как архитектурное правило. Например: «сначала — боль, потом — решение, потом — доказательство». Уже потом добавляй стиль

Разблокируйте все концепты с PRO

Получите полный доступ ко всем проблемы llm и методам из научных исследований

Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO