3,583 papers
arXiv:2512.17387 78 19 дек. 2025 г. PRO

CIFE: как LLM игнорируют критичные требования при генерации кода

КЛЮЧЕВАЯ СУТЬ
LLM генерирует код регистрации пользователей, который проходит тесты — но хранит пароли открытым текстом, не проверяет формат email, уязвим к SQL-инъекциям. Бенчмарк CIFE показал: 90% моделей выполняют требования частично, только 39-66% соблюдают ВСЕ строго. Парадокс: маленькая reasoning-модель o3-mini (3.8B параметров) обходит гигантский GPT-4o (175B) в соблюдении ограничений — 84% против 66%. Способность рассуждать важнее размера. Метод заставляет модель явно проверять каждое требование через структурированный промпт с категориями: безопасность, валидация, обработка ошибок, производительность. Модель перестаёт просто "генерировать работающий код" и начинает выполнять чек-лист критичных проверок.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с