3,583 papers
arXiv:2605.07268 73 8 мая 2026 г. PRO

LogiHard: «ранний выход» — как LLM теряет половину правильных ответов при проверке сложных условий

КЛЮЧЕВАЯ СУТЬ
Парадокс: модель с лучшим результатом на стандартных тестах провалилась сильнее всех, когда задача усложнилась. GLM-4.7 набрала 83% точности на обычных вопросах — и показала худший разрыв среди двенадцати моделей на составных условиях. Метод последовательной проверки позволяет находить ВСЕ проблемы в договоре или списке требований — не только первые, которые модель заметит до того, как решит, что ответ готов. Явный запрет писать итог до прохода каждого пункта ломает ранний выход: паттерн «нашла что-то подходящее → сделала вывод → остановилась». Точность исчерпывающей проверки поднимается с 5–38% до рабочих значений — без дообучения, одним изменением структуры запроса.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с