arXiv:2505.15712 92 1 мая 2025 г. PRO

TurnaboutLLM - Бенчмарк дедуктивного мышления из детективных игр

КЛЮЧЕВАЯ СУТЬ

Для решения сложных логических задач с большим количеством фактов нужно отказаться от CHAIN-OF-THOUGHT промптинга и заставить модель проводить методичный исчерпывающий перебор всех возможных комбинаций. LLM работает не как гениальный детектив, а как УСЕРДНЫЙ АРХИВАРИУС, который должен систематически сопоставить каждое утверждение с каждым фактом.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

92

ПРЕВОСХОДНО

TurnaboutLLM - Бенчмарк дедуктивного мышления из детективных...

Возможности

Решение сложных задач 95%

Проверка фактов 90%

Улучшение промптов 85%

Область

Наука и исследования 95%

Право и юриспруденция 80%

IT и разработка ПО 75%

Паттерн

Новое: Исчерпывающая перекрестная проверка 95%

КОМУ ПОЛЕЗНО

Юрист

Проверяет новый договор на соответствие законодательству. Механика: подает модели список пунктов договора («утверждения») и статей закона («факты»), используя промпт, который принуждает к систематической проверке каждого пункта против каждой статьи. Польза: снижение риска юридических ошибок и сокращение времени на рутинную вычитку.

QA-инженер

Валидирует новый функционал на соответствие техническому заданию (ТЗ). Механика: предоставляет модели список реализованных функций («факты») и требований из ТЗ («утверждения»), заставляя ее методично сопоставлять каждую функцию с каждым требованием. Польза: ускорение регрессионного тестирования и выявление логических несоответствий до релиза.

Комплаенс-офицер

Проводит аудит внутренних процедур на соответствие отраслевым стандартам (ISO, GDPR). Механика: загружает внутренние регламенты («утверждения») и пункты стандарта («факты»), используя промпт для исчерпывающей перекрестной проверки. Польза: автоматизация ручного аудита, обеспечение 100% охвата проверки и создание отчета о несоответствиях.

Маркетолог

Проверяет рекламные материалы на соответствие продуктовым характеристикам. Механика: подает модели рекламные обещания («утверждения») и технические спецификации продукта («факты»), заставляя ее находить преувеличения или неточности. Польза: снижение риска претензий о недостоверной рекламе и обеспечение согласованности маркетинга с продуктом.

Системный аналитик

Анализирует совместимость нового модуля с существующей IT-инфраструктурой. Механика: формулирует требования нового модуля («утверждения») и технические ограничения системы («факты»), используя промпт для исчерпывающего поиска конфликтов. Польза: выявление интеграционных проблем на этапе проектирования, сокращая затраты на доработку.

Научный редактор

Проверяет выводы в научной статье на соответствие представленным данным. Механика: предоставляет модели список выводов автора («утверждения») и таблицы с результатами экспериментов («факты»), заставляя ее методично проверять, подтверждается ли каждый вывод данными. Польза: повышение качества рецензирования и выявление неверных интерпретаций данных.

HR-специалист

Проводит скрининг резюме на строгое соответствие требованиям вакансии. Механика: подает модели требования вакансии («факты») и данные из резюме («утверждения»), используя промпт для поиска явных несоответствий. Польза: автоматизация первичного отбора и сокращение времени на скрининг.