arXiv:2512.07132 73 7 дек. 2025 г. PRO

DART: адаптивный вызов визуальных инструментов через разногласия между моделями

КЛЮЧЕВАЯ СУТЬ

Обнаружено: когда две VLM-модели спорят про одну картинку — это не шум, а точный диагностический сигнал о проблемной зоне восприятия. GPT-4o видит три человека, Claude — четырёх. Обычная дискуссия между ними буксует (обе модели одинаково плохо видят детали). DART позволяет использовать разногласия как карту: где модели не согласны — туда вызываем специализированный инструмент (object detection, OCR, распознавание атрибутов). Инструмент возвращает экспертный факт («на фото четыре человека, вот координаты»), модели пересматривают ответы с учётом этой информации — точность растёт без избыточных вызовов.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

DART: адаптивный вызов визуальных инструментов через разногласия между моделями

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации