3,583 papers
arXiv:2606.22565 78 21 июня 2026 г. PRO

Look Light, Think Heavy: пошаговое мышление с изображениями помогает не всегда

КЛЮЧЕВАЯ СУТЬ
Парадокс: "думай пошагово" — стандартный совет для улучшения ответов LLM — с изображениями работает ровно наполовину. Для задач восприятия (посчитай, найди, определи) пошаговые рассуждения дают результат хуже прямого ответа: модель строит логические цепочки там, где нужно просто смотреть, и буквально убеждает себя в неправильном числе собственным текстом. Метод позволяет точно выбирать стратегию под тип задачи — не угадывать, а знать когда добавлять цепочку рассуждений, а когда она топит результат. Задачи с изображением делятся на два типа: восприятие (найди, посчитай, назови) и рассуждение (объясни, сравни, проанализируй) — для первых прямой вопрос точнее, для вторых нужен CoT (пошаговые рассуждения) плюс фраза-якорь «возвращайся к картинке», потому что модель обрабатывает изображение один раз и в длинном рассуждении постепенно уходит в чисто текстовое мышление, забывая смотреть.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с