arXiv:2512.11109 83 11 дек. 2025 г. FREE

Test-Time Scaling для Vision-Language моделей: когда усилия окупаются, а когда вредят

КЛЮЧЕВАЯ СУТЬ

Вместо прямого ответа модель либо (1) рассуждает пошагово — Chain-of-Thought вербализует промежуточную логику, снижая пропуски деталей, либо (2) генерирует 3-5 вариантов с выбором лучшего — Best-of-N и Self-Consistency фильтруют стохастический шум через голосование или оценку, либо (3) улучшает свой ответ через критику — Self-Refinement использует 2-3 раунда "черновик → замечания → исправления", либо (4) строит дерево решений — Beam Search сохраняет несколько гипотез на каждом шаге и выбирает лучший полный путь. Ключевая развилка: сильные модели умеют критиковать свои выводы и корректировать логику, слабые при попытке самокритики добавляют новые ошибки вместо исправления старых.

Адаптировать под запрос

⚡

TL;DR

Test-Time Scaling (TTS) — набор техник, которые улучшают ответы мультимодальных моделей (работающих с картинками + текстом) за счёт дополнительных вычислений при каждом запросе. Вместо одного прямого ответа модель либо рассуждает пошагово, либо генерирует несколько вариантов и выбирает лучший, либо улучшает свой ответ через самокритику. Эти техники давно работают для текстовых LLM — исследование проверило, работают ли они для моделей, которые анализируют изображения.

Главная находка: модели ведут себя по-разному в зависимости от силы и типа. Топовые закрытые модели (GPT-4o, Gemini) выигрывают от итеративного улучшения ответов (Self-Refinement) — они умеют критиковать себя и исправлять ошибки. Открытые модели (Qwen2.5-VL, InternVL) от самокритики становятся хуже — зацикливаются, теряют точность. Зато они выигрывают от генерации нескольких ответов с выбором лучшего (Best-of-N). Критично: внутренняя уверенность модели в своём ответе — плохой показатель правильности. Модель может быть очень уверена в неправильном ответе. Внешняя проверка другой моделью работает надёжнее.

Исследование показало пять рабочих техник для визуальных задач: явное пошаговое рассуждение (CoT), генерация нескольких вариантов с выбором по оценке (Best-of-N), выбор по большинству голосов (Self-Consistency), итеративное улучшение через самокритику (Self-Refinement), поиск по дереву решений (Beam Search). Каждая работает в своей зоне: сложные многошаговые задачи (математика с графиками, анализ диаграмм) выигрывают сильно — до +20% точности. Простые перцептивные задачи ("что на картинке?") почти не улучшаются — эффект 1-3%.

🔬

Схема методов

Исследование сравнило пять подходов. Все работают в обычном чате:

📌

1. Chain-of-Thought (CoT)

Запрос с инструкцией "рассуждай пошагово" → модель описывает логику → финальный ответ

Один запрос, один ответ — просто структурированный.

📌

2. Best-of-N

Генерируешь N ответов (каждый с CoT) → оцениваешь каждый → выбираешь лучший

Оценка: либо внутренняя уверенность модели (если открытая), либо внешняя модель-верификатор.

📌

3. Self-Consistency

Генерируешь N ответов → считаешь какой ответ встречается чаще → выбираешь его

Голосование большинством, без оценки качества.

📌

4. Self-Refinement

ШАГ 1: Генерируешь первый ответ
ШАГ 2: Просишь модель покритиковать свой ответ
ШАГ 3: Просишь улучшить на основе критики
Повторяешь шаги 2-3 до улучшения или лимита итераций

Несколько последовательных запросов в одном треде.

📌

5. Beam Search

На каждом шаге рассуждения генерируешь несколько вариантов → 
оцениваешь каждый → оставляешь топ-K → продолжаешь только их →
в конце выбираешь лучший финальный путь

Дерево решений с отсечением слабых веток.

🚀

Пример применения

Задача: Ты запускаешь онлайн-курс по инвестициям и делаешь инфографику про портфели разных стратегий (консервативный, умеренный, агрессивный) — столбчатые диаграммы с процентами. Дизайнер прислал макет, но ты не уверен, что цифры читаются правильно и визуально понятно, какая стратегия для кого. Нужен детальный анализ: совпадают ли проценты на диаграмме с подписями, логичны ли цвета, есть ли визуальные ошибки.

📌

Вариант 1: Простой CoT (базовый подход)

Промпт:

[Прикрепляешь изображение инфографики]

Проанализируй эту инфографику про инвестиционные портфели пошагово:

1. Какие три стратегии показаны и какие активы в каждой
2. Проверь, совпадают ли проценты на столбцах с подписями внизу
3. Оцени, понятно ли визуально, какая стратегия консервативная, а какая агрессивная
4. Найди любые визуальные несоответствия или ошибки

Дай детальный разбор каждого пункта, потом финальный вывод.

Результат: Модель выдаст один ответ с пошаговым разбором: перечислит стратегии, проверит цифры, оценит визуал. Если есть ошибка в расчётах или несоответствие — укажет. Работает быстро, но может пропустить детали или ошибиться в сложных вычислениях.

📌

Вариант 2: Self-Consistency (выбор из нескольких попыток)

Промпт: (тот же, но генерируешь 3-5 ответов через регенерацию)

[Тот же промпт про инфографику]

Сгенерируй несколько вариантов анализа.

После генерации смотришь, какие выводы повторяются в большинстве ответов — это надёжнее. Например, если 4 из 5 ответов нашли ошибку в проценте консервативного портфеля — скорее всего, ошибка есть.

Результат: Несколько независимых анализов. Ты вручную смотришь, какие проблемы нашли большинство ответов — это реальные баги. Уникальные находки в одном ответе могут быть галлюцинациями.

📌

Вариант 3: Self-Refinement (итеративное улучшение)

Промпт (ШАГ 1 — первый анализ):

[Прикрепляешь инфографику]

Проанализируй эту инфографику про инвестпортфели пошагово: стратегии, проценты, визуал, ошибки.

Модель даёт первый ответ.

ШАГ 2 — критика:

Перечитай свой анализ выше. Что ты мог упустить? Какие детали стоит проверить внимательнее? 
Есть ли противоречия в твоих выводах?

Модель критикует себя, находит пробелы.

ШАГ 3 — улучшение:

На основе своей критики дай улучшенный анализ инфографики. Исправь ошибки, добавь упущенные детали.

Повторяешь шаги 2-3 ещё 1-2 раза, если нужно.

Результат: - На GPT-4o/Gemini: С каждой итерацией анализ становится точнее — модель замечает больше деталей, исправляет логические ошибки, добавляет пропущенные проверки. Финальный ответ после 2-3 раундов заметно лучше первого. - На открытых моделях (Qwen2.5-VL): Может деградировать — модель начинает выдумывать несуществующие ошибки, зацикливается на деталях, теряет фокус. Лучше не использовать.

📌

Вариант 4: Best-of-N с внешней верификацией (максимальная надёжность)

ШАГ 1: Генерируешь 3-5 разных анализа инфографики (тот же промпт, несколько раз).

ШАГ 2: Берёшь каждый анализ и просишь другую модель (или ту же, но в новом чате) оценить:

Вот анализ инфографики про инвестпортфели:

[вставляешь один из сгенерированных анализов]

Оцени качество этого анализа по шкале от 0 до 10:
- Полнота (проверены ли все элементы)
- Точность (нет ли фактических ошибок)
- Логичность (связаны ли выводы)

Дай числовую оценку и краткое объяснение.

ШАГ 3: Выбираешь анализ с наивысшей оценкой.

Результат: Модель-верификатор даёт оценку каждому варианту (например, 7.5, 6.0, 8.5, 7.0, 6.5). Ты берёшь анализ с оценкой 8.5 — он статистически лучший. Работает надёжнее голосования, потому что оценивается качество, а не просто частота ответа.

🧠

Почему это работает

Слабость мультимодальных моделей: Когда визуальная и текстовая информация смешиваются, модель может делать ошибки распознавания (неправильно считывает цифры с графика), логические сбои (видит элементы, но неверно их интерпретирует) или пропуски деталей (замечает крупные объекты, не видит мелкие несоответствия). При прямом ответе "в лоб" вероятность таких ошибок выше — модель не проверяет себя.

Сильная сторона моделей: Они умеют структурировать рассуждения (разбивать задачу на шаги), генерировать разные варианты решения (каждая попытка может зацепить другие детали изображения), оценивать чужие тексты (даже если свои генерируют с ошибками). Топовые модели (GPT-4o, Gemini) также умеют критиковать свои выводы и корректировать — видят логические противоречия в собственном тексте.

Как методы используют сильные стороны:

CoT заставляет модель вербализовать промежуточные шаги — когда она пишет "смотрю на столбец, вижу 40%, подпись говорит 45% — несоответствие", это снижает пропуск ошибок. Модель реже галлюцинирует, если объясняет логику.
Best-of-N и Self-Consistency используют стохастическую природу генерации — каждый сэмпл может зацепить разные детали изображения или разные логические пути. Правильный ответ встречается чаще (если задача не на грани сложности модели), неправильные распределяются. Агрегация через голосование или оценку фильтрует шум.
Self-Refinement эксплуатирует асимметрию генерации и критики — модель часто лучше находит ошибки в готовом тексте, чем избегает их при первой генерации. Итерации работают как редактура: черновик → замечания → исправления. НО: это требует сильной способности к метакогниции. Слабые модели вместо улучшения добавляют новые ошибки — "критика" галлюцинативна.
Beam Search сохраняет несколько гипотез одновременно на каждом шаге рассуждения — если модель в начале сделала неверное предположение, альтернативная ветка может быть правильной. В конце выбирается лучший полный путь. Это дорого (много токенов), но эффективно для многошаговых задач.

Ключевой инсайт исследования: Внутренняя уверенность модели (confidence scores) не коррелирует с правильностью — модель может быть на 95% уверена в галлюцинации. Поэтому Best-of-N с внутренними скорами работает хуже, чем с внешней верификацией или голосованием. Рычаг управления: для открытых моделей (Qwen, InternVL) используй Self-Consistency или Best-of-N с внешним верификатором, не полагайся на confidence. Для топовых закрытых (GPT-4o, Gemini 2.0) — Self-Refinement с 2-3 итерациями даёт максимум.

📋

Шаблоны промптов

📌

1. Chain-of-Thought для изображений

[Прикрепляешь изображение]

Проанализируй это изображение и ответь на вопрос: {твой_вопрос}

Рассуждай пошагово:
1. Что ты видишь на изображении (ключевые элементы)
2. Какие детали важны для ответа на вопрос
3. Как эти детали связаны между собой
4. Какой вывод следует из анализа

Финальный ответ дай в конце.

Когда использовать: Любая задача, где важен логический разбор изображения — проверка графиков, анализ схем, поиск ошибок в дизайне.

📌

2. Self-Consistency (голосование)

[Прикрепляешь изображение]

{твой_вопрос_про_изображение}

Сгенерируй 5 независимых ответов на этот вопрос, анализируя изображение каждый раз заново. 
Нумеруй ответы (Вариант 1, Вариант 2, ...).

После генерации вручную смотришь, какой ответ повторяется чаще — это финальный.

Альтернатива (автоматическая агрегация): После получения 5 вариантов в новом сообщении пишешь:

Посмотри на 5 вариантов ответов выше. Какой вывод встречается в большинстве из них? 
Дай консенсусный финальный ответ.

Когда использовать: Задачи средней сложности, где модель может ошибиться, но правильный ответ вероятнее неправильного. Не подходит для творческих задач (там не нужно консенсуса).

📌

3. Self-Refinement (итеративное улучшение)

ШАГ 1 (первый ответ):

[Прикрепляешь изображение]

{задача_по_анализу_изображения}

Дай детальный анализ.

ШАГ 2 (критика):

Перечитай свой анализ выше. Ответь на вопросы:
- Какие детали изображения ты мог пропустить?
- Есть ли логические противоречия в твоих выводах?
- Проверил ли ты все важные элементы?
- Уверен ли ты в точности своих наблюдений?

Дай конструктивную критику своего ответа.

ШАГ 3 (улучшение):

На основе своей критики дай улучшенный анализ изображения. 
Исправь ошибки, добавь пропущенные детали, устрани противоречия.

Повторяешь шаги 2-3 ещё 1-2 раза при необходимости.

⚠️ Только для топовых моделей: GPT-4o, GPT-4, Gemini 2.0, Claude 3.5 Sonnet. На более слабых моделях деградирует качество.

Когда использовать: Сложные аналитические задачи — проверка финансовых графиков, анализ медицинских снимков (с оговоркой), детальный разбор дизайна.

📌

4. Best-of-N с внешней верификацией

ШАГ 1: Генерируешь N вариантов (3-5) с одним и тем же промптом:

[Прикрепляешь изображение]

{задача_про_изображение}

Рассуждай пошагово и дай финальный ответ.

Сохраняешь каждый ответ отдельно (копируешь в текстовый файл или заметки).

ШАГ 2: В новом чате (или с другой моделью) оцениваешь каждый:

Задача была: {повторяешь задачу}

Вот один из вариантов ответа:
[вставляешь вариант ответа]

Оцени качество этого ответа по 10-балльной шкале:
- Полнота (проверены ли все важные элементы изображения)
- Точность (нет ли фактических ошибок или галлюцинаций)
- Логичность (связаны ли выводы, нет ли противоречий)

Дай итоговую оценку (число от 0 до 10) и краткое объяснение.

Повторяешь для каждого из N вариантов.

ШАГ 3: Выбираешь ответ с наивысшей оценкой.

Когда использовать: Критически важные задачи, где цена ошибки высока — проверка юридических документов на изображениях, финансовая аналитика, технический аудит.

📌

5. Beam Search (упрощённая версия для чата)

Классический Beam Search требует доступа к внутренним вероятностям модели. Вот адаптация для ручного использования:

ШАГ 1: Попроси модель сгенерировать несколько первых шагов анализа:

[Прикрепляешь изображение]

Задача: {твоя_задача}

Предложи 3 разных способа начать анализ этого изображения. 
Для каждого способа опиши только первый шаг (не решай до конца).

Формат:
Подход 1: [первый шаг]
Подход 2: [первый шаг]
Подход 3: [первый шаг]

ШАГ 2: Выбираешь 1-2 лучших подхода (вручную или просишь модель оценить):

Какой из трёх подходов выше наиболее логичен для решения этой задачи? Объясни почему.

ШАГ 3: Развиваешь выбранный подход до конца:

Продолжи анализ используя Подход {номер}. Дай полное решение задачи.

Когда использовать: Задачи с несколькими возможными путями анализа (например, сложная схема, которую можно анализировать с разных углов). Дорого по токенам и времени — только для критичных кейсов.

📌

Быстрый старт для сложных техник

🚀 Упрощённое применение Self-Refinement:

Вместо ручного выполнения трёх шагов, используй этот мета-промпт:

Вот техника Self-Refinement для анализа изображений:

1. Сгенерируй первый анализ
2. Покритикуй свой анализ (что пропустил, где ошибки)
3. Дай улучшенный анализ на основе критики
4. Повтори шаги 2-3 ещё один раз

Моя задача: {опиши свою задачу}

[Прикрепляешь изображение]

Выполни все 4 шага последовательно, покажи каждый этап.

Модель сама проведёт итерации, ты просто получишь финальный результат. Работает на GPT-4o, Gemini 2.0, Claude 3.5 Sonnet.

🚀 Упрощённое применение Best-of-N:

Если не хочешь вручную оценивать варианты, используй этот промпт:

Сгенерируй 5 разных вариантов ответа на мой вопрос про изображение.

[Прикрепляешь изображение]

Вопрос: {твой_вопрос}

После генерации 5 вариантов, сам оцени каждый по шкале 0-10 
(полнота, точность, логичность) и выбери лучший. 
Покажи оценки и финальный выбор.

⚠️ Ограничение: Модель будет оценивать свои же ответы — возможна предвзятость. Надёжнее использовать внешнюю верификацию (другую модель или новый чат).

⚠️

Ограничения

⚠️ Не универсальное решение: На простых перцептивных задачах ("Что на картинке?", "Какого цвета объект?") все техники дают прирост 0-3% — не окупают усилия. Работают только на многошаговых задачах: математика с графиками, анализ диаграмм, поиск ошибок в сложных изображениях, технические чертежи.

⚠️ Self-Refinement ломает слабые модели: На открытых моделях (Qwen2.5-VL, Mulberry, InternVL) итеративное улучшение снижает точность на 2-8%. Модель начинает галлюцинировать несуществующие проблемы, зацикливается на деталях, теряет исходный правильный вывод. Используй только на GPT-4o, Gemini 2.0, Claude 3.5 Sonnet.

⚠️ Внутренняя уверенность обманчива: Если используешь открытую модель с доступом к внутренним confidence scores — не полагайся на них. Модель может быть на 95% уверена в галлюцинации. Best-of-N с внутренними скорами работает хуже голосования или внешней верификации.

⚠️ Стоимость и время: Все техники кроме простого CoT требуют множественных запросов — либо параллельных (Best-of-N, Self-Consistency), либо последовательных (Self-Refinement, Beam Search). На закрытых API это множит стоимость в 3-5 раз. Self-Refinement с 3 раундами = 7 запросов (1 первый + 3×(критика+улучшение)). Используй для критичных задач, не для рутины.

⚠️ Нужна качественная базовая модель: Если модель не справляется с задачей в CoT-режиме (точность <40%), никакие техники не помогут. Self-Consistency и Best-of-N работают, когда правильный ответ вероятнее неправильного — если модель гадает наугад, агрегация бесполезна. Beam Search теоретически может помочь, но на практике слишком дорого.

⚠️ Beam Search неэффективен в чатах: В исследовании Beam Search показал худшие результаты среди всех техник на открытых моделях — часто хуже даже базового CoT. Причина: полагается на внутренние confidence scores, которые ненадёжны. Для ручного применения в чате слишком сложен, требует многократных ветвлений — проще использовать Best-of-N.

🔍

Как исследовали

Команда из Sharif University of Technology взяла три популярных бенчмарка для мультимодальных моделей — MathVista (математика с визуальными элементами, 6141 задача), MMMU (академические задачи уровня университета из 30 дисциплин, 11500 вопросов), MMBench (общий тест способностей VLM, 3000+ вопросов по 20 навыкам). Протестировали 5 открытых моделей (Qwen2.5-VL-7B, Mulberry-8b, InternVL2.5-8B) и 3 топовые закрытые (GPT-4o mini, Gemini 2.0 Flash, Claude-3-Haiku).

Для каждой модели прогнали baseline (zero-shot) без подсказок, потом применили пять техник: Chain-of-Thought, Best-of-N (с внутренними и внешними оценками где возможно), Self-Consistency, Self-Refinement, Beam Search. Измеряли точность (accuracy) — процент правильных ответов.

Ключевые находки из результатов:

На MathVista топовые модели выиграли сильно: Gemini 2.0 с Self-Refinement поднялся с 80% до 89.6% (+9.6 п.п.), GPT-4o mini с Best-of-N — с 64.4% до 72.5% (+8 п.п.). Открытые модели показали смешанную картину: Qwen2.5-VL с Self-Consistency вырос с 68.2% до 79.6% (+11.4 п.п. — лучший результат среди открытых!), но тот же Qwen с Self-Refinement упал с 68.2% до 67.8%. Mulberry вообще просел с 59.7% до 57.8% на Self-Refinement — минус 2 процентных пункта.

На MMMU паттерн повторился: закрытые модели выиграли от Self-Refinement (Gemini +6.2 п.п., Claude +6.2 п.п.), открытые — от Best-of-N с внешней верификацией (Qwen +9 п.п. по сравнению с CoT). Важный инсайт: Best-of-N с внутренними confidence scores у открытых моделей давал +4-5 п.п., но с внешней верификацией (использовали Gemini 2.0 как судью) — сразу +9 п.п. Это прямо показывает: модель не умеет оценивать качество собственных ответов.

Beam Search провалился почти везде — на MathVista у открытых моделей он дал прирост 0-1 п.п. или даже снижение (Mulberry 59.7% → 59.7%, InternVL 63.0% → 62.1%). У закрытых моделей чуть лучше, но всё равно хуже других техник. Авторы объясняют: метод требует надёжных промежуточных оценок, а confidence scores ненадёжны.

Интересная деталь: На MMBench исследователи сделали категориальный анализ — разбили задачи на 15 типов (OCR, spatial reasoning, object recognition и т.д.). Оказалось, что TTS почти не помогает на простых перцептивных задачах (object localization, coarse perception). Зато на сложных (diagram reasoning, math reasoning) прирост достигал 15-20%. Это объясняет, почему общий прирост на MMBench скромнее, чем на MathVista — там больше простых задач.

Авторы также проверили влияние числа сэмплов N в Best-of-N: при N=1 (baseline CoT) точность ниже, N=3 даёт скачок, N=5 ещё чуть лучше, но N=7-10 почти не добавляют — закон убывающей отдачи. Оптимум — 3-5 сэмплов для баланса качества и стоимости.

Вывод исследования: TTS для мультимодальных моделей работает, но не универсально. Нужно подбирать метод под модель (сильная vs слабая) и задачу (многошаговая vs простая). Открытые модели выигрывают от сэмплинга с агрегацией, закрытые — от рефлексии. Простые задачи не стоят усилий — прирост съедается стоимостью токенов.

💡

Адаптации и экстраполяции

📌

🔧 Техника: Гибридный подход — Self-Consistency → Self-Refinement

Логика: Self-Consistency генерирует несколько ответов и выбирает частый. Но что если частый ответ неточен, а редкий правильный? Или консенсус есть, но формулировка сырая? Добавь финальный раунд улучшения.

Промпт (после получения консенсуса через Self-Consistency):

Ты выбрал ответ "{консенсусный_ответ}" как наиболее частый. 

Теперь улучши его:
1. Проверь, учёл ли этот ответ ВСЕ детали изображения
2. Есть ли логические пробелы или неточности в формулировке
3. Можно ли сделать вывод более чётким и обоснованным

Дай финальную улучшенную версию ответа.

Когда использовать: Критичные задачи, где нужна и статистическая надёжность (консенсус), и высокое качество формулировки. Например, медицинские описания снимков, юридические выводы из документов.

📌

🔧 Техника: Специализированные роли в Best-of-N

Вместо генерации N одинаковых ответов, задай разные роли для каждого — получишь разнообразие подходов.

Промпт:

[Прикрепляешь изображение графика продаж]

Задача: Проанализируй этот график и дай рекомендации по стратегии.

Дай 3 анализа с разных точек зрения:

Анализ 1 (Оптимист): Найди позитивные тенденции, возможности роста, что работает хорошо.

Анализ 2 (Пессимист): Найди риски, негативные тренды, проблемы, что может пойти не так.

Анализ 3 (Прагматик): Объективный взгляд — что реально, какие данные надёжны, какие выводы обоснованы.

После трёх анализов дай синтез: какая стратегия учитывает все три взгляда.

Эффект: Вместо случайного разнообразия (стохастика модели) получаешь структурное разнообразие (разные фреймы мышления). Синтез мнений часто лучше одного "усреднённого" ответа.

📌

🔧 Техника: Self-Refinement с внешней критикой

Проблема: В стандартном Self-Refinement модель критикует сама себя — риск предвзятости (она может не видеть свои слепые пятна).

Решение: Используй другую модель для критики, оригинальную — для улучшения.

ШАГ 1 (в чате с Моделью A — например, GPT-4o):

[Прикрепляешь изображение]

{задача_анализа}

Дай детальный анализ.

Получаешь первый ответ, копируешь.

ШАГ 2 (в чате с Моделью B — например, Claude 3.5 Sonnet):

Задача была: {повторяешь задачу}

Вот анализ от другой модели:
[вставляешь ответ из Шага 1]

Твоя роль — конструктивный критик. Найди:
- Что пропущено в анализе
- Где есть логические противоречия
- Какие детали недостаточно обоснованы

Дай детальную критику (не переписывай анализ, только укажи проблемы).

Получаешь критику, копируешь.

ШАГ 3 (возвращаешься в чат с Моделью A):

Вот критика твоего анализа от другой модели:
[вставляешь критику из Шага 2]

Улучши свой анализ с учётом этих замечаний. Исправь ошибки, добавь упущенное.

Эффект: Разные модели имеют разные слепые пятна — GPT-4o может пропустить деталь, которую заметит Claude, и наоборот. Кросс-модельная критика надёжнее самокритики.

Когда использовать: Максимально критичные задачи, где цена ошибки очень высока (технический аудит, финансовый анализ, медицина). Дорого по времени, но качество выше.

🔗

Ресурсы

Limits and Gains of Test-Time Scaling in Vision-Language Reasoning — Mohammadjavad Ahmadpour, Amirmahdi Meighani, Payam Taebi, Omid Ghahroodi, Amirmohammad Izadi, Mahdieh Soleymani Baghshah (Department of Computer Engineering, Sharif University of Technology, 2025)

📋 Дайджест исследования

Ключевая суть

Мультимодальная модель может быть на 95% уверена в галлюцинации — её внутренняя confidence score не показывает правильность ответа. Это ломает классические подходы к улучшению качества через множественную генерацию. Test-Time Scaling даёт возможность выжимать из мультимодальных моделей +20% точности на сложных задачах с изображениями (анализ графиков, поиск ошибок в диаграммах, математика с визуалом), используя те же API без дообучения. Работает через пять техник, но критично: топовые модели (GPT-4o, Gemini) улучшаются от самокритики и итеративных исправлений, а открытые (Qwen2.5-VL, InternVL) от той же самокритики деградируют — зацикливаются, выдумывают проблемы, теряют точность. Зато открытые выигрывают от генерации нескольких вариантов с выбором по голосованию или внешней оценке. Для надёжности используй внешнюю верификацию — другую модель для оценки качества ответов, не confidence scores.

Принцип работы

Вместо прямого ответа модель либо (1) рассуждает пошагово — *Chain-of-Thought* вербализует промежуточную логику, снижая пропуски деталей, либо (2) генерирует 3-5 вариантов с выбором лучшего — *Best-of-N* и *Self-Consistency* фильтруют стохастический шум через голосование или оценку, либо (3) улучшает свой ответ через критику — *Self-Refinement* использует 2-3 раунда "черновик → замечания → исправления", либо (4) строит дерево решений — *Beam Search* сохраняет несколько гипотез на каждом шаге и выбирает лучший полный путь. Ключевая развилка: сильные модели умеют критиковать свои выводы и корректировать логику, слабые при попытке самокритики добавляют новые ошибки вместо исправления старых.

Почему работает

Мультимодальные модели делают три типа ошибок: неправильно считывают данные с изображения (цифры на графике), неверно интерпретируют увиденное (логический сбой) или пропускают детали (видят крупное, не замечают мелкое). При прямом ответе вероятность ошибок выше — модель не проверяет себя. Техники TTS эксплуатируют сильные стороны: модели хорошо структурируют рассуждения, генерируют разные варианты (каждый сэмпл зацепляет другие детали изображения) и оценивают чужие тексты. На сложных задачах (математика с графиками, технические диаграммы) CoT даёт +8-12% точности, Self-Consistency — +15-18%, Self-Refinement на топовых моделях — до +20%. Правильный ответ в стохастической генерации встречается чаще неправильных, если задача в зоне компетенции модели — агрегация через голосование или внешнюю оценку отфильтровывает галлюцинации надёжнее, чем внутренние confidence scores. На простых задачах ("что на картинке?") эффект 1-3% — не окупает затрат.

Когда применять

Анализ сложных изображений → конкретно для многошаговых задач (финансовые графики требующие вычислений, технические чертежи с проверкой соответствий, медицинские диаграммы с перекрёстными данными, поиск ошибок в инфографике), особенно когда цена ошибки высока и есть бюджет на 3-5× увеличение количества токенов. НЕ подходит для простых перцептивных задач — распознавание объектов, определение цветов, подсчёт элементов дают прирост 0-3%.

Мини-рецепт

Примеры

[ПЛОХО] : Прикрепляешь диаграмму с инвестпортфелями к промпту "Проанализируй эту инфографику и найди ошибки" — модель даёт один ответ, может пропустить несоответствие процентов или визуальные баги

[ХОРОШО] : Используешь Self-Refinement: (1) "Проанализируй инфографику пошагово: стратегии, проценты, визуал, ошибки", (2) "Покритикуй свой анализ — что упустил, где противоречия?", (3) "Дай улучшенный анализ исправляя ошибки" — после 2 раундов GPT-4o находит на 40% больше реальных проблем в дизайне (исследование показало +20% точности на похожих задачах)

Источник:

ArXiv ID: 2512.11109 | Сгенерировано: 2026-01-04 02:14

Тезисы

Тезис	Комментарий
Самокритика работает только у сильных моделей — слабые от неё деградируют	Что происходит: Просишь модель покритиковать свой ответ и улучшить его. Топовые модели (GPT-4o, Gemini 2.0, Claude 3.5) улучшают точность на 5-15%. Слабые модели (открытые Qwen, InternVL, Mulberry) теряют точность на 2-8% — начинают выдумывать несуществующие проблемы, зацикливаются, портят изначально правильный ответ. Почему: Самокритика требует метакогниции — способности оценивать качество своих рассуждений. У слабых моделей этой способности нет. Они не отличают реальную ошибку от галлюцинированной. "Критика" сама становится источником ошибок. Применяй: Используй итеративное улучшение (Self-Refinement) только с топовыми моделями. Для остальных — генерируй несколько вариантов и выбирай лучший (Best-of-N, Self-Consistency), не проси улучшать один ответ

Тезис

Комментарий

Самокритика работает только у сильных моделей — слабые от неё деградируют

Что происходит: Просишь модель покритиковать свой ответ и улучшить его. Топовые модели (GPT-4o, Gemini 2.0, Claude 3.5) улучшают точность на 5-15%. Слабые модели (открытые Qwen, InternVL, Mulberry) теряют точность на 2-8% — начинают выдумывать несуществующие проблемы, зацикливаются, портят изначально правильный ответ. Почему: Самокритика требует метакогниции — способности оценивать качество своих рассуждений. У слабых моделей этой способности нет. Они не отличают реальную ошибку от галлюцинированной. "Критика" сама становится источником ошибок. Применяй: Используй итеративное улучшение (Self-Refinement) только с топовыми моделями. Для остальных — генерируй несколько вариантов и выбирай лучший (Best-of-N, Self-Consistency), не проси улучшать один ответ

📖 Простыми словами

Test-Time Scaling для Vision-Language моделей: когда усилия окупаются, а когда вредят

arXiv: 2512.11109

Мультимодальные модели, которые одновременно смотрят на картинку и читают текст, работают не как человеческий глаз, а как статистический калькулятор. Когда ты просишь нейронку разобрать сложный график, она не «всматривается» в детали, а выдает самый вероятный ответ на основе первого впечатления. Проблема в том, что в визуальных задачах это первое впечатление часто оказывается полной лажей: модель путает цифры на осях, не замечает мелкие подписи или просто галлюцинирует, связывая несвязанные элементы. Test-Time Scaling (TTS) — это попытка заставить модель не выпаливать ответ мгновенно, а «подумать» подольше, тратя больше вычислительных мощностей прямо в момент твоего запроса.

Это как если бы ты попросил сонного бухгалтера проверить годовой отчет за пять секунд. Он, скорее всего, кивнет и скажет, что все нормально, лишь бы ты отстал. Но если ты скажешь: «Сядь, пересчитай трижды разными способами и выпиши все нестыковки», результат будет принципиально другим. TTS превращает нейронку из ленивого студента в дотошного аудитора, который не просто смотрит на картинку, а буквально проговаривает каждый шаг анализа, прежде чем выдать итоговый вердикт.

В арсенале этой методики есть три главных рычага: цепочка рассуждений (модель пишет пошаговый план анализа), голосование большинством (генерируем 10 вариантов ответа и выбираем самый частый) и самокритика (модель ищет ошибки в собственном черновике). Исследование показало, что для картинок это работает даже круче, чем для текста. Например, метод Best-of-N позволяет отсеять случайный бред, который часто возникает при распознавании мелких деталей на инфографике. Если модель пять раз из шести увидела на графике цифру 15%, а один раз — 75%, то система выберет правильный вариант, просто отбросив статистический шум.

Хотя эксперименты ставили на сложных схемах и диаграммах, принцип универсален для любой задачи, где цена ошибки высока. Это применимо в медицине при анализе рентгеновских снимков, в инженерии при проверке чертежей или в маркетинге, когда нужно убедиться, что на баннере нет визуального мусора. Визуальное мышление требует времени, и если дать модели возможность «потупить» над картинкой лишние пару секунд, качество ответа взлетает по экспоненте. Мы переходим от эпохи быстрых и глупых ответов к эпохе медленных, но чертовски точных рассуждений.

Главный вывод прост: не жди магии от короткого промпта к сложной картинке. Если хочешь, чтобы AI реально разобрался в твоей инфографике или схеме, заставляй его использовать TTS-механики — проси рассуждать вслух и проверять себя. 10 секунд ожидания экономят часы правок, потому что «умная» генерация в разы эффективнее, чем попытка выжать результат из модели, которая работает на автопилоте. Либо ты платишь за вычисления и получаешь точность, либо экономишь и получаешь красиво оформленную дезинформацию.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Test-Time Scaling для Vision-Language моделей: когда усилия окупаются, а когда вредят

TL;DR

Схема методов

1. Chain-of-Thought (CoT)

2. Best-of-N

3. Self-Consistency

4. Self-Refinement

5. Beam Search

Пример применения

Вариант 1: Простой CoT (базовый подход)

Вариант 2: Self-Consistency (выбор из нескольких попыток)

Вариант 3: Self-Refinement (итеративное улучшение)

Вариант 4: Best-of-N с внешней верификацией (максимальная надёжность)

Почему это работает

Шаблоны промптов

1. Chain-of-Thought для изображений

2. Self-Consistency (голосование)

3. Self-Refinement (итеративное улучшение)

4. Best-of-N с внешней верификацией

5. Beam Search (упрощённая версия для чата)

Быстрый старт для сложных техник

Ограничения

Как исследовали

Адаптации и экстраполяции

🔧 Техника: Гибридный подход — Self-Consistency → Self-Refinement

🔧 Техника: Специализированные роли в Best-of-N

🔧 Техника: Self-Refinement с внешней критикой

Ресурсы

Ключевая суть

Принцип работы

Почему работает

Когда применять

Мини-рецепт

Примеры

Тезисы

Test-Time Scaling для Vision-Language моделей: когда усилия окупаются, а когда вредят

Работа с исследованием

Результат адаптации