3,583 papers
arXiv:2512.18671 70 21 дек. 2025 г. FREE

SmartSight: борьба с галлюцинациями в видео-моделях через анализ внимания

КЛЮЧЕВАЯ СУТЬ
Video-LLM склонны к Temporal Attention Collapse — модель «залипает» на одном визуально ярком или знакомом кадре, игнорируя остальные 90% видео. Отсюда галлюцинации: спрашиваешь про вакцину из 12-го кадра, а модель отвечает про вирус с 1-го — потому что он похож на картинки из обучающих данных. Метод SmartSight позволяет выбрать ответ с наименьшими галлюцинациями без дообучения модели. Фишка: генерируешь 10 вариантов ответа, измеряешь для каждого TAC Score (насколько равномерно модель «смотрела» на видео), выбираешь вариант с максимальным охватом кадров. Высокий TAC Score = внимание распределено по всему видео = меньше риск что модель придумала факты из одного кадра. Бонус: Visual Attention Vanishing Point отсекает слабые варианты досрочно — экономия до 79.6% токенов.
Адаптировать под запрос

TL;DR

SmartSight — метод для моделей, работающих с видео (Video-LLM), который уменьшает галлюцинации без ухудшения понимания. Вместо одного ответа модель генерирует несколько вариантов (sampling), оценивает каждый по специальной метрике и выбирает лучший. Метод не требует дообучения — работает на любой видео-модели из коробки.

Исследователи обнаружили Temporal Attention Collapse — явление, когда модель "зависает" на одном кадре или куске видео с минимальным движением. Например, модель может весь ответ строить на основе первого кадра, игнорируя важную информацию из 12-го. Или зациклиться на двух похожих кадрах, упустив последовательность событий. Это main причина галлюцинаций в видео: модель не "смотрит" на всё видео равномерно, а "застревает" на визуально простых или похожих на что-то знакомое фрагментах.

SmartSight решает проблему в три шага: (1) генерирует 10 разных ответов на видео-вопрос, (2) вычисляет для каждого TAC Score — насколько сильно внимание модели "схлопнулось" на отдельные кадры или сегменты, (3) выбирает ответ с наименьшим схлопыванием. Для экономии токенов метод находит VAV Point — момент генерации, когда модель уже почти не смотрит на видео, и останавливает слабые варианты досрочно.


🔬

Схема метода

ВХОД: Видео + текстовый вопрос

ШАГ 1: Генерация N=10 вариантов ответа параллельно
→ 10 разных интерпретаций видео (temperature sampling 0.7)

ШАГ 2: Для каждого варианта в процессе генерации
→ Отслеживание Visual Attention Vanishing Point
→ Момент когда модель перестаёт "смотреть" на видео

ШАГ 3: Вычисление TAC Score для каждого варианта
→ Frame-level: схлопывание на один кадр (энтропия внимания)
→ Segment-level: схлопывание на тривиальный сегмент
→ Чем ниже TAC — тем сильнее галлюцинация

ШАГ 4: Ранний стоп плохих вариантов на VAV Point
→ Если TAC низкий — прекратить генерацию
→ Экономия до 79.6% токенов

ШАГ 5: Выбор финального ответа
→ Вариант с максимальным TAC Score
→ Дать ему догенерироваться до конца

Всё происходит в одном запросе к API модели, но требует доступа к внутренним attention weights.


🚀

Пример применения

⚠️ Ограничение метода: SmartSight разработан для Video-LLM через API с доступом к attention weights. В обычном чате ChatGPT/Claude принцип можно адаптировать, но не применить точно.

Задача: Разбираешь образовательное видео про вакцины для научпоп-канала. Нужно точно понять откуда берётся mRNA в ролике — чтобы не написать фактическую ошибку в описании.

Промпт (адаптация принципа для чата):

Посмотри видео и ответь на вопрос: "Откуда берётся mRNA в этом видео?"

Сделай так:
1. Сгенерируй 3 разных интерпретации, основываясь на РАЗНЫХ частях видео
2. Для каждой интерпретации укажи:
   - На какие кадры/моменты видео ты опираешься
   - Насколько равномерно покрыто всё видео (начало, середина, конец)
   - Есть ли риск что ты "зациклился" на одном визуально ярком моменте
3. Выбери интерпретацию с наиболее сбалансированным охватом видео

Результат: Модель покажет 3 варианта ответа с явным указанием какие кадры использовались. Ты увидишь если один вариант опирается только на первый кадр (вирус), а другой учитывает кадр 12 (вакцина). Финальный ответ будет основан на всём видео, не на самом ярком моменте.


🧠

Почему это работает

Слабость Video-LLM: Модели обучались в основном на изображениях, поэтому тянутся к кадрам, похожим на отдельные картинки из обучающих данных. Если в видео есть кадр, который "выглядит знакомо" — модель "залипает" на нём и генерирует ответ, игнорируя остальное. Это image bias — модель работает с видео как с набором картинок, не как с последовательностью.

Ещё одна слабость: При генерации длинного ответа внимание к исходному видео естественно падает из-за positional encoding. Чем больше токенов сгенерировано, тем больше модель "слушает" уже написанное, а не смотрит на входное видео. К моменту VAV Point визуальная информация почти не влияет на генерацию — модель "домысливает" по тексту.

Сильная сторона LLM: Модели умеют генерировать разнообразные варианты при sampling (не greedy). Каждый вариант может "зацепиться" за разные части видео. Среди 10 вариантов почти всегда есть один с меньшими галлюцинациями, чем при жадном декодировании.

Как SmartSight использует это: Метод заставляет модель сгенерировать 10 вариантов, анализирует куда смотрела модель при каждом (через attention weights), и выбирает тот, где внимание распределено равномерно по видео. TAC Score — это энтропия распределения внимания: высокая энтропия = модель смотрела на много разных кадров/сегментов = меньше риск галлюцинации.

Рычаги управления (для технической реализации через API):

  • N (число вариантов): Увеличь до 60 для hard cases — Qwen2.5-VL-7B догонит 32B модель. Уменьши до 3-5 для простых вопросов — экономия токенов.
  • Temperature: Выше (0.9) → больше разнообразие, но рискованнее. Ниже (0.5) → безопаснее, но варианты похожи.
  • Порог α для VAV Point: Выше (1.5) → раньше считаем что модель "перестала смотреть" → агрессивнее стоп. Ниже (0.8) → консервативнее.
  • Окно w: Сколько токенов подряд низкое внимание к видео для VAV Point. Больше → надёжнее детекция, меньше токенов сэкономлено.

📋

Шаблон промпта

⚠️ Важно: Оригинальный SmartSight требует API доступа к Video-LLM с attention weights (Qwen2.5-VL, Video-R1, LLaVA-NEXT). Ниже — адаптация принципа для обычного чата с видео-моделями (GPT-4o, Claude 3.5 Sonnet).

Посмотри видео и ответь на вопрос: "{вопрос}"

Используй multi-sampling подход:

1. Сгенерируй {N} разных интерпретаций ответа
2. Для каждой интерпретации покажи:
   - Основной ответ
   - На какие временные отрезки видео ты опирался (начало/середина/конец или конкретные секунды)
   - Какие ключевые визуальные элементы использовал
   - Оценка равномерности: упустил ли ты важные части видео?
3. Выбери финальный ответ по критерию:
   - Максимальный охват разных частей видео
   - Нет чрезмерной фокусировки на одном ярком моменте
   - Учтена последовательность событий

Формат вывода:
**Вариант 1:** [ответ] | Кадры: [какие] | Риск зацикливания: [низкий/средний/высокий]
**Вариант 2:** ...
**Финальный ответ:** [самый сбалансированный]

Подставь: - {вопрос} — твой вопрос к видео - {N} — число вариантов (3-5 для баланса скорость/качество, до 10 для сложных видео)

Когда использовать: - Длинные видео (>1 минуты) где легко упустить детали - Образовательный/научный контент где важна фактическая точность - Видео с повторяющимися визуальными паттернами - Когда замечаешь что модель "зациклилась" на одном моменте


⚠️

Ограничения

⚠️ Требует API доступа: Полная реализация SmartSight невозможна в обычном чате — нужен доступ к attention weights через API Video-LLM. Адаптации в промптах дают слабую версию принципа.

⚠️ Работает только с видео: Метод специфичен для Video-LLM. Принципы частично переносятся на длинные тексты/изображения, но исследование про видео.

⚠️ Стоимость токенов: Генерация 10 вариантов = ~10x токенов. Даже с ранним стопом экономия 79.6% означает всё равно ~2x overhead относительно обычного ответа.

⚠️ Не для простых вопросов: На "What color is the car?" все 10 вариантов одинаковы — метод бесполезен. Работает на сложных вопросах где модель склонна галлюцинировать.


🔍

Как исследовали

Команда взяла 10 разных видео-моделей (Qwen2.5-VL, Video-R1, LLaVA-NEXT и др.) и проверила SmartSight на четырёх бенчмарках. Два на галлюцинации: VRIPT-HAL (модель описывает видео текстом, проверяют совпадение с эталоном) и EventHallusion (вопросы про наличие объектов/событий в видео). Два на понимание: Video-MME и Video-MMMU (сложные вопросы требующие рассуждений).

Ключевая находка: Все предыдущие методы уменьшения галлюцинаций (VCD, TCD, DINO-HEAL) ухудшали понимание видео. Например, VCD на Qwen2.5-VL-7B: галлюцинации -0.83%, но Video-MMMU -0.25% (хуже). SmartSight же: галлюцинации -2.17%, Video-MMMU +1.85% (лучше!). Это противоречило ожиданиям — обычно есть trade-off точность vs галлюцинации.

Почему так? Исследователи проанализировали attention weights и обнаружили Temporal Attention Collapse. Они построили heatmap внимания модели на кадры видео. В галлюцинирующих ответах внимание буквально "схлопывалось" в один пик на каком-то кадре (энтропия < 2), тогда как в правильных ответах было распределено равномерно (энтропия > 4).

Дополнительно проверили масштабируемость: увеличивали N от 1 до 60 вариантов. При N=60 маленькая модель Qwen2.5-VL-7B догнала 32B версию и закрытую Gemini 1.5 Pro по качеству! Это test-time scaling — улучшение от большего compute при inference, не при обучении. Другие методы такого не показали — их эффект выходил на плато при N=5.

Удивительно: VAV Point оказался очень стабилен — появлялся примерно на одной позиции (±10 токенов) для большинства вопросов. Это позволило рано отсекать плохие варианты без потери качества.

Инсайт для практики: Модели умеют генерировать хорошие ответы на видео, но greedy decoding часто "промахивается" мимо них. Sampling раскрывает скрытый потенциал модели, а правильная метрика выбора (TAC Score основанный на attention) позволяет найти алмаз среди угля.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Принцип для текстовых LLM

Хотя SmartSight разработан для видео, принцип Attention Collapse универсален. Модели могут "зависать" на части любого длинного входа.

Адаптация для длинных документов:

Прочитай документ и ответь на вопрос: "{вопрос}"

Используй защиту от attention collapse:
1. Раздели документ на 5 равных частей (начало, ранняя середина, середина, поздняя середина, конец)
2. Для каждой части: найди 1-2 ключевых факта релевантных вопросу
3. Сгенерируй ответ опираясь на факты из ВСЕХ частей, не только из начала
4. Проверь: если 80%+ ответа основано на одной части — переделай с акцентом на упущенные части

Выведи:
- Ответ
- Источники: какие части документа использованы и в какой пропорции

Это симулирует равномерное внимание к документу. В оригинальном SmartSight TAC Score делает то же через attention weights.


📌

🔧 Техника: Multi-sampling для критических решений

Принцип "сгенерировать N вариантов и выбрать лучший" работает не только для видео.

Адаптация для важных бизнес-решений:

Решение: {описание дилеммы}

Сгенерируй 5 разных рекомендаций, каждую с другой "точкой опоры":
1. На основе финансовых данных
2. На основе рыночных трендов  
3. На основе операционных рисков
4. На основе стратегических целей
5. На основе команды и людей

Для каждой рекомендации:
- Решение
- Главный аргумент
- Что игнорируешь при такой точке зрения?

Финальная рекомендация: синтез учитывающий все 5 точек опоры.

Это аналог SmartSight для решений: разные "точки опоры" = разные attention patterns. Финальный выбор на основе баланса.


🔗

Ресурсы

SmartSight: Mitigating Hallucination in Video-LLMs Without Compromising Video Understanding via Temporal Attention Collapse, AAAI 2026

Авторы: Yiming Sun, Mi Zhang, Feifei Li, Geng Hong, Min Yang

Fudan University, Shanghai, China

Связанные работы из исследования: - VRIPT-HAL и Vriptor (Yang et al. 2024) — бенчмарк и метод для галлюцинаций в видео через fine-tuning - Visual Contrastive Decoding (VCD) (Leng et al. 2024, CVPR'24) — training-free метод для изображений - Temporal Contrastive Decoding (TCD) (Zhang et al. 2025) — адаптация VCD для видео - DINO-HEAL (Li, Im, Fazli 2025, CVPR'25) — использует DINOv2 saliency maps для видео - Video-R1 (Feng et al. 2025), VideoChat-R1 (Li et al. 2025) — Video-LLM с reinforcement learning для reasoning


📋 Дайджест исследования

Ключевая суть

Video-LLM склонны к Temporal Attention Collapse — модель «залипает» на одном визуально ярком или знакомом кадре, игнорируя остальные 90% видео. Отсюда галлюцинации: спрашиваешь про вакцину из 12-го кадра, а модель отвечает про вирус с 1-го — потому что он похож на картинки из обучающих данных. Метод SmartSight позволяет выбрать ответ с наименьшими галлюцинациями без дообучения модели. Фишка: генерируешь 10 вариантов ответа, измеряешь для каждого TAC Score (насколько равномерно модель «смотрела» на видео), выбираешь вариант с максимальным охватом кадров. Высокий TAC Score = внимание распределено по всему видео = меньше риск что модель придумала факты из одного кадра. Бонус: Visual Attention Vanishing Point отсекает слабые варианты досрочно — экономия до 79.6% токенов.

Принцип работы

Не полагайся на первый ответ модели — генерируй пачку вариантов и отбирай по равномерности внимания. Процесс: запускаешь 10 параллельных генераций с sampling (temperature 0.7) → в процессе для каждой отслеживаешь веса внимания к кадрам → вычисляешь TAC Score через энтропию распределения → отсекаешь варианты с низким TAC на VAV Point (момент когда модель почти не смотрит на видео) → финальный ответ = вариант с максимальным TAC. Аналогия: как редактор выбирает статью. Не берёшь первую версию журналиста — просишь 10 черновиков от разных авторов, смотришь кто использовал все источники равномерно (а не только первый абзац пресс-релиза), публикуешь ту статью.

Почему работает

Video-LLM обучались в основном на отдельных картинках, поэтому тянутся к кадрам «похожим на что-то знакомое» из обучающих данных. Это image bias — модель работает с видео как с набором фоток, не как с последовательностью. Если в видео есть кадр похожий на типичную картинку из ImageNet — модель залипает на нём и строит ответ, игнорируя контекст остального видео. Ещё один фактор: при генерации длинного ответа внимание к исходному видео естественно падает из-за positional encoding. Чем больше токенов написано, тем больше модель «слушает» уже сгенерированный текст, а не смотрит на входное видео. К моменту VAV Point визуальная информация почти не влияет на генерацию — модель «домысливает» по тексту. Sampling (не greedy decoding) даёт разнообразие — каждый из 10 вариантов может зацепиться за разные части видео. TAC Score как энтропия: высокая энтропия = модель посмотрела на 15 разных кадров равномерно, низкая = 80% внимания на один кадр. Среди 10 вариантов почти всегда есть один с высоким TAC — его и выбираем.

Когда применять

Видео-контент где критична фактическая точность → конкретно для образовательных роликов, научпопа, разбора инструкций, особенно когда видео длиннее 1 минуты и есть риск что модель упустит детали из середины или конца. Также для видео с повторяющимися визуальными паттернами (например, серия похожих кадров — модель может зациклиться на первом). НЕ подходит для простых вопросов типа «What color is the car?» — все 10 вариантов дадут одинаковый ответ, метод бесполезен. Работает на сложных вопросах где модель склонна галлюцинировать (причинно-следственные связи, временная последовательность событий).

Мини-рецепт

Важно: Полная реализация требует API доступа к Video-LLM с attention weights (Qwen2.5-VL, Video-R1). Ниже — адаптация принципа для обычного чата.

1. Запроси несколько интерпретаций: Сгенерируй 3-5 разных ответов на вопрос к видео. Для каждого укажи на какие временные отрезки и ключевые кадры ты опирался

2. Попроси оценку равномерности: Для каждого варианта покажи: охват видео (начало/середина/конец), есть ли риск что зациклился на одном ярком моменте

3. Выбери сбалансированный: Финальный ответ — вариант с максимальным охватом разных частей видео и учётом последовательности событий

4. Настрой число вариантов под задачу: 3-5 для простых видео, до 10 для сложных многоуровневых. Чем больше N — тем выше шанс найти вариант без галлюцинаций, но дороже токены.

Примеры

[ПЛОХО] : Посмотри видео про вакцины и ответь: откуда берётся mRNA? (Модель может «залипнуть» на первом кадре с вирусом и ответить что mRNA из вируса, хотя в 12-м кадре показано что из вакцины)
[ХОРОШО] : Посмотри видео про вакцины и ответь: откуда берётся mRNA? Сделай так: (1) Сгенерируй 3 интерпретации, основываясь на РАЗНЫХ частях видео (2) Для каждой укажи: какие кадры использовал, насколько равномерно покрыто всё видео, есть ли риск зацикливания на одном моменте (3) Выбери интерпретацию с наиболее сбалансированным охватом (Модель покажет 3 варианта с явным указанием кадров. Увидишь если один опирается только на кадр 1 — вирус, а другой учитывает кадр 12 — вакцина. Финальный ответ будет основан на всём видео)
Источник: SmartSight: Mitigating Hallucination in Video-LLMs Without Compromising Video Understanding via Temporal Attention Collapse
ArXiv ID: 2512.18671 | Сгенерировано: 2026-01-09 00:44
📖 Простыми словами

SmartSight: борьба с галлюцинациями в видео-моделях через анализ внимания

arXiv: 2512.18671

Видео-модели (Video-LLM) на самом деле не смотрят кино, они листают комикс. Корень проблемы в том, что эти нейронки учились в основном на статичных картинках, и когда им подсовывают видео, у них случается image bias. Модель видит в ролике один знакомый кадр, который напоминает ей что-то из базы данных, «залипает» на нем и начинает нести ахинею, игнорируя всё, что происходило до и после. Это фундаментальный баг: нейронка воспринимает видео не как связную историю, а как кучу разрозненных фоток, из-за чего и рождаются галлюцинации.

Это похоже на то, как если бы ты попросил друга пересказать двухчасовой фильм, а он весь вечер залипал в телефон и поднял глаза только один раз — на сцене с красной машиной. В итоге на вопрос «о чем кино?» он уверенно заявляет, что это боевик про гонки, хотя на самом деле это была трехчасовая драма о жизни фермеров, где машина просто проехала мимо. Формально он видел машину, но контекст профукал полностью. Метод SmartSight — это способ заставить такого «друга» перепроверить свои показания.

Работает это через Temporal Attention Collapse — хитрую метрику, которая ловит модель на вранье. Вместо того чтобы выплюнуть первый попавшийся ответ, система генерирует сразу пачку вариантов. Затем она смотрит на «внимание» (attention weights) модели: если нейронка при ответе сфокусировалась только на паре кадров, значит, она галлюцинирует и «залипла». SmartSight отсеивает такие мусорные ответы и выбирает тот, где модель реально «смотрела» на всё видео целиком. Это как устроить очную ставку пяти свидетелям и поверить тому, кто помнит всю хронологию, а не одну яркую деталь.

Самый кайф в том, что этот принцип универсален и не требует переучивания огромных моделей. Исследователи тестировали это на видео, но логика применима к любой сложной задаче, где нейронка склонна к ленивому обобщению. Это переход от тупого предсказания следующего слова к системе фильтров и проверок. Мы не меняем «мозги» модели, мы просто добавляем к ним контролер качества, который бьет по рукам каждый раз, когда AI пытается выдать желаемое за действительное.

Короче: эпоха, когда мы верили первому слову чат-бота, уходит. SmartSight доказывает, что лучший способ победить галлюцинации — это заставить модель сомневаться в себе и перепроверять, не слишком ли она увлеклась красивой картинкой в ущерб смыслу. 10 из 10 видео-моделей лажают на динамике, и такие методы — единственный шанс заставить их реально «понимать» происходящее на экране. Либо ты фильтруешь выходы, либо продолжаешь слушать сказки про красную машину в фильме про фермеров.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с