TL;DR
SmartSight — метод для моделей, работающих с видео (Video-LLM), который уменьшает галлюцинации без ухудшения понимания. Вместо одного ответа модель генерирует несколько вариантов (sampling), оценивает каждый по специальной метрике и выбирает лучший. Метод не требует дообучения — работает на любой видео-модели из коробки.
Исследователи обнаружили Temporal Attention Collapse — явление, когда модель "зависает" на одном кадре или куске видео с минимальным движением. Например, модель может весь ответ строить на основе первого кадра, игнорируя важную информацию из 12-го. Или зациклиться на двух похожих кадрах, упустив последовательность событий. Это main причина галлюцинаций в видео: модель не "смотрит" на всё видео равномерно, а "застревает" на визуально простых или похожих на что-то знакомое фрагментах.
SmartSight решает проблему в три шага: (1) генерирует 10 разных ответов на видео-вопрос, (2) вычисляет для каждого TAC Score — насколько сильно внимание модели "схлопнулось" на отдельные кадры или сегменты, (3) выбирает ответ с наименьшим схлопыванием. Для экономии токенов метод находит VAV Point — момент генерации, когда модель уже почти не смотрит на видео, и останавливает слабые варианты досрочно.
Схема метода
ВХОД: Видео + текстовый вопрос
ШАГ 1: Генерация N=10 вариантов ответа параллельно
→ 10 разных интерпретаций видео (temperature sampling 0.7)
ШАГ 2: Для каждого варианта в процессе генерации
→ Отслеживание Visual Attention Vanishing Point
→ Момент когда модель перестаёт "смотреть" на видео
ШАГ 3: Вычисление TAC Score для каждого варианта
→ Frame-level: схлопывание на один кадр (энтропия внимания)
→ Segment-level: схлопывание на тривиальный сегмент
→ Чем ниже TAC — тем сильнее галлюцинация
ШАГ 4: Ранний стоп плохих вариантов на VAV Point
→ Если TAC низкий — прекратить генерацию
→ Экономия до 79.6% токенов
ШАГ 5: Выбор финального ответа
→ Вариант с максимальным TAC Score
→ Дать ему догенерироваться до конца
Всё происходит в одном запросе к API модели, но требует доступа к внутренним attention weights.
Пример применения
⚠️ Ограничение метода: SmartSight разработан для Video-LLM через API с доступом к attention weights. В обычном чате ChatGPT/Claude принцип можно адаптировать, но не применить точно.
Задача: Разбираешь образовательное видео про вакцины для научпоп-канала. Нужно точно понять откуда берётся mRNA в ролике — чтобы не написать фактическую ошибку в описании.
Промпт (адаптация принципа для чата):
Посмотри видео и ответь на вопрос: "Откуда берётся mRNA в этом видео?"
Сделай так:
1. Сгенерируй 3 разных интерпретации, основываясь на РАЗНЫХ частях видео
2. Для каждой интерпретации укажи:
- На какие кадры/моменты видео ты опираешься
- Насколько равномерно покрыто всё видео (начало, середина, конец)
- Есть ли риск что ты "зациклился" на одном визуально ярком моменте
3. Выбери интерпретацию с наиболее сбалансированным охватом видео
Результат: Модель покажет 3 варианта ответа с явным указанием какие кадры использовались. Ты увидишь если один вариант опирается только на первый кадр (вирус), а другой учитывает кадр 12 (вакцина). Финальный ответ будет основан на всём видео, не на самом ярком моменте.
Почему это работает
Слабость Video-LLM: Модели обучались в основном на изображениях, поэтому тянутся к кадрам, похожим на отдельные картинки из обучающих данных. Если в видео есть кадр, который "выглядит знакомо" — модель "залипает" на нём и генерирует ответ, игнорируя остальное. Это image bias — модель работает с видео как с набором картинок, не как с последовательностью.
Ещё одна слабость: При генерации длинного ответа внимание к исходному видео естественно падает из-за positional encoding. Чем больше токенов сгенерировано, тем больше модель "слушает" уже написанное, а не смотрит на входное видео. К моменту VAV Point визуальная информация почти не влияет на генерацию — модель "домысливает" по тексту.
Сильная сторона LLM: Модели умеют генерировать разнообразные варианты при sampling (не greedy). Каждый вариант может "зацепиться" за разные части видео. Среди 10 вариантов почти всегда есть один с меньшими галлюцинациями, чем при жадном декодировании.
Как SmartSight использует это: Метод заставляет модель сгенерировать 10 вариантов, анализирует куда смотрела модель при каждом (через attention weights), и выбирает тот, где внимание распределено равномерно по видео. TAC Score — это энтропия распределения внимания: высокая энтропия = модель смотрела на много разных кадров/сегментов = меньше риск галлюцинации.
Рычаги управления (для технической реализации через API):
- N (число вариантов): Увеличь до 60 для hard cases — Qwen2.5-VL-7B догонит 32B модель. Уменьши до 3-5 для простых вопросов — экономия токенов.
- Temperature: Выше (0.9) → больше разнообразие, но рискованнее. Ниже (0.5) → безопаснее, но варианты похожи.
- Порог α для VAV Point: Выше (1.5) → раньше считаем что модель "перестала смотреть" → агрессивнее стоп. Ниже (0.8) → консервативнее.
- Окно w: Сколько токенов подряд низкое внимание к видео для VAV Point. Больше → надёжнее детекция, меньше токенов сэкономлено.
Шаблон промпта
⚠️ Важно: Оригинальный SmartSight требует API доступа к Video-LLM с attention weights (Qwen2.5-VL, Video-R1, LLaVA-NEXT). Ниже — адаптация принципа для обычного чата с видео-моделями (GPT-4o, Claude 3.5 Sonnet).
Посмотри видео и ответь на вопрос: "{вопрос}"
Используй multi-sampling подход:
1. Сгенерируй {N} разных интерпретаций ответа
2. Для каждой интерпретации покажи:
- Основной ответ
- На какие временные отрезки видео ты опирался (начало/середина/конец или конкретные секунды)
- Какие ключевые визуальные элементы использовал
- Оценка равномерности: упустил ли ты важные части видео?
3. Выбери финальный ответ по критерию:
- Максимальный охват разных частей видео
- Нет чрезмерной фокусировки на одном ярком моменте
- Учтена последовательность событий
Формат вывода:
**Вариант 1:** [ответ] | Кадры: [какие] | Риск зацикливания: [низкий/средний/высокий]
**Вариант 2:** ...
**Финальный ответ:** [самый сбалансированный]
Подставь:
- {вопрос} — твой вопрос к видео
- {N} — число вариантов (3-5 для баланса скорость/качество, до 10 для сложных видео)
Когда использовать: - Длинные видео (>1 минуты) где легко упустить детали - Образовательный/научный контент где важна фактическая точность - Видео с повторяющимися визуальными паттернами - Когда замечаешь что модель "зациклилась" на одном моменте
Ограничения
⚠️ Требует API доступа: Полная реализация SmartSight невозможна в обычном чате — нужен доступ к attention weights через API Video-LLM. Адаптации в промптах дают слабую версию принципа.
⚠️ Работает только с видео: Метод специфичен для Video-LLM. Принципы частично переносятся на длинные тексты/изображения, но исследование про видео.
⚠️ Стоимость токенов: Генерация 10 вариантов = ~10x токенов. Даже с ранним стопом экономия 79.6% означает всё равно ~2x overhead относительно обычного ответа.
⚠️ Не для простых вопросов: На "What color is the car?" все 10 вариантов одинаковы — метод бесполезен. Работает на сложных вопросах где модель склонна галлюцинировать.
Как исследовали
Команда взяла 10 разных видео-моделей (Qwen2.5-VL, Video-R1, LLaVA-NEXT и др.) и проверила SmartSight на четырёх бенчмарках. Два на галлюцинации: VRIPT-HAL (модель описывает видео текстом, проверяют совпадение с эталоном) и EventHallusion (вопросы про наличие объектов/событий в видео). Два на понимание: Video-MME и Video-MMMU (сложные вопросы требующие рассуждений).
Ключевая находка: Все предыдущие методы уменьшения галлюцинаций (VCD, TCD, DINO-HEAL) ухудшали понимание видео. Например, VCD на Qwen2.5-VL-7B: галлюцинации -0.83%, но Video-MMMU -0.25% (хуже). SmartSight же: галлюцинации -2.17%, Video-MMMU +1.85% (лучше!). Это противоречило ожиданиям — обычно есть trade-off точность vs галлюцинации.
Почему так? Исследователи проанализировали attention weights и обнаружили Temporal Attention Collapse. Они построили heatmap внимания модели на кадры видео. В галлюцинирующих ответах внимание буквально "схлопывалось" в один пик на каком-то кадре (энтропия < 2), тогда как в правильных ответах было распределено равномерно (энтропия > 4).
Дополнительно проверили масштабируемость: увеличивали N от 1 до 60 вариантов. При N=60 маленькая модель Qwen2.5-VL-7B догнала 32B версию и закрытую Gemini 1.5 Pro по качеству! Это test-time scaling — улучшение от большего compute при inference, не при обучении. Другие методы такого не показали — их эффект выходил на плато при N=5.
Удивительно: VAV Point оказался очень стабилен — появлялся примерно на одной позиции (±10 токенов) для большинства вопросов. Это позволило рано отсекать плохие варианты без потери качества.
Инсайт для практики: Модели умеют генерировать хорошие ответы на видео, но greedy decoding часто "промахивается" мимо них. Sampling раскрывает скрытый потенциал модели, а правильная метрика выбора (TAC Score основанный на attention) позволяет найти алмаз среди угля.
Адаптации и экстраполяции
🔧 Техника: Принцип для текстовых LLM
Хотя SmartSight разработан для видео, принцип Attention Collapse универсален. Модели могут "зависать" на части любого длинного входа.
Адаптация для длинных документов:
Прочитай документ и ответь на вопрос: "{вопрос}"
Используй защиту от attention collapse:
1. Раздели документ на 5 равных частей (начало, ранняя середина, середина, поздняя середина, конец)
2. Для каждой части: найди 1-2 ключевых факта релевантных вопросу
3. Сгенерируй ответ опираясь на факты из ВСЕХ частей, не только из начала
4. Проверь: если 80%+ ответа основано на одной части — переделай с акцентом на упущенные части
Выведи:
- Ответ
- Источники: какие части документа использованы и в какой пропорции
Это симулирует равномерное внимание к документу. В оригинальном SmartSight TAC Score делает то же через attention weights.
🔧 Техника: Multi-sampling для критических решений
Принцип "сгенерировать N вариантов и выбрать лучший" работает не только для видео.
Адаптация для важных бизнес-решений:
Решение: {описание дилеммы}
Сгенерируй 5 разных рекомендаций, каждую с другой "точкой опоры":
1. На основе финансовых данных
2. На основе рыночных трендов
3. На основе операционных рисков
4. На основе стратегических целей
5. На основе команды и людей
Для каждой рекомендации:
- Решение
- Главный аргумент
- Что игнорируешь при такой точке зрения?
Финальная рекомендация: синтез учитывающий все 5 точек опоры.
Это аналог SmartSight для решений: разные "точки опоры" = разные attention patterns. Финальный выбор на основе баланса.
Ресурсы
SmartSight: Mitigating Hallucination in Video-LLMs Without Compromising Video Understanding via Temporal Attention Collapse, AAAI 2026
Авторы: Yiming Sun, Mi Zhang, Feifei Li, Geng Hong, Min Yang
Fudan University, Shanghai, China
Связанные работы из исследования: - VRIPT-HAL и Vriptor (Yang et al. 2024) — бенчмарк и метод для галлюцинаций в видео через fine-tuning - Visual Contrastive Decoding (VCD) (Leng et al. 2024, CVPR'24) — training-free метод для изображений - Temporal Contrastive Decoding (TCD) (Zhang et al. 2025) — адаптация VCD для видео - DINO-HEAL (Li, Im, Fazli 2025, CVPR'25) — использует DINOv2 saliency maps для видео - Video-R1 (Feng et al. 2025), VideoChat-R1 (Li et al. 2025) — Video-LLM с reinforcement learning для reasoning
