3,583 papers
arXiv:2603.04977 80 5 мар. 2026 г. FREE

VideoHV-Agent: четырёхагентная структура "сначала гипотеза, потом поиск"

КЛЮЧЕВАЯ СУТЬ
LLM не галлюцинирует, когда анализирует конкурирующие версии. Она делает кое-что хуже — ищет подтверждение той версии, что попалась первой, и игнорирует факты, которые говорят обратное. Метод Hypothesis-Verification позволяет найти реальную причину среди нескольких версий — через явные проверяемые гипотезы, а не интуицию. Фишка: не спрашивай 'что здесь правда?' — спрашивай 'что должно быть правдой, если верен вариант A? если верен B?' Thinker формулирует условия для каждого варианта, Judge находит одну дискриминирующую улику — минимальное свидетельство, которое разделяет гипотезы, а не подтверждает одну из них. Дальше Verifier проверяет улику по данным. Поиск не широкий — точечный.
Адаптировать под запрос

TL;DR

Hypothesis-Verification — техника, которая перестраивает логику анализа: вместо "ищи что-нибудь по теме" сначала формулируешь что именно должно быть правдой, чтобы каждый из вариантов ответа оказался верным. Только потом идёшь искать доказательства.

Стандартный подход к анализу "иди по теме и собирай что найдёшь" ломается на сложных задачах: первые найденные факты уводят цепочку рассуждений не туда, и каждый следующий шаг усиливает начальную ошибку. Ещё хуже — модель ищет то, что похоже на ответ, а не то, что реально различает верный и неверный варианты.

Метод решает это через четыре роли в одной задаче: Thinker переформулирует каждый вариант ответа в проверяемую гипотезу, Judge находит минимальную улику — ту единицу доказательства, которая разделяет гипотезы, Verifier проверяет улику по фактическим данным, Answer объединяет всё в финальный вывод с явной цепочкой рассуждений.


🔬

Схема метода

(Все четыре шага можно запустить в одном промпте)

ШАГ 1 — Thinker: для каждого варианта ответа формулирует гипотезу
         "Что должно быть правдой, чтобы ответ X оказался верным?"
         → список гипотез H1, H2, H3...

ШАГ 2 — Judge: из набора гипотез выводит одну дискриминирующую улику
         "Что нужно проверить, чтобы различить гипотезы?"
         → одна конкретная улика κ

ШАГ 3 — Verifier: проверяет улику по доступным данным
         → статус ПОДТВЕРЖДЕНО / ЧАСТИЧНО / НЕ ПОДТВЕРЖДЕНО + обоснование

ШАГ 4 — Answer: интегрирует доказательства и формулирует финальный ответ
         → вывод с явной цепочкой логики

Если статус НЕ ПОДТВЕРЖДЕНО → цикл уточнения: гипотезы конкретизируются
и проверка повторяется (обычно 1-2 раза)

🚀

Пример применения

Задача: Павел открыл пельменную на Яндекс.Еде четыре месяца назад. Средний рейтинг 3.8 — плохо. Есть три версии: (A) плохой продукт, (B) долгая доставка, (C) слабое оформление карточки. Нужно понять причину, не гадая.

Промпт:

Сыграй роль аналитика по четырёхагентной схеме Hypothesis-Verification.

Контекст: рейтинг 3.8 на Яндекс.Еде, 40 отзывов за 4 месяца.
Отзывы: [вставь 10-15 отзывов]
Варианты причин: A) плохой вкус продукта, B) долгая доставка, C) слабая 
карточка/фото

THINKER — для каждого варианта сформулируй гипотезу:
Что конкретно должно быть правдой в отзывах, если причина — A?
Что должно быть правдой, если причина — B?
Что должно быть правдой, если причина — C?
(ключевые сущности, действия, временные паттерны)

JUDGE — из трёх гипотез выведи одну дискриминирующую улику:
Какое минимальное наблюдение в отзывах разделит эти три гипотезы?
Что нужно найти, чтобы исключить две из трёх?

VERIFIER — проверь улику по отзывам:
Найди прямые свидетельства. Выдай статус:
ПОДТВЕРЖДЕНО / ЧАСТИЧНО / НЕ ПОДТВЕРЖДЕНО + временные метки / фразы

ANSWER — интегрируй доказательства:
Какая версия получила подтверждение? 
Что исключено и почему? Рекомендация одним действием.

Результат: Модель сначала покажет три явные гипотезы — не "плохая доставка", а "отзывы упоминают конкретное время ожидания больше X минут и связывают его с негативной оценкой". Потом выведет дискриминирующую улику — одну фразу или паттерн, которая присутствует только если одна из версий верна. Затем поищет улику в отзывах и скажет что нашла. Финальный ответ будет с явной ссылкой на найденные доказательства — не интуиция, а логика.


🧠

Почему это работает

Простой запрос типа "почему низкий рейтинг?" провоцирует поиск похожего — и модель находит первые подтверждающие факты, игнорируя факты, которые говорят обратное. Это называют смещением подтверждения — LLM генерирует текст, следуя наиболее вероятному паттерну, и ранние рассуждения утягивают остальные.

У LLM есть другая сильная сторона: она хорошо работает с явно заданными ролями и структурированными условиями. Если спросить не "что правда?" а "что должно быть правдой?", модель переключается с поиска подтверждений на формулировку проверяемых условий.

Метод использует именно это: Thinker заставляет модель explicitно разложить логику каждой версии, Judge находит разделяющую улику — то, что отличает версии, а не то, что им общее. Дальше поиск идёт не широко, а точечно: не "собери всё про доставку", а "найди именно это".

Рычаги управления: - Количество гипотез → больше вариантов ответа = больше гипотез, можно ограничить до 2-3 самых вероятных - Формат улики → попроси Judge указать конкретные слова-маркеры, которые нужно искать в тексте - Статус Verifier → добавь порог: "считай ПОДТВЕРЖДЕНО только если улика встречается в 3+ отзывах" - Цикл уточнения → для простых задач убери его, чтобы сэкономить


📋

Шаблон промпта

Работай по схеме Hypothesis-Verification. Задача: {описание задачи}.
Варианты ответа: {A: ..., B: ..., C: ...}
Данные для анализа: {текст / отзывы / факты}

THINKER:
Для каждого варианта — что должно быть правдой в данных, 
если именно он верен? Укажи ключевые сущности, действия, 
паттерны. Исключи явно неправдоподобные варианты сразу.

JUDGE:
Из набора гипотез выведи одну дискриминирующую улику κ.
Это минимальное наблюдение, которое отделяет верную гипотезу 
от остальных. Что нужно найти — и как это выглядит конкретно?

VERIFIER:
Проверь улику κ по данным. Выдай статус:
ПОДТВЕРЖДЕНО / ЧАСТИЧНО / НЕ ПОДТВЕРЖДЕНО
+ конкретные свидетельства (цитаты, факты, временные метки)

Если ЧАСТИЧНО — уточни что именно подтверждено, 
что ещё нужно проверить.

ANSWER:
Интегрируй доказательства. Какой вариант верен и почему?
Что исключено? Финальный вывод: {формат вывода}.

Плейсхолдеры: - {описание задачи} — что анализируешь и зачем - {A, B, C} — конкурирующие версии / варианты / гипотезы - {текст / отзывы / факты} — данные, по которым проверяем - {формат вывода} — например "одно действие", "рейтинг вариантов", "да/нет с обоснованием"


🚀 Быстрый старт — вставь в чат:

Вот шаблон Hypothesis-Verification. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие конкурирующие версии ты рассматриваешь и какие данные есть для анализа — потому что без этого Thinker не сможет сформулировать различающиеся гипотезы. Она возьмёт четырёхагентную структуру и подстроит роли под твою задачу.


⚠️

Ограничения

⚠️ Открытые вопросы: Метод заточен под выбор между конкурирующими вариантами. Для открытого вопроса без вариантов ответа — менее эффективен: Judge не может сформулировать дискриминирующую улику, если нечего различать.

⚠️ Качество данных: Если исходные данные скудные или однородные, Verifier не найдёт улику — статус будет ЧАСТИЧНО по кругу. Нужно достаточно фактов для сравнения.

⚠️ Сложность задачи: Для простых вопросов с очевидным ответом — избыточно. Структура окупается на реально конкурирующих гипотезах, где интуиция может ошибиться.

⚠️ Цикл уточнения: Если задача плохо структурирована, цикл самоуточнения может зациклиться — модель будет переформулировать гипотезы без реального прогресса. Ограничи максимум до 2 итераций.


🔗

Ресурсы

Название: Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Датасеты и бенчмарки: EgoSchema, NextQA, IntentQA, VideoMME-L

Авторы: Zheng Wang, Haoran Chen, Haoxuan Qin, Zhipeng Wei, Tianwen Qian, Cong Bai

Организации: Zhejiang University of Technology (Китай), UC Berkeley (США), East China Normal University (Китай)

Код: https://github.com/Haorane/VideoHV-Agent


📋 Дайджест исследования

Ключевая суть

LLM не галлюцинирует, когда анализирует конкурирующие версии. Она делает кое-что хуже — ищет подтверждение той версии, что попалась первой, и игнорирует факты, которые говорят обратное. Метод Hypothesis-Verification позволяет найти реальную причину среди нескольких версий — через явные проверяемые гипотезы, а не интуицию. Фишка: не спрашивай 'что здесь правда?' — спрашивай 'что должно быть правдой, если верен вариант A? если верен B?' Thinker формулирует условия для каждого варианта, Judge находит одну дискриминирующую улику — минимальное свидетельство, которое разделяет гипотезы, а не подтверждает одну из них. Дальше Verifier проверяет улику по данным. Поиск не широкий — точечный.

Принцип работы

Вопрос 'что здесь правда?' — ловушка. Модель ищет похожее и находит первые подходящие факты. Ранние рассуждения тянут остальные в том же направлении. Нашла жалобы на вкус — пошла искать ещё жалобы на вкус. Четыре роли в одном промпте: Thinker — формулирует гипотезы: 'Если причина — долгая доставка, в отзывах должно быть...' Judge — находит одну дискриминирующую улику: не 'всё про доставку', а 'конкретный паттерн, который есть только у одной из версий' Verifier — проверяет улику по данным, выдаёт статус: подтверждено / частично / нет + цитаты Answer — финальный вывод с явной цепочкой логики, не интуиция Judge — самое важное звено. Он ищет не доказательства одной версии, а то, что версии различает между собой. Если улика не нашлась — это тоже информация: гипотезы уточняются и цикл повторяется (не больше двух раз).

Почему работает

Обычный промпт 'почему рейтинг низкий?' запускает подтверждающий поиск. Модель генерирует следующий токен по наиболее вероятному паттерну — и ранние рассуждения тянут все остальные туда же. Это не баг, это природа языковой модели. Вопрос 'что должно быть правдой?' переключает режим: модель больше не ищет подтверждения — она формулирует проверяемые условия. Это как разница между 'найди улики против подозреваемого' и 'скажи, что докажет правоту каждого из троих'. Judge добавляет второй сдвиг. Вместо широкого сбора — точечная проверка одного различающего факта. Минимальное свидетельство, которое одна версия предсказывает, а две другие — нет. Именно это обнажает правильный ответ быстро и без лишнего шума.

Когда применять

Диагностика бизнес-проблем — когда есть 2-4 конкурирующие версии причины и данные для проверки: отзывы, метрики, факты, документы. Разбор стратегических решений — когда выбираешь между подходами и нужна не интуиция, а логика. Анализ отказов — почему не купили, не пришли, не остались. НЕ подходит для открытых вопросов без вариантов ответа — Judge не может найти дискриминирующую улику, если нечего различать. Если данных мало или они однородные — Verifier застрянет на статусе 'частично' по кругу.

Мини-рецепт

1. Обозначь задачу и варианты: что анализируешь + 2-4 конкурирующие версии. Без вариантов метод не работает — если их нет, попроси модель сгенерировать самые вероятные сначала.

2. Thinker: для каждого варианта — что должно быть правдой в данных, если именно он верен? Конкретные слова, паттерны, временные метки — не абстракции.

3. Judge: из набора гипотез — одна дискриминирующая улика. Что нужно найти, чтобы исключить две из трёх версий? Как это выглядит конкретно?

4. Verifier: проверить улику по данным с явным статусом (подтверждено / частично / нет) и цитатами или фактами. Если частично — что ещё нужно проверить?

5. Answer: интегрировать доказательства, вывести финальный ответ с цепочкой логики и рекомендацией в одном действии.

Примеры

[ПЛОХО] : Почему у моей пельменной рейтинг 3.8? Вот отзывы: [список]. Что не так?
[ХОРОШО] : Работай по схеме Hypothesis-Verification. Контекст: доставка еды, рейтинг 3.8, 40 отзывов за 4 месяца. Варианты: A) плохой продукт, B) долгая доставка, C) слабая карточка. Данные: [вставить отзывы] THINKER: для каждого варианта — что должно быть правдой в отзывах, если именно он верен? Ключевые слова, паттерны, конкретные временные метки. JUDGE: из трёх гипотез — одна дискриминирующая улика. Что отделяет одну версию от двух других? Как выглядит конкретно в тексте отзывов? VERIFIER: найди улику в отзывах. Статус: подтверждено / частично / нет + прямые цитаты. ANSWER: какой вариант верен и почему? Что исключено? Рекомендация одним действием.
Источник: Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding
ArXiv ID: 2603.04977 | Сгенерировано: 2026-03-09 00:41

Проблемы LLM

ПроблемаСутьКак обойти
Модель ищет похожее, а не различающееСпрашиваешь "почему низкий рейтинг?". Модель находит первые подходящие факты. Дальше идёт по этому пути — и усиливает его. Факты, которые говорят обратное, остаются незамеченными. Это происходит на любой аналитической задаче с несколькими версиями.Не спрашивай "что подтверждает версию А?". Спрашивай "что отделяет версию А от версии Б?". Модель переключается с поиска похожего на поиск различающего.

Методы

МетодСуть
Hypothesis-Verification — гипотеза до поискаЧетыре роли в одном промпте. Сначала Thinker: для каждого варианта — "что должно быть правдой в данных, если именно он верен?". Потом Judge: "какое минимальное наблюдение разделит все версии?" — одна конкретная улика, не список. Потом Verifier: ищет улику в данных, выдаёт статус: ПОДТВЕРЖДЕНО / ЧАСТИЧНО / НЕ ПОДТВЕРЖДЕНО + цитаты. Потом Answer: финальный вывод с явной цепочкой логики. Почему работает: Когда роли разделены явно, каждый шаг не тянет следующий к первому найденному ответу. Judge специально ищет разделяющее, а не подтверждающее. Когда применять: есть несколько конкурирующих версий и данные для проверки. Когда не работает: открытый вопрос без вариантов ответа — Judge не может сформулировать улику, если нечего различать.
📖 Простыми словами

Think, Then Verify: A Hypothesis-Verification Multi-AgentFramework for Long Video Understanding

arXiv: 2603.04977

Суть в том, что современные нейронки впадают в ступор, когда им скармливают длинные видео или огромные массивы данных. Они страдают от смещения подтверждения: если ты спросишь «почему еда невкусная?», модель услужливо найдет пару гневных отзывов и проигнорирует сотню жалоб на холодную доставку. Она цепляется за первый попавшийся факт и строит вокруг него теорию, даже если это полная чушь. Метод Hypothesis-Verification ломает этот сценарий, заставляя AI работать не как ленивый зритель, а как дотошный следователь, который сначала строит версии, а потом пытается их разнести в пух и прах.

Это как если бы ты потерял ключи и вместо того, чтобы хаотично бегать по квартире, сел и составил список: «Если они в куртке, то я вешал её в шкаф» или «Если они в двери, то я их не вытащил». Ты не ищешь «ключи вообще», ты проверяешь конкретную гипотезу. Без этого метода нейронка ведет себя как человек, который зашел в комнату, увидел на столе яблоко и решил, что это кухня, хотя на самом деле он в кабинете биологии. Формально зацепка есть, но контекст просран полностью.

Вместо тупого вопроса «что тут происходит?», система запускает цикл из четырех шагов. Сначала она генерирует кандидатов на ответ, затем для каждого ответа формулирует проверочные гипотезы — что именно должно быть в видео, чтобы этот ответ был правдой. Дальше идет сбор доказательств по конкретным таймкодам и, наконец, финальный вердикт. Если мы проверяем, почему у пельменной низкий рейтинг, модель не просто смотрит отзывы, а ищет конкретные улики: «есть ли жалобы на сырое тесто?» или «пишут ли про опоздание курьера?». Это превращает гадание на кофейной гуще в структурированный аудит.

Хотя метод обкатывали на длинных видео, где нужно удерживать в памяти кучу деталей, принцип универсален. Это идеальное решение для любой аналитики, где данных слишком много, а цена ошибки высока: от разбора логов сервера до анализа квартальных отчетов. Когда ты заставляешь модель сначала думать «а что если?», а потом искать пруфы, ты выключаешь у неё режим «галлюцинирующего сказочника». Логика побеждает паттерны, и это единственный способ заставить LLM выдавать результат, которому можно верить.

Короче: хватит просить нейронку «проанализировать текст» — заставляй её проверять гипотезы. Метод Hypothesis-Verification превращает модель из поверхностного читателя в жесткого фактчекера. Если не внедришь такой подход в свои промпты, будешь и дальше получать ответы, которые выглядят логично, но не имеют ничего общего с реальностью. Либо ты управляешь логикой поиска, либо нейронка кормит тебя галлюцинациями.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с