TL;DR
M-ArtAgent — система для анализа художественных влияний, в основе которой лежит четырёхфазный протокол: Расследование → Подтверждение → Фальсификация → Вердикт. Ключевой механизм — промпт-изолированный критик: та же модель запускается с отдельными инструкциями и специально генерирует контраргументы против предварительного вывода. Это не "спроси ещё раз" — это намеренное создание прокурора внутри анализа.
Главная слабость LLM при сложном анализе — подтверждающее смещение: модель нашла похожесть, сгенерировала связную историю, и дальше укрепляет то, что уже сказала. Это работает как "я правд могу ошибаться, но..." с последующим повторением того же ответа. В итоге вы получаете уверенный вывод без реальной проверки, особенно на каузальных вопросах: "Почему упали продажи?", "Это оригинальная идея или копия?", "Это стечение обстоятельств или закономерность?"
Метод вводит три конкретных контргипотезы для любого утверждения "А повлияло на Б": посредник — может, кто-то третий повлиял на обоих? Конвергентная эволюция — может, они пришли к одному независимо? Общий источник — может, у них был один прообраз? Система проверяет каждую и только при устойчивости к ним выдаёт вердикт с оценкой уверенности.
Схема метода
Фаза 1 — РАССЛЕДОВАНИЕ
→ Собери свидетельства: визуальные, биографические, временные
→ Проверь базовые ограничения (хронология, доступность, специфичность)
Фаза 2 — ПОДТВЕРЖДЕНИЕ
→ Синтезируй свидетельства из разных источников
→ Разреши противоречия, найди перекрёстные подтверждения
Фаза 3 — ФАЛЬСИФИКАЦИЯ [Критик в отдельном контексте]
→ Сгенерируй H2: был ли посредник?
→ Сгенерируй H3: конвергентная эволюция?
→ Сгенерируй H4: общий источник?
→ Оцени правдоподобность каждой контргипотезы
Фаза 4 — ВЕРДИКТ
→ ДА/НЕТ + оценка уверенности (0–1)
→ Список атомарных свидетельств, поддерживающих вывод
Все четыре фазы — в одном промпте, но фазу 3 можно вынести отдельным запросом для более острой критики (подробнее в шаблоне).
Пример применения
Задача: Аналитик E-commerce хочет понять: правда ли, что ВкусВилл вырос из-за пандемии, или это самообман?
Промпт:
Проведи четырёхфазный анализ причинно-следственного утверждения.
Утверждение: «ВкусВилл вырос в 2020–2021 годах именно благодаря пандемии COVID-19»
=== ФАЗА 1: РАССЛЕДОВАНИЕ ===
Собери свидетельства в пользу этого утверждения:
- Временные: когда начался рост и совпадает ли это с пандемией?
- Механистические: какой конкретный механизм мог бы связывать пандемию и рост?
- Контекстные: что происходило с ВкусВилл до пандемии?
=== ФАЗА 2: ПОДТВЕРЖДЕНИЕ ===
Синтезируй свидетельства. Какие из них взаимно подтверждают друг друга?
Какие противоречат? Насколько утверждение хронологически и механистически состоятельно?
=== ФАЗА 3: ФАЛЬСИФИКАЦИЯ (критический режим) ===
Теперь займи роль скептика. Проверь три конкурирующие гипотезы:
H2 (Посредник): Может, пандемия — не причина, а был общий катализатор?
Например, цифровизация ритейла шла раньше, пандемия лишь ускорила тренд.
Оцени правдоподобность H2: [низкая / средняя / высокая]
H3 (Независимое развитие): Может, ВкусВилл рос бы и без пандемии —
за счёт внутренних инвестиций, экспансии, смены стратегии?
Оцени правдоподобность H3: [низкая / средняя / высокая]
H4 (Общий источник): Может, и ВкусВилл, и пандемийный спрос — следствие
одного фактора (рост среднего класса, запрос на здоровое питание, урбанизация)?
Оцени правдоподобность H4: [низкая / средняя / высокая]
=== ФАЗА 4: ВЕРДИКТ ===
Дай итоговую оценку утверждения:
- Вердикт: [ПОДТВЕРЖДЕНО / ЧАСТИЧНО ПОДТВЕРЖДЕНО / НЕ ПОДТВЕРЖДЕНО]
- Уверенность: [0.0–1.0]
- Главные свидетельства: [список]
- Главная контргипотеза, которую не удалось отклонить: [...]
Результат: Модель пройдёт все четыре фазы последовательно. В фазе 3 будет видна реальная работа критика — она предложит конкретные контраргументы и оценит каждый. В вердикте появится уверенность с объяснением. Если H3 получила "высокую" правдоподобность — итоговая уверенность снизится. Вы получите не "да, конечно из-за пандемии" а взвешенный вывод с оговорками.
Почему это работает
LLM генерирует текст последовательно. Как только она сформировала вывод, каждый следующий токен статистически тяготеет к его подтверждению — это не "мышление", это паттерн ко-генерации. Попросишь "проверь вывод" после вывода — получишь "да, всё верно, вот ещё аргументы".
Метод использует другую сильную сторону модели: она хорошо генерирует альтернативы, если это задача напрямую. Когда критическая фаза явно отделена от подтверждающей, модель не защищает предыдущий вывод — она выполняет новую задачу: "сгенерируй контраргументы".
Три конкретные контргипотезы (посредник, конвергенция, общий источник) — рычаги управления для любого каузального анализа. Хочешь острее — добавь четвёртую: H5 (случайность). Хочешь мягче — убери H4. Чем больше контргипотез устояли при оценке, тем ниже итоговая уверенность.
Рычаги: - Отдельный запрос для критика → более острые контраргументы (критик не видит фазу 2) - Конкретные имена ролей ("реши как CFO-скептик", "как журналист-расследователь") → острее выполнение критической роли - Уровень детализации вердикта → добавь "список спорных свидетельств" для неоднозначных случаев - Число контргипотез → чем сложнее вопрос, тем больше H2, H3, H4, H5...
Шаблон промпта
Проведи четырёхфазный анализ утверждения.
Утверждение: «{утверждение_о_причинно-следственной_связи}»
=== ФАЗА 1: РАССЛЕДОВАНИЕ ===
Собери свидетельства в пользу утверждения:
- Временные: совпадает ли причина и следствие по времени?
- Механистические: каков конкретный механизм связи?
- Контекстные: что происходило до и независимо?
=== ФАЗА 2: ПОДТВЕРЖДЕНИЕ ===
Синтезируй свидетельства. Какие взаимно подтверждают друг друга?
Какие противоречат? Оцени внутреннюю согласованность.
=== ФАЗА 3: ФАЛЬСИФИКАЦИЯ (критический режим) ===
Займи роль скептика. Проверь три конкурирующие гипотезы:
H2 (Посредник): Существует ли третий фактор, который вызвал и {причину}, и {следствие}?
Правдоподобность H2: [низкая / средняя / высокая] + обоснование
H3 (Независимое развитие): Могло ли {следствие} произойти без {причины}?
Правдоподобность H3: [низкая / средняя / высокая] + обоснование
H4 (Общий источник): Есть ли более глубокая причина, порождающая и {причину}, и {следствие}?
Правдоподобность H4: [низкая / средняя / высокая] + обоснование
=== ФАЗА 4: ВЕРДИКТ ===
- Вердикт: [ПОДТВЕРЖДЕНО / ЧАСТИЧНО / НЕ ПОДТВЕРЖДЕНО]
- Уверенность: [0.0–1.0]
- Ключевые свидетельства: [список]
- Неотклонённая контргипотеза: [...]
Что подставлять:
- {утверждение} — любое "A привело к B", "X причина Y", "успех объясняется Z"
- {причина} / {следствие} — компоненты утверждения, без них H2-H4 будут абстрактными
🚀 Быстрый старт — вставь в чат:
Вот шаблон четырёхфазного анализа причинно-следственных связей.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит само утверждение и его компоненты — потому что без конкретной причины и следствия контргипотезы H2-H4 не будут точными. Она возьмёт структуру из шаблона и адаптирует под твой вопрос.
Ограничения
⚠️ Нишевая область применения: Метод оптимизирован для каузального анализа и анализа влияний. На задачах типа "напиши письмо" или "объясни понятие" применение избыточно.
⚠️ Качество контргипотез зависит от знания предмета: Если LLM не имеет контекста о предметной области, H2-H4 могут быть формальными, а не содержательными. Помогает загрузить контекст в фазу 1.
⚠️ Смещение остаётся при коротком контексте: Если фазы 1-2 очень нагружены поддерживающими аргументами, критик в фазе 3 в том же промпте всё равно будет мягче. Для сложных случаев — выносить фазу 3 отдельным запросом.
⚠️ Инфраструктура оригинала недоступна: Полная система требует CLIP, FAISS, Neo4j, Python. Шаблон выше — извлечённый принцип, не воспроизведение системы.
Ресурсы
- Работа: M-ArtAgent: Evidence-Based Multimodal Agent for Implicit Art Influence Discovery
- Авторы: Hanyi Liu, Zhonghao Jiu, Minghao Wang, Yuhang Xie, Heran Yang
- Университеты: Southeast University (Нанкин), HKUST, UC San Diego, Northeastern University
- Ключевые ссылки: ReAct (Yao et al., 2022) — метод "рассуждение + действие" для агентов; CLIP (Radford et al., 2021) — визуально-языковая модель OpenAI; WikiArt Influence Benchmark-100 (WIB-100) — собственный датасет исследования
