arXiv:2508.02584 73 4 авг. 2025 г. FREE

MArgE: виртуальная многоагентная дискуссия через структурированное дерево аргументов

КЛЮЧЕВАЯ СУТЬ

Обнаружено: В обычных multi-LLM дебатах всё растворяется в выводе судьи - невозможно отследить какой конкретный аргумент повлиял на решение и насколько. MArgE позволяет видеть структуру разногласий между моделями - каждый аргумент получает числовую силу, все связи поддержка/атака прозрачны. Фишка: дискретизация рассуждений - три модели создают деревья коротких аргументов (до 30 слов каждый) за/против утверждения. Внешний скорер оценивает качество каждого 0-1, затем алгоритм DF-QuAD математически пересчитывает силу с учётом атак и поддержек. Галлюцинации получают 0.05 и не влияют на финал - математическая консистентность вместо непредсказуемого LLM-судьи.

Адаптировать под запрос

⚡

TL;DR

MArgE (Meshing Argumentative Evidence) — метод, который собирает аргументы от нескольких LLM в единую структуру для проверки утверждений. Каждая модель генерирует дерево аргументов «за» и «против» утверждения (до 3 аргументов на каждый узел, глубина 1-2 уровня). Деревья объединяются, каждый аргумент получает числовую оценку качества от внешнего скорера, затем применяется формальная аргументационная семантика (DF-QuAD) — математический алгоритм, который пересчитывает силу каждого аргумента с учётом его поддержки и атак. Финальный вердикт определяется обновлённой силой корневого утверждения.

Обычные методы (мажоритарное голосование, свободные дебаты между LLM) либо игнорируют нюансы мнений, либо теряют структуру рассуждений в неструктурированном тексте. CoT-выводы от одной модели часто содержат противоречивые аргументы внутри одного куска текста и могут не отражать реальное рассуждение модели (риск галлюцинаций). В многомодельных дебатах невозможно отследить как конкретные аргументы влияют на финальное решение — всё растворяется в общем выводе судьи-LLM. MArgE делает разногласия видимыми и формализованными: вместо чёрного ящика читатель видит граф с конкретными аргументами, их оценками качества и математически вычисленными силами влияния.

MArgE решает проблему через дискретизацию рассуждений: короткие атомарные аргументы вместо сплошного текста, явные связи support/attack между узлами, внешняя оценка каждого узла по качеству (релевантность, фактичность, определённость), и математическая агрегация через аргументационную семантику. Это даёт прозрачную цепочку: утверждение → аргументы → оценки → обновлённые силы → вердикт. Каждый шаг инспектируемый, галлюцинации получают низкие оценки и не влияют на финал.

🔬

Схема метода

ШАГ 1: Генерация деревьев аргументов
Каждая LLM (3 модели) → дерево аргументов за/против (глубина 1-2)
Формат: корень = утверждение, узлы = короткие аргументы (<30 слов)

ШАГ 2: Объединение деревьев
Вариант A: простое объединение всех аргументов
Вариант B: слияние семантически похожих через sentence embeddings

ШАГ 3: Оценка качества аргументов
Внешняя LLM (GPT-4o-mini) → оценка каждого аргумента [0...1]
Критерии: релевантность, фактичность, определённость
Результат: QBAF (Quantitative Bipolar Argumentation Framework)

ШАГ 4: Обновление сил через семантику
Алгоритм DF-QuAD → пересчёт силы каждого узла
Учитывает: базовую оценку + силы атакующих/поддерживающих
Финал: обновлённая сила корня > 0.5 → True, иначе → False

Все шаги выполняются программно (код, API), но принципы можно использовать вручную в чате.

🚀

Пример применения

⚠️ Зона применимости: Метод силён для проверки фактических утверждений, где нужна глубокая проверка с разных сторон: факт-чекинг, анализ медицинских/научных заявлений, оценка стратегических решений. Не подходит для субъективных/креативных задач или простых фактов (столица страны).

Задача: Ты запускаешь SaaS для малого бизнеса в России. Партнёр предлагает: "Давай сделаем бесплатный тариф навсегда — это разгонит аудиторию в 10 раз за полгода". Нужно проверить это утверждение с разных углов.

Промпт:

У меня есть утверждение про бизнес-стратегию: "Бесплатный тариф навсегда разгонит аудиторию SaaS для малого бизнеса в России в 10 раз за полгода".

Действуй как 3 эксперта с разным опытом:
1. Маркетолог B2B SaaS
2. Продуктовый директор
3. Финансовый аналитик

Каждый эксперт:
- Сгенерируй 2-3 аргумента ЗА или ПРОТИВ утверждения
- Каждый аргумент — одно предложение до 30 слов
- Начинай с "За:" или "Против:"
- Будь конкретным, избегай общих фраз

После получения всех аргументов:
1. Оцени каждый аргумент по шкале 0-10 (релевантность + фактичность + определённость)
2. Покажи как аргументы поддерживают или атакуют друг друга
3. Дай финальный вердикт с учётом всех сил аргументов

Результат:

Модель покажет 3 блока аргументов от каждого эксперта — маркетолог может дать 2 аргумента «За» и 1 «Против», продуктовик — 1 «За» и 2 «Против», финансист — 3 «Против». Затем модель присвоит числовые оценки каждому (например: "Бесплатный тариф снизит воспринимаемую ценность продукта" — 8/10, "Freemium работает для Slack и Notion" — 6/10). После этого покажет связи между аргументами (какие поддерживают друг друга, какие опровергают) и финальный вердикт с обоснованием: "Аргументы против перевешивают (средняя сила 7.2 vs 5.8), вердикт: утверждение скорее неверное для контекста малого бизнеса в России".

🧠

Почему это работает

Слабость LLM: Модель в одном промпте может генерировать противоречивые аргументы внутри одного текста без чёткой структуры. CoT-выводы часто содержат одновременно и «за» и «против», но финальный ответ может игнорировать часть рассуждений или быть результатом галлюцинации, не связанной с явным текстом. В multi-LLM дебатах всё растворяется в итоговом выводе судьи — невозможно отследить какой конкретно аргумент повлиял на решение и насколько.

Сильная сторона LLM: Модели хороши в генерации коротких атомарных аргументов по запросу, в оценке качества текста по критериям (релевантность, фактичность), и в следовании структурированным инструкциям (теги, псевдокод, роли). Когда задача декомпозирована на мелкие чёткие шаги, модель показывает лучшие результаты.

Как метод использует силу: MArgE дискретизирует рассуждения: вместо сплошного текста — дерево коротких аргументов с явными связями support/attack. Это убирает двусмысленность и делает каждый аргумент инспектируемым. Внешний скорер оценивает качество каждого узла независимо — галлюцинации получают низкие оценки (0.05-0.20) и не влияют на финал. Формальная семантика (DF-QuAD) математически агрегирует влияния: сильный аргумент с высокой оценкой и множеством поддержек перевесит слабые атаки, а сильные атаки нивелируют даже качественные аргументы если последних мало. Это математическая гарантия консистентности вместо непредсказуемого вывода LLM-судьи.

Рычаги управления (для адаптации в чате):

Глубина дерева (1-2 уровня) → больше глубина = больше детализация, но медленнее и дороже
Число аргументов на узел (1-3) → больше аргументов = шире охват, но риск повторений
Критерии оценки (релевантность, фактичность, определённость) → можно добавить свои критерии под задачу (например, "реалистичность для российского рынка")
Порог вердикта (0.5) → повысь до 0.6-0.7 для более консервативного "True"
Роли экспертов → дай конкретные имена/роли вместо безликих LLM1/LLM2 для острее выполнения роли

📋

Шаблон промпта

У меня есть утверждение: "{утверждение}"

Действуй как {число} экспертов с разными взглядами: {описание ролей экспертов}.

Каждый эксперт:
- Сгенерируй {число_аргументов} аргументов ЗА или ПРОТИВ утверждения
- Каждый аргумент — одно предложение до 30 слов
- Начинай с "За:" или "Против:"
- Будь конкретным, без общих фраз и хеджирования

После получения всех аргументов:

1. Оцени каждый аргумент по шкале 0-10:
 - Релевантность: прямо ли относится к утверждению?
 - Фактичность: опирается на факты или на предположения?
 - Определённость: конкретный или размытый?

2. Покажи связи между аргументами:
 - Какие аргументы поддерживают друг друга?
 - Какие опровергают или ослабляют?

3. Дай финальный вердикт:
 - Посчитай среднюю силу аргументов "За" и "Против" с учётом оценок и связей
 - Если сила "За" > сила "Против" → утверждение скорее ВЕРНОЕ
 - Иначе → утверждение скорее НЕВЕРНОЕ
 - Объясни почему в 2-3 предложениях

Плейсхолдеры:

{утверждение} — проверяемое утверждение
{число} — количество экспертов/ролей (обычно 2-3)
{описание ролей экспертов} — конкретные роли с разными перспективами
{число_аргументов} — сколько аргументов генерировать (1-3 на эксперта)

🚀 Быстрый старт — вставь в чат:

Вот шаблон MArgE для проверки утверждений через структурированные аргументы. Адаптируй под мою задачу: [твоя задача проверки утверждения]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какое утверждение проверить, какие роли экспертов подойдут (например: для бизнес-утверждения — маркетолог, финансист, продуктовик; для медицинского — терапевт, исследователь, пациент), сколько аргументов генерировать. Она возьмёт паттерн структурированной генерации аргументов + оценки + связей из шаблона и адаптирует под задачу. Ты получишь рабочий промпт с прозрачной логикой проверки.

⚠️

Ограничения

⚠️ Сложность применения в чате: Полная реализация требует кода (3 LLM параллельно, парсинг деревьев, вычисление DF-QuAD семантики). Адаптация для чата упрощает метод — теряется параллелизм моделей (в чате последовательные запросы), точность формальной семантики (вручную оценивать связи сложнее), и скорость (больше токенов и времени). Но принцип структурированных аргументов с оценкой работает.

⚠️ Не для простых фактов: Метод избыточен для проверки «столица Франции» или «2+2=4». Эффективен для сложных многогранных утверждений, где нужна глубокая проверка с разных углов (бизнес-стратегии, медицинские заявления, научные гипотезы, спорные факты).

⚠️ Требует чёткого утверждения: Метод работает с конкретными проверяемыми утверждениями (True/False). Для открытых вопросов («Как улучшить продукт?») или субъективных задач («Напиши креативный текст») структура аргументов за/против не применима.

⚠️ Стоимость токенов: Даже в упрощённой версии метод генерирует много текста (аргументы от 2-3 «экспертов», оценки каждого, описание связей). В реальной реализации MArgE с 3 моделями и глубиной 2 использует в 8 раз больше входных токенов для скорера чем baseline методы, хотя меньше выходных токенов. Для задач где точность критична — оправдано, для рутинных — может быть дорого.

⚠️ Чувствительность к домену: На медицинских утверждениях (MedClaim dataset) MArgE показывает более слабые результаты (-2.7% vs GPT-4o-mini) — вероятно потому что open-source модели (Llama, Mistral, Phi) не специализированы в медицине и генерируют менее качественные аргументы. Для доменов требующих глубокой экспертизы метод работает хуже если модели-генераторы не обучены на домене.

🔍

Как исследовали

Исследователи взяли 3 open-source LLM разного размера (Llama-3.1-8B, Mistral-7B, Phi-3-Mini-4B) и GPT-4o-mini как внешний скорер качества аргументов. Протестировали на 3 датасетах для проверки утверждений: TruthfulClaim (устойчивость к распространённым заблуждениям), StrategyQA (multi-hop рассуждения), MedClaim (доменная экспертиза в медицине). Каждый датасет — 500 утверждений (250 True, 250 False).

Сравнивали с 6 базовыми методами: одиночные LLM с CoT промптингом, ансамбль LLM (мажоритарное голосование), ансамбль ArgLLM (каждая модель строит своё дерево аргументов отдельно, потом голосование), multi-LLM debate с GPT-судьёй, и сам GPT-4o-mini напрямую. Главная находка: MArgE превосходит все методы на 2 из 3 датасетов, улучшая точность на 3.5% vs GPT-4o-mini на TruthfulClaim и 1.0% на StrategyQA. Интересно, что ансамбль LLM часто хуже лучшей одиночной модели (из-за доминирования менее точных моделей), а MArgE решает это через структурированное объединение аргументов. На MedClaim MArgE отстаёт (-2.7%), что показывает важность доменной экспертизы в моделях-генераторах.

Почему пришли к таким выводам: Дискретизация рассуждений через короткие аргументы + внешняя оценка качества каждого узла даёт явную прозрачность — можно инспектировать граф и видеть почему модель решила так. Галлюцинированные аргументы получают низкие оценки (0.05) и не влияют на финал, в отличие от CoT где всё смешано в одном тексте. Формальная семантика DF-QuAD математически гарантирует консистентность агрегации вместо непредсказуемого вывода LLM-судьи. Удивительное: простое мажоритарное голосование 3 LLM даёт почти ту же точность что лучшая одиночная модель (0.724 vs 0.710 на Truth), но MArgE выжимает +11% из тех же моделей (0.837) через структурированное объединение. Это показывает что способ агрегации важнее чем просто «больше моделей».

Инсайт для практики: Если ты используешь несколько LLM (например, GPT + Claude) для сложной задачи, структурируй их выводы как дерево аргументов вместо свободного дебата. Попроси каждую модель дать короткие конкретные аргументы за/против, оцени каждый, покажи связи. Финальное решение принимай на основе агрегированной силы аргументов, а не на основе «кто убедительнее написал» — это даст более объективный и прозрачный результат.

📄

Оригинал из исследования

Контекст: Исследователи описывают как генерировать аргументы для каждой модели. Вот оригинальный промпт для Llama-3.1-8B-Instruct (из Appendix A):

You are an impartial analyst. Do not apologise or say "I'm sorry" in any response.

## Task
Read the claim below and reason carefully about whether it is likely true or false. Then generate up to {num_args} factually grounded and relevant arguments that either agree with or disagree with the claim.

- If you judge the claim is more likely TRUE, output mostly "Agree" arguments.
- If you judge the claim is more likely FALSE, output mostly "Disagree" arguments.

Only include arguments you are confident in. Avoid hedging, speculation, and vague language.

## Format
Each argument must:
- Be one sentence under 30 words
- Start exactly with "Agree:" or "Disagree:"
- Be self-contained: do not refer to "the claim" or restate it directly
- Do not use bullets, numbering, or formatting

## Claim:
<claim>

## Instructions:
Think carefully. Then output up to {num_args} arguments, one per line, in the format "Agree: ..." or "Disagree: ...".

Контекст для оценки аргументов (Appendix A, GPT-4o-mini scorer):

You are an expert reasoning assistant evaluating individual arguments in the context of a factual claim.

Task: Read the claim and the associated argument below.
- Evaluate how directly the argument addresses the claim.
- Consider whether the argument is factually grounded, or relies on assumptions or anecdotal evidence.
- Assess ambiguity, generalisation, or irrelevance that may weaken the argument.

Then, select a certainty label from the list below that reflects how persuasive the argument is. Do not explain your answer.

Certainty Labels:
- certain
- almost certain
- quite certain
- moderately certain
- slightly certain
- almost uncertain
- uncertain

Claim: "<claim>"
Argument: "<argument>"
Output: Certainty:

Эти промпты показывают точную механику метода: чёткие инструкции на короткие атомарные аргументы (<30 слов), явный формат с префиксами "Agree:"/"Disagree:", запрет на хеджирование и неопределённость, и структурированная оценка качества по дискретным лейблам (certain → uncertain), которые потом конвертируются в числа [0...1].

🔗

Ресурсы

MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification — Ming Pok Ng, Junqi Jiang, Gabriel Freedman, Antonio Rago, Francesca Toni (Imperial College London, King's College London). Preprint. Основывается на ArgLLMs (Freedman et al. 2025), DF-QuAD (Rago et al. 2016), и computational argumentation frameworks.

📋 Дайджест исследования

Ключевая суть

Принцип работы

Виртуальный спор через дерево оценок. Каждая из трёх моделей генерирует дерево аргументов за/против (глубина 1-2 уровня, до 3 аргументов на узел). Деревья объединяются - каждый аргумент получает оценку 0-1 от внешнего скорера (релевантность, фактичность, определённость). Алгоритм DF-QuAD пересчитывает силу каждого узла: базовая оценка ± влияния атак и поддержек от других аргументов. Если сила корня > 0.5 → утверждение верное, иначе ложное.

Почему работает

LLM в одном промпте плывут - генерируют противоречивые аргументы без структуры, финальный ответ может игнорировать часть рассуждений. В дебатах между моделями всё растворяется в итоговом выводе судьи. Короткие атомарные аргументы с явными связями убирают двусмысленность - каждый узел инспектируемый. Внешняя оценка каждого аргумента независимо - галлюцинации получают низкие баллы (0.05-0.20). Формальная семантика даёт математическую гарантию: сильный аргумент (0.8) с поддержками перевесит слабые атаки (0.3), но связка сильных атак (0.9) нивелирует даже качественные аргументы если их мало. Это предсказуемая математика вместо чёрного ящика LLM-судьи.

Когда применять

Проверка фактических утверждений → конкретно для сложных многогранных заявлений (бизнес-стратегии, факт-чекинг, медицинские/научные гипотезы), особенно когда нужна прозрачная цепочка рассуждений с разных углов. НЕ подходит для простых фактов ("столица Франции") или субъективных/креативных задач.

Мини-рецепт

1. Задай роли экспертов: 2-3 роли с разными перспективами (для бизнеса: маркетолог, финансист, продуктовик; для медицины: терапевт, исследователь, пациент)
2. Генерация аргументов: Каждый эксперт даёт 2-3 аргумента ЗА или ПРОТИВ утверждения - одно предложение до 30 слов, начинается с "За:" или "Против:"
3. Оцени качество: Каждый аргумент по шкале 0-10 (релевантность + фактичность + определённость)
4. Покажи связи: Какие аргументы поддерживают друг друга, какие опровергают или ослабляют
5. Финальный вердикт: Посчитай среднюю силу "За" и "Против" с учётом оценок и связей - если сила "За" больше → утверждение скорее ВЕРНОЕ, иначе → НЕВЕРНОЕ

Примеры

[ПЛОХО] : Проверь: "Бесплатный тариф разгонит аудиторию в 10 раз"

[ХОРОШО] :

Утверждение: "Бесплатный тариф навсегда разгонит аудиторию SaaS для малого бизнеса в России в 10 раз за полгода". Действуй как 3 эксперта: 1) маркетолог B2B SaaS, 2) продуктовый директор, 3) финансовый аналитик. Каждый даёт 2-3 аргумента ЗА/ПРОТИВ (до 30 слов, начинай с "За:" или "Против:"). После получения всех: оцени каждый 0-10 (релевантность, фактичность, определённость), покажи связи (какие поддерживают/опровергают), дай вердикт - посчитай среднюю силу с учётом оценок и связей.

Источник: MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification

ArXiv ID: 2508.02584 | Сгенерировано: 2026-01-12 05:42

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню