TL;DR
MArgE (Meshing Argumentative Evidence) — метод, который собирает аргументы от нескольких LLM в единую структуру для проверки утверждений. Каждая модель генерирует дерево аргументов «за» и «против» утверждения (до 3 аргументов на каждый узел, глубина 1-2 уровня). Деревья объединяются, каждый аргумент получает числовую оценку качества от внешнего скорера, затем применяется формальная аргументационная семантика (DF-QuAD) — математический алгоритм, который пересчитывает силу каждого аргумента с учётом его поддержки и атак. Финальный вердикт определяется обновлённой силой корневого утверждения.
Обычные методы (мажоритарное голосование, свободные дебаты между LLM) либо игнорируют нюансы мнений, либо теряют структуру рассуждений в неструктурированном тексте. CoT-выводы от одной модели часто содержат противоречивые аргументы внутри одного куска текста и могут не отражать реальное рассуждение модели (риск галлюцинаций). В многомодельных дебатах невозможно отследить как конкретные аргументы влияют на финальное решение — всё растворяется в общем выводе судьи-LLM. MArgE делает разногласия видимыми и формализованными: вместо чёрного ящика читатель видит граф с конкретными аргументами, их оценками качества и математически вычисленными силами влияния.
MArgE решает проблему через дискретизацию рассуждений: короткие атомарные аргументы вместо сплошного текста, явные связи support/attack между узлами, внешняя оценка каждого узла по качеству (релевантность, фактичность, определённость), и математическая агрегация через аргументационную семантику. Это даёт прозрачную цепочку: утверждение → аргументы → оценки → обновлённые силы → вердикт. Каждый шаг инспектируемый, галлюцинации получают низкие оценки и не влияют на финал.
Схема метода
ШАГ 1: Генерация деревьев аргументов
Каждая LLM (3 модели) → дерево аргументов за/против (глубина 1-2)
Формат: корень = утверждение, узлы = короткие аргументы (<30 слов)
ШАГ 2: Объединение деревьев
Вариант A: простое объединение всех аргументов
Вариант B: слияние семантически похожих через sentence embeddings
ШАГ 3: Оценка качества аргументов
Внешняя LLM (GPT-4o-mini) → оценка каждого аргумента [0...1]
Критерии: релевантность, фактичность, определённость
Результат: QBAF (Quantitative Bipolar Argumentation Framework)
ШАГ 4: Обновление сил через семантику
Алгоритм DF-QuAD → пересчёт силы каждого узла
Учитывает: базовую оценку + силы атакующих/поддерживающих
Финал: обновлённая сила корня > 0.5 → True, иначе → False
Все шаги выполняются программно (код, API), но принципы можно использовать вручную в чате.
Пример применения
⚠️ Зона применимости: Метод силён для проверки фактических утверждений, где нужна глубокая проверка с разных сторон: факт-чекинг, анализ медицинских/научных заявлений, оценка стратегических решений. Не подходит для субъективных/креативных задач или простых фактов (столица страны).
Задача: Ты запускаешь SaaS для малого бизнеса в России. Партнёр предлагает: "Давай сделаем бесплатный тариф навсегда — это разгонит аудиторию в 10 раз за полгода". Нужно проверить это утверждение с разных углов.
Промпт:
У меня есть утверждение про бизнес-стратегию: "Бесплатный тариф навсегда разгонит аудиторию SaaS для малого бизнеса в России в 10 раз за полгода".
Действуй как 3 эксперта с разным опытом:
1. Маркетолог B2B SaaS
2. Продуктовый директор
3. Финансовый аналитик
Каждый эксперт:
- Сгенерируй 2-3 аргумента ЗА или ПРОТИВ утверждения
- Каждый аргумент — одно предложение до 30 слов
- Начинай с "За:" или "Против:"
- Будь конкретным, избегай общих фраз
После получения всех аргументов:
1. Оцени каждый аргумент по шкале 0-10 (релевантность + фактичность + определённость)
2. Покажи как аргументы поддерживают или атакуют друг друга
3. Дай финальный вердикт с учётом всех сил аргументов
Результат:
Модель покажет 3 блока аргументов от каждого эксперта — маркетолог может дать 2 аргумента «За» и 1 «Против», продуктовик — 1 «За» и 2 «Против», финансист — 3 «Против». Затем модель присвоит числовые оценки каждому (например: "Бесплатный тариф снизит воспринимаемую ценность продукта" — 8/10, "Freemium работает для Slack и Notion" — 6/10). После этого покажет связи между аргументами (какие поддерживают друг друга, какие опровергают) и финальный вердикт с обоснованием: "Аргументы против перевешивают (средняя сила 7.2 vs 5.8), вердикт: утверждение скорее неверное для контекста малого бизнеса в России".
Почему это работает
Слабость LLM: Модель в одном промпте может генерировать противоречивые аргументы внутри одного текста без чёткой структуры. CoT-выводы часто содержат одновременно и «за» и «против», но финальный ответ может игнорировать часть рассуждений или быть результатом галлюцинации, не связанной с явным текстом. В multi-LLM дебатах всё растворяется в итоговом выводе судьи — невозможно отследить какой конкретно аргумент повлиял на решение и насколько.
Сильная сторона LLM: Модели хороши в генерации коротких атомарных аргументов по запросу, в оценке качества текста по критериям (релевантность, фактичность), и в следовании структурированным инструкциям (теги, псевдокод, роли). Когда задача декомпозирована на мелкие чёткие шаги, модель показывает лучшие результаты.
Как метод использует силу: MArgE дискретизирует рассуждения: вместо сплошного текста — дерево коротких аргументов с явными связями support/attack. Это убирает двусмысленность и делает каждый аргумент инспектируемым. Внешний скорер оценивает качество каждого узла независимо — галлюцинации получают низкие оценки (0.05-0.20) и не влияют на финал. Формальная семантика (DF-QuAD) математически агрегирует влияния: сильный аргумент с высокой оценкой и множеством поддержек перевесит слабые атаки, а сильные атаки нивелируют даже качественные аргументы если последних мало. Это математическая гарантия консистентности вместо непредсказуемого вывода LLM-судьи.
Рычаги управления (для адаптации в чате):
- Глубина дерева (1-2 уровня) → больше глубина = больше детализация, но медленнее и дороже
- Число аргументов на узел (1-3) → больше аргументов = шире охват, но риск повторений
- Критерии оценки (релевантность, фактичность, определённость) → можно добавить свои критерии под задачу (например, "реалистичность для российского рынка")
- Порог вердикта (0.5) → повысь до 0.6-0.7 для более консервативного "True"
- Роли экспертов → дай конкретные имена/роли вместо безликих LLM1/LLM2 для острее выполнения роли
Шаблон промпта
У меня есть утверждение: "{утверждение}"
Действуй как {число} экспертов с разными взглядами: {описание ролей экспертов}.
Каждый эксперт:
- Сгенерируй {число_аргументов} аргументов ЗА или ПРОТИВ утверждения
- Каждый аргумент — одно предложение до 30 слов
- Начинай с "За:" или "Против:"
- Будь конкретным, без общих фраз и хеджирования
После получения всех аргументов:
1. Оцени каждый аргумент по шкале 0-10:
- Релевантность: прямо ли относится к утверждению?
- Фактичность: опирается на факты или на предположения?
- Определённость: конкретный или размытый?
2. Покажи связи между аргументами:
- Какие аргументы поддерживают друг друга?
- Какие опровергают или ослабляют?
3. Дай финальный вердикт:
- Посчитай среднюю силу аргументов "За" и "Против" с учётом оценок и связей
- Если сила "За" > сила "Против" → утверждение скорее ВЕРНОЕ
- Иначе → утверждение скорее НЕВЕРНОЕ
- Объясни почему в 2-3 предложениях
Плейсхолдеры:
{утверждение}— проверяемое утверждение{число}— количество экспертов/ролей (обычно 2-3){описание ролей экспертов}— конкретные роли с разными перспективами{число_аргументов}— сколько аргументов генерировать (1-3 на эксперта)
🚀 Быстрый старт — вставь в чат:
Вот шаблон MArgE для проверки утверждений через структурированные аргументы. Адаптируй под мою задачу: [твоя задача проверки утверждения].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какое утверждение проверить, какие роли экспертов подойдут (например: для бизнес-утверждения — маркетолог, финансист, продуктовик; для медицинского — терапевт, исследователь, пациент), сколько аргументов генерировать. Она возьмёт паттерн структурированной генерации аргументов + оценки + связей из шаблона и адаптирует под задачу. Ты получишь рабочий промпт с прозрачной логикой проверки.
Ограничения
⚠️ Сложность применения в чате: Полная реализация требует кода (3 LLM параллельно, парсинг деревьев, вычисление DF-QuAD семантики). Адаптация для чата упрощает метод — теряется параллелизм моделей (в чате последовательные запросы), точность формальной семантики (вручную оценивать связи сложнее), и скорость (больше токенов и времени). Но принцип структурированных аргументов с оценкой работает.
⚠️ Не для простых фактов: Метод избыточен для проверки «столица Франции» или «2+2=4». Эффективен для сложных многогранных утверждений, где нужна глубокая проверка с разных углов (бизнес-стратегии, медицинские заявления, научные гипотезы, спорные факты).
⚠️ Требует чёткого утверждения: Метод работает с конкретными проверяемыми утверждениями (True/False). Для открытых вопросов («Как улучшить продукт?») или субъективных задач («Напиши креативный текст») структура аргументов за/против не применима.
⚠️ Стоимость токенов: Даже в упрощённой версии метод генерирует много текста (аргументы от 2-3 «экспертов», оценки каждого, описание связей). В реальной реализации MArgE с 3 моделями и глубиной 2 использует в 8 раз больше входных токенов для скорера чем baseline методы, хотя меньше выходных токенов. Для задач где точность критична — оправдано, для рутинных — может быть дорого.
⚠️ Чувствительность к домену: На медицинских утверждениях (MedClaim dataset) MArgE показывает более слабые результаты (-2.7% vs GPT-4o-mini) — вероятно потому что open-source модели (Llama, Mistral, Phi) не специализированы в медицине и генерируют менее качественные аргументы. Для доменов требующих глубокой экспертизы метод работает хуже если модели-генераторы не обучены на домене.
Как исследовали
Исследователи взяли 3 open-source LLM разного размера (Llama-3.1-8B, Mistral-7B, Phi-3-Mini-4B) и GPT-4o-mini как внешний скорер качества аргументов. Протестировали на 3 датасетах для проверки утверждений: TruthfulClaim (устойчивость к распространённым заблуждениям), StrategyQA (multi-hop рассуждения), MedClaim (доменная экспертиза в медицине). Каждый датасет — 500 утверждений (250 True, 250 False).
Сравнивали с 6 базовыми методами: одиночные LLM с CoT промптингом, ансамбль LLM (мажоритарное голосование), ансамбль ArgLLM (каждая модель строит своё дерево аргументов отдельно, потом голосование), multi-LLM debate с GPT-судьёй, и сам GPT-4o-mini напрямую. Главная находка: MArgE превосходит все методы на 2 из 3 датасетов, улучшая точность на 3.5% vs GPT-4o-mini на TruthfulClaim и 1.0% на StrategyQA. Интересно, что ансамбль LLM часто хуже лучшей одиночной модели (из-за доминирования менее точных моделей), а MArgE решает это через структурированное объединение аргументов. На MedClaim MArgE отстаёт (-2.7%), что показывает важность доменной экспертизы в моделях-генераторах.
Почему пришли к таким выводам: Дискретизация рассуждений через короткие аргументы + внешняя оценка качества каждого узла даёт явную прозрачность — можно инспектировать граф и видеть почему модель решила так. Галлюцинированные аргументы получают низкие оценки (0.05) и не влияют на финал, в отличие от CoT где всё смешано в одном тексте. Формальная семантика DF-QuAD математически гарантирует консистентность агрегации вместо непредсказуемого вывода LLM-судьи. Удивительное: простое мажоритарное голосование 3 LLM даёт почти ту же точность что лучшая одиночная модель (0.724 vs 0.710 на Truth), но MArgE выжимает +11% из тех же моделей (0.837) через структурированное объединение. Это показывает что способ агрегации важнее чем просто «больше моделей».
Инсайт для практики: Если ты используешь несколько LLM (например, GPT + Claude) для сложной задачи, структурируй их выводы как дерево аргументов вместо свободного дебата. Попроси каждую модель дать короткие конкретные аргументы за/против, оцени каждый, покажи связи. Финальное решение принимай на основе агрегированной силы аргументов, а не на основе «кто убедительнее написал» — это даст более объективный и прозрачный результат.
Оригинал из исследования
Контекст: Исследователи описывают как генерировать аргументы для каждой модели. Вот оригинальный промпт для Llama-3.1-8B-Instruct (из Appendix A):
You are an impartial analyst. Do not apologise or say "I'm sorry" in any response.
## Task
Read the claim below and reason carefully about whether it is likely true or false. Then generate up to {num_args} factually grounded and relevant arguments that either agree with or disagree with the claim.
- If you judge the claim is more likely TRUE, output mostly "Agree" arguments.
- If you judge the claim is more likely FALSE, output mostly "Disagree" arguments.
Only include arguments you are confident in. Avoid hedging, speculation, and vague language.
## Format
Each argument must:
- Be one sentence under 30 words
- Start exactly with "Agree:" or "Disagree:"
- Be self-contained: do not refer to "the claim" or restate it directly
- Do not use bullets, numbering, or formatting
## Claim:
<claim>
## Instructions:
Think carefully. Then output up to {num_args} arguments, one per line, in the format "Agree: ..." or "Disagree: ...".
Контекст для оценки аргументов (Appendix A, GPT-4o-mini scorer):
You are an expert reasoning assistant evaluating individual arguments in the context of a factual claim.
Task: Read the claim and the associated argument below.
- Evaluate how directly the argument addresses the claim.
- Consider whether the argument is factually grounded, or relies on assumptions or anecdotal evidence.
- Assess ambiguity, generalisation, or irrelevance that may weaken the argument.
Then, select a certainty label from the list below that reflects how persuasive the argument is. Do not explain your answer.
Certainty Labels:
- certain
- almost certain
- quite certain
- moderately certain
- slightly certain
- almost uncertain
- uncertain
Claim: "<claim>"
Argument: "<argument>"
Output: Certainty:
Эти промпты показывают точную механику метода: чёткие инструкции на короткие атомарные аргументы (<30 слов), явный формат с префиксами "Agree:"/"Disagree:", запрет на хеджирование и неопределённость, и структурированная оценка качества по дискретным лейблам (certain → uncertain), которые потом конвертируются в числа [0...1].
Ресурсы
MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification — Ming Pok Ng, Junqi Jiang, Gabriel Freedman, Antonio Rago, Francesca Toni (Imperial College London, King's College London). Preprint. Основывается на ArgLLMs (Freedman et al. 2025), DF-QuAD (Rago et al. 2016), и computational argumentation frameworks.
