3,583 papers
arXiv:2512.13725 73 13 дек. 2025 г. FREE

Структурированная подача причин-следствий: как помочь LLM с интервенционными вопросами

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM проваливаются именно на интервенционных вопросах («что будет, если сделать X?»). Ассоциации («почему это случилось») и контрфакты («что было бы») даются легче — а вот изолировать причину от следствия модель не может. Путает корреляцию с причинностью. Метод позволяет получать точные прогнозы эффектов от действий — «если поднять цену на 50%, как изменится выручка через 6 месяцев». Фишка: подаёшь явный граф связей вместо абстрактного вопроса. «Цена → отток → база клиентов → выручка». Модель следует по готовым стрелкам, не реконструирует из памяти. Структура заменяет догадки фактами — модель идёт по карте, а не блуждает.
Адаптировать под запрос

TL;DR

Лестница Перла разделяет причинно-следственные рассуждения на три уровня: ассоциация ("почему это случилось?"), интервенция ("что будет, если сделать X?") и контрфакт ("что было бы, если бы?"). Исследование показывает, что модели справляются с этими уровнями по-разному — и интервенционные вопросы оказались самыми чувствительными к ошибкам.

Когда спрашиваешь модель "что будет, если повысить цену", она должна изолировать это действие от других факторов — отделить причину от следствия. Это сложнее, чем объяснить "почему продажи упали" (ассоциация) или представить "что было бы, если бы не повышали" (контрфакт). Модель может спутать корреляцию с причинностью или учесть лишние факторы.

Явная подача структуры причин-следствий в промпт улучшает точность интервенционных рассуждений. Вместо абстрактного вопроса дай модели граф связей: "X влияет на Y, Y влияет на Z, но W — внешний фактор". Структура заменяет догадки фактами, модель следует по готовым связям вместо реконструкции из памяти.


🔬

Схема метода

ШАГ 1: Построй граф причин-следствий
→ "X → Y → Z, W не зависит от X"

ШАГ 2: Задай интервенционный вопрос с опорой на граф
→ "Если изменить X, как изменится Z?"

Выполняется в одном промпте или двух запросах

🚀

Пример применения

Задача: Решаешь, стоит ли поднять цену на подписку SaaS-сервиса. Нужно понять эффект на выручку с учётом оттока клиентов.

Промпт:

Построй граф причинно-следственных связей:

Цена подписки → Отток клиентов
Отток клиентов → Число активных пользователей
Число активных пользователей → Выручка
Цена подписки → Выручка от одного клиента
Выручка от одного клиента + Число активных пользователей → Общая выручка

Внешние факторы (не зависят от цены):
- Качество продукта
- Конкуренты на рынке

Теперь интервенционный вопрос:
Если повысить цену подписки с 990₽ до 1490₽ (+50%), как изменится общая выручка через 6 месяцев? Учитывай только прямые причинно-следственные связи из графа.

Результат:

Модель пройдёт по графу связей: сначала оценит влияние цены на отток (через исторические данные или допущения), затем рассчитает эффект на активную базу, и наконец — на выручку. Ты увидишь пошаговый анализ по каждой связи и итоговый прогноз с обоснованием. Структура графа не даст модели учесть нерелевантные факторы ("качество продукта") в расчёте эффекта цены.


🧠

Почему это работает

Модели путают корреляцию с причинностью при интервенционных вопросах. Когда спрашиваешь "что будет, если", модель должна мысленно "отрезать" все связи кроме прямого воздействия. Но без явной структуры она опирается на статистические паттерны из обучения — а там причины смешаны со случайными корреляциями.

Явный граф причин действует как внешний каркас рассуждений. Модель не реконструирует связи из памяти — она следует по готовым стрелкам. Это снижает нагрузку на внутренние представления и уменьшает риск включить лишние факторы.

Интервенционные запросы чувствительнее других к шуму в представлениях модели. Ассоциация ("почему") требует найти корреляцию — это модели делают хорошо. Контрфакты ("что было бы") опираются на нарративную логику — тоже сильная сторона. Но интервенция ("что будет если сделать") требует изоляции переменных и композиционного рассуждения — именно здесь структура помогает сильнее всего.

Рычаги управления: - Детализация графа — больше узлов и связей → точнее, но медленнее; для простых задач достаточно 3-5 узлов - Внешние факторы — явно укажи что НЕ зависит от интервенции, чтобы модель не учитывала лишнее - Числовые оценки связей — добавь веса ("цена → отток: сильная связь") для количественных прогнозов - Последовательность вопросов — сначала построй граф, потом задай интервенционный вопрос отдельным сообщением — даёт чище фокус


📋

Шаблон промпта

Построй граф причинно-следственных связей для {ситуация}:

{переменная_1} → {переменная_2}
{переменная_2} → {переменная_3}
{переменная_1} → {переменная_4}
...

Внешние факторы (не зависят от {переменная_интервенции}):
- {внешний_фактор_1}
- {внешний_фактор_2}

Теперь интервенционный вопрос:
Если изменить {переменная_интервенции} с {текущее_значение} на {новое_значение}, как изменится {переменная_результата}? Учитывай только прямые причинно-следственные связи из графа.

Заполнение: - {ситуация} — контекст твоей задачи - {переменная_N} — факторы, которые влияют друг на друга - {переменная_интервенции} — что ты меняешь - {переменная_результата} — что хочешь предсказать - {внешние_факторы} — что НЕ меняется от твоего действия

Стрелки → показывают направление влияния. Если A влияет на B, пиши A → B.


📌

Лестница Перла: как формулировать вопросы

Три уровня причинно-следственных рассуждений:

Rung 1 — Ассоциация ("видеть") - Вопросы: Почему? Как связано? Что коррелирует? - Пример: "Почему выросла выручка в Q2?" - Что делает модель: Находит корреляции в данных

Rung 2 — Интервенция ("делать") - Вопросы: Что будет если? Какой эффект от действия? - Пример: "Что будет с выручкой, если добавить функцию X?" - Что делает модель: Изолирует причину от других факторов - ⚠️ Самый сложный уровень для LLM — требует разделения причин

Rung 3 — Контрфакт ("воображать") - Вопросы: Что было бы если? Как изменилось бы прошлое? - Пример: "Что было бы с выручкой, если бы не добавляли функцию X?" - Что делает модель: Строит альтернативную историю

Когда использовать граф причин: - ✅ Интервенционные вопросы (Rung 2) — наибольший эффект - ✅ Сложные контрфакты с несколькими факторами - ⏸️ Простые ассоциации — модель справится без структуры


⚠️

Ограничения

⚠️ Граф требует знания связей: Ты должен знать или угадать структуру причин. Если связи неизвестны — метод не поможет, модель не "откроет" настоящие причины.

⚠️ Не для субъективных критериев: Метод работает для объективных переменных (цена, отток, трафик). Для оценок вроде "насколько креативно" структура причин не применима.

⚠️ Модель не проверяет граф: Если подашь неправильные связи ("реклама → погода"), модель будет рассуждать по ним. Garbage in, garbage out.


🔍

Как исследовали

Тестировали Llama-3-8B на CLadder — бенчмарке с 3000 задач, равномерно распределённых по трём уровням лестницы Перла. Задачи включают бэкдор-коррекцию, коллайдер-смещение, естественные эффекты и другие типы причинно-следственных операций.

Сравнивали три режима: - BF16 (полная точность) - INT8 (8-бит сжатие) - NF4 (4-бит сжатие)

Вывод: точность рассуждений почти не падает даже при сжатии до 4 бит (NF4: −0.1% от базовой). Но интервенционные запросы показали наибольшую вариативность (дисперсия в 5 раз выше, чем у ассоциации).

GraphRAG эксперимент: Подавали в промпт топ-3 релевантных причинно-следственных факта из базы знаний перед вопросом. Результат: +1.7% точность для интервенций в NF4, статистически значимо (p < 0.01).

CRASS бенчмарк (здравомысленные контрфакты, multiple choice) не показал чувствительности к сжатию — точность 26.7% во всех режимах, почти уровень случайного выбора. Это значит, что "бытовые" контрфакты типа "что если бы я не взял зонт" слишком просты для диагностики тонких эффектов.

Основной инсайт исследования: сжатие моделей не вредит причинно-следственным рассуждениям, но структурированная подача контекста улучшает интервенционную точность даже в сжатых моделях.


🔗

Ресурсы

Compressed Causal Reasoning: Quantization and GraphRAG Effects on Interventional and Counterfactual Accuracy — Steve Nwaiwu, Nipat Jongsawat, Anucha Tungkasthan (Rajamangala University of Technology, Thailand)

Бенчмарк CLaddergithub.com/causalNLP/cladder (структурированная оценка причинно-следственных рассуждений по лестнице Перла)


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM проваливаются именно на интервенционных вопросах («что будет, если сделать X?»). Ассоциации («почему это случилось») и контрфакты («что было бы») даются легче — а вот изолировать причину от следствия модель не может. Путает корреляцию с причинностью. Метод позволяет получать точные прогнозы эффектов от действий — «если поднять цену на 50%, как изменится выручка через 6 месяцев». Фишка: подаёшь явный граф связей вместо абстрактного вопроса. «Цена → отток → база клиентов → выручка». Модель следует по готовым стрелкам, не реконструирует из памяти. Структура заменяет догадки фактами — модель идёт по карте, а не блуждает.

Принцип работы

Вместо «что будет если повысить цену» даёшь модели карту причин-следствий: «Цена → отток клиентов → активная база → выручка. Качество продукта — внешний фактор, не зависит от цены». Модель не угадывает связи из статистических паттернов обучения — она идёт по твоим стрелкам. Это как навигатор вместо блуждания по памяти. Навигатор говорит «поворот налево через 100 метров», блуждание — «вроде где-то тут был поворот».

Почему работает

Модели путают корреляцию с причинностью при вопросах типа «что будет если». Должны мысленно отрезать все лишние связи — оставить только прямое воздействие. Но без явной структуры опираются на статистику из обучения, а там причины смешаны со случайными корреляциями. Явный граф действует как внешний каркас рассуждений. Модель не держит структуру в голове — она следует по готовым узлам графа. Снижается нагрузка на внутренние представления, уменьшается риск включить лишние факторы. Интервенционные запросы (Rung 2 по лестнице Перла) — самый чувствительный уровень к шуму в представлениях. Ассоциации модели делают хорошо, контрфакты опираются на нарративную логику — тоже сильная сторона. А вот изоляция переменных для интервенции — именно здесь структура помогает сильнее всего.

Когда применять

Интервенционные вопросы → конкретно для прогнозов эффектов от действий: изменение цены, добавление функции, запуск кампании. Особенно когда нужно отделить прямое влияние от косвенных факторов. Подходит для бизнес-анализа (прогноз выручки от решений), продуктовой стратегии (эффект новой фичи), маркетинга (влияние канала на конверсию). НЕ подходит для субъективных критериев («насколько креативно») и когда структура причин неизвестна — метод требует знания связей заранее.

Мини-рецепт

1. Построй граф связей: Выпиши переменные и стрелки влияния. Цена → Отток, Отток → База клиентов, База → Выручка. Если A влияет на B — пиши A → B.

2. Укажи внешние факторы: Перечисли что НЕ зависит от твоей интервенции. «Качество продукта, конкуренты — внешние факторы». Чтобы модель не учитывала лишнее.

3. Задай вопрос с привязкой к графу: «Если изменить [переменная] с [старое] на [новое], как изменится [результат]? Учитывай только прямые связи из графа».

4. Опционально — два запроса: Сначала построй граф отдельным сообщением, потом задай интервенционный вопрос. Даёт чище фокус на каждом этапе.

Примеры

[ПЛОХО] : Что будет с выручкой, если поднять цену на подписку с 990₽ до 1490₽? (Модель угадывает связи из памяти, может учесть нерелевантные факторы или спутать корреляцию с причинностью)
[ХОРОШО] : Построй граф: Цена подписки → Отток клиентов → Число активных → Выручка. Внешние факторы (не зависят от цены): качество продукта, конкуренты. Теперь вопрос: если повысить цену с 990₽ до 1490₽, как изменится выручка через 6 месяцев? Учитывай только прямые связи из графа. (Модель идёт по стрелкам: сначала влияние цены на отток, потом отток на базу, потом база на выручку — пошаговый анализ вместо общих рассуждений)
Источник: Compressed Causal Reasoning: Quantization and GraphRAG Effects on Interventional and Counterfactual Accuracy
ArXiv ID: 2512.13725 | Сгенерировано: 2026-01-10 00:16

Проблемы LLM

ПроблемаСутьКак обойти
Интервенционные вопросы ("что будет если") — модель путает корреляцию с причинностьюЗапрос "что будет если поднять цену" — модель опирается на статистические паттерны из обучения, включает случайные корреляции вместо прямых причинно-следственных связей; интервенции (Rung 2) чувствительнее к этой проблеме чем ассоциации ("почему") или контрфакты ("что было бы")Дай явный граф причин: Цена Отток Выручка, Качество не зависит от Цены. Затем вопрос: "Если изменить Цену, как изменится Выручка? Учитывай только связи из графа"

Методы

МетодСуть
Граф причин-следствий A B C перед интервенционным вопросом — против смешивания факторовПеред вопросом "что будет если X" построй граф связей: Цена Отток Выручка, Качество не зависит от Цены. Затем задай вопрос с привязкой: "Если изменить X, как изменится Z? Учитывай только связи из графа". Модель следует готовым стрелкам вместо реконструкции из памяти — снижает риск включить лишние факторы. Укажи внешние факторы явно (что НЕ зависит от интервенции). Для: интервенционные вопросы (Rung 2 по лестнице Перла), сложные контрфакты с несколькими факторами. НЕ для: простые "почему" (ассоциации), субъективные критерии ("насколько креативно"). Ограничение: ты должен знать структуру причин заранее — модель не откроет настоящие связи, если подашь неправильный граф

Тезисы

ТезисКомментарий
Интервенционные вопросы ("что будет если") чувствительнее к структуре чем "почему" или "что было бы""Почему упали продажи?" (ассоциация, Rung 1) — модель находит корреляции, справляется хорошо. "Что будет если поднять цену?" (интервенция, Rung 2) — требует изоляции переменных, модель путается без явной структуры. "Что было бы если не поднимали?" (контрфакт, Rung 3) — нарративная логика, тоже сильная сторона. Применяй: используй граф причин для интервенций (наибольший эффект), для простых "почему" необязательно
📖 Простыми словами

Структурированная подача причин-следствий: как помочь LLM с интервенционными вопросами

arXiv: 2512.13725

LLM не понимают причинно-следственные связи так, как мы — они просто гадают на основе статистики. В науке это называют лестницей Перла: сначала ты видишь совпадения, потом понимаешь, что будет, если вмешаться, и в финале можешь представить, что было бы, если бы все пошло иначе. Проблема в том, что нейронки застревают на первом этапе. Они отлично находят корреляции, но когда дело доходит до интервенции — прямого вопроса «что изменится, если я сделаю Х?» — их мозг начинает плавиться, потому что они не видят структуры мира, а только текст.

Это как если бы ты спросил у человека, почему на улице мокро, а он ответил: «Потому что люди ходят с зонтами». Модель видит, что зонты и мокрый асфальт всегда рядом, и делает вывод, что зонты вызывают сырость. Она не понимает, что есть третья сила — дождь, которая влияет на всё сразу. В итоге, когда ты просишь AI предсказать результат твоего действия, он выдает тебе статистический бред, принимая следствие за причину.

Исследование четко разделяет три уровня сложности: ассоциация, интервенция и контрфакт. Самый большой облом случился именно на интервенциях — вопросах в духе «а что, если мы поднимем цену?». Модели лажают здесь чаще всего, потому что не умеют мысленно «отрезать» лишние связи. Чтобы это исправить, ученые тестируют GraphRAG — это когда модели дают не просто кучу текста, а четкую карту связей, где стрелочками показано, что на что влияет. Без такой «шпаргалки» даже самые мощные модели превращаются в гадалок на кофейной гуще.

Этот принцип универсален: он касается не только сухих графиков, но и бизнеса, медицины или кодинга. Если ты просишь ChatGPT проанализировать падение продаж или эффект от нового лекарства, помни — он видит паттерны, а не логику. Пока ты не дашь ему структуру или не заставишь использовать GraphRAG, он будет выдавать случайные совпадения за глубокую аналитику. SEO для смыслов здесь не поможет, нужна жесткая иерархия данных.

Короче: не надейся, что AI сам поймет, как устроены процессы в твоем проекте. Интервенционные задачи — это зона риска, где модели ошибаются чаще всего. Если хочешь адекватный прогноз, корми нейронку не просто логами, а готовыми графами знаний. Иначе ты получишь ответ, который звучит уверенно, но на деле является полной фигней, построенной на случайном совпадении слов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с