TL;DR
LLM выдаст тебе убедительный вывод в поддержку почти любой позиции — если ты спросишь в нужной рамке. Та же модель, те же данные, тот же набор «честных» методов — и два агента получают прямо противоположные, оба статистически значимые, оба публикуемые результаты. Это не баг конкретной задачи. Это устройство языковых моделей: они оптимизируют под убедительность, не под истину.
Главная проблема — ответ кажется надёжным, пока никто специально не пытался его сломать. Когда ты просишь «проанализируй» или «оцени», модель строит самую связную нарративную цепочку из доступных данных. Не самую правдивую — самую гладкую. Это нормально для простых задач. Опасно — когда ставки высоки.
Решение — принцип falsification-first: после того как модель выдала анализ, явно переключить её в режим «теперь сломай это». Не «найди ограничения», а «сделай всё возможное, чтобы опровергнуть собственный вывод». Или: запустить двух «агентов» в одном промпте с противоположными целями и сравнить что выживает.
Схема метода
Два варианта — выбирай под задачу:
Вариант A — Последовательный (два запроса):
ЗАПРОС 1: [обычный вопрос/задача] → модель выдаёт вывод
ЗАПРОС 2: "Теперь сыграй роль критика. Используй те же данные
и попробуй всё возможное, чтобы опровергнуть
предыдущий вывод." → модель атакует свой же ответ
Вариант B — Парный (один запрос, два агента):
АГЕНТ PRO: докажи [гипотезу X], используя [данные/контекст]
АГЕНТ ANTI: докажи [что X неверно], используя те же данные
СИНТЕЗ: какие аргументы выжили при обоих подходах?
Оба варианта работают в одном чате. Вариант B выдаёт результат за один запрос, но требует чуть больше усилий при составлении промпта.
Пример применения
Задача: Ты открыл тёмную кухню в Москве. Проработал полгода. Думаешь масштабироваться — зайти ещё в 2-3 города. ChatGPT посмотрел показатели и говорит «выглядит перспективно». Но ставки высоки — аренда, оборудование, найм.
Промпт (Вариант B):
У меня тёмная кухня в Москве. Работает 6 месяцев. Данные:
— Средний чек: 850 руб.
— Заказов в день: 35-40 (будни), 55-60 (выходные)
— Маржинальность блюд: ~65%
— Операционная прибыль: выходим в плюс 3-й месяц подряд
— Repeat rate: ~28% клиентов делают 2+ заказа
Сыграй роль двух аналитиков с противоположными позициями:
АНАЛИТИК PRO: используй эти данные и построй strongest possible case
за то, что масштабирование в Питер — правильный шаг прямо сейчас.
АНАЛИТИК ANTI: используй те же данные и построй strongest possible case
против масштабирования — почему это преждевременно или опасно.
После обоих аргументов: что выжило под давлением обоих позиций?
Где есть настоящая неопределённость, а не просто «с одной стороны,
с другой стороны»?
Результат: Модель выдаст два полноценных аргументированных кейса — за и против. Важно: она будет стараться в обоих направлениях, а не делать вид. PRO-аналитик найдёт реальные сигналы роста. ANTI-аналитик найдёт реальные риски, которые ты, возможно, игнорируешь (высокий weekend-to-weekday gap может означать зависимость от праздников, а не устойчивый спрос). В синтезе — то, что устояло с обеих сторон: это и есть надёжные данные для решения.
Почему это работает
LLM не ищет правду — она достраивает паттерн. Когда ты спрашиваешь «стоит ли масштабироваться?», модель генерирует текст, который выглядит как убедительный аналитический ответ. Она не взвешивает гипотезы против контрфактов — она строит связную историю из того, что есть. Если данные могут поддержать позитивный вывод, она его выдаст. Особенно если контекст намекает, что ты хочешь услышать «да».
Модель отлично умеет одно: генерировать текст из любой заданной точки зрения. Если явно поставить задачу «атакуй этот вывод», она с той же компетентностью найдёт аргументы против. Это не слабость — это рычаг. Ты используешь то, что модель делает хорошо, для обеих сторон вопроса.
Рычаги управления: - Сила «атаки» — вместо «найди ограничения» пиши «сделай всё возможное, чтобы разрушить этот вывод». Мягкая формулировка = мягкая критика. - Роль критика — дай имя: «Сыграй роль скептичного инвестора, который уже потерял деньги на похожих проектах». Конкретная роль даёт острее критику, чем безликий «аналитик». - Условие синтеза — вместо «что думаешь?» спроси «что выжило под обстрелом?». Модель не будет усреднять, а выделит устойчивые утверждения.
Шаблон промпта
Контекст задачи: {описание ситуации / вопроса / данных}
Сыграй роль двух аналитиков:
АНАЛИТИК PRO: построй максимально сильный аргумент В ПОЛЬЗУ {гипотеза}.
Используй только то, что есть в контексте. Будь конкретен.
АНАЛИТИК ANTI: построй максимально сильный аргумент ПРОТИВ {гипотеза}.
Используй те же данные. Не щади.
СИНТЕЗ: какие утверждения выдержали давление обоих аналитиков?
Где настоящая неопределённость — то, что ни одна сторона не смогла
убедительно закрыть?
Плейсхолдеры:
- {описание ситуации} — что происходит, данные, контекст
- {гипотеза} — конкретный тезис: «запустить продукт X», «уволить сотрудника Y», «вложить деньги в Z»
🚀 Быстрый старт — вставь в чат:
Вот шаблон Falsification-First. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про гипотезу и контекст — потому что без конкретного тезиса «против чего атаковать» метод не работает. Она возьмёт паттерн из шаблона и подстроит под твою задачу.
Почему это работает — механика
Авторы ставят точный диагноз: LLM-агент в анализе данных работает не как код, а как нарративный конструктор. Код проверяется реальностью: программа либо работает, либо нет. Анализ данных — нет. Один и тот же датасет про витамин D и депрессию одновременно поддерживает и опровергает гипотезу при «защищаемых» (defensible) аналитических выборах: как взвешивать выборку, какие ковариаты включать, как кодировать исход.
Это классический эффект модели предположений (multiverse analysis): аналитические решения — не нейтральные — они конструируют результат. Агент, оптимизирующий под «убедительный ответ», пройдёт через это пространство и найдёт то, что ищет.
Поппер, Фишер, Пёрл — авторы апеллируют к основам научного метода: утверждение сильно не тем, что его однажды подтвердили, а тем, что оно выжило при попытках опровержения. Это применимо не только в науке.
Ограничения
⚠️ Не работает для фактических вопросов: Если ответ однозначен — «столица России?» — метод бесполезен. Он нужен там, где данные недоопределены, а интерпретаций несколько.
⚠️ Критика только в рамках контекста: Модель будет атаковать то, что ты дал. Если в исходных данных системная слепая зона — она её не увидит. Метод снижает внутреннее смещение анализа, но не компенсирует недостающую информацию.
⚠️ Не замена реальной проверке: Авторы прямо говорят — adversarial prompting на существующих данных не закрывает вопрос. Это лучше, чем ничего, но слабее, чем новые независимые данные или эксперимент. Для высоких ставок — используй как фильтр, не как финальный ответ.
⚠️ Качество атаки зависит от формулировки: «Найди ограничения» даёт вежливый список. «Сделай всё возможное, чтобы разрушить вывод» — настоящую атаку. Мягкая инструкция = мягкая критика.
Как исследовали
Идея была простой и убийственной по дизайну: взять один реальный датасет (американское исследование питания NHANES 2017–2018, десятки тысяч участников) и запустить двух агентов с противоположными задачами. Агент A получил инструкцию: докажи, что высокий витамин D снижает депрессию. Агент B: докажи, что связи нет. Оба были ограничены «защищаемыми эпидемиологическими выборами» — никакого жульничества, только легитимные аналитические решения.
Результат: оба добились своего. Агент A нашёл статистически значимую отрицательную связь (p=0.0006). Агент B нашёл фактически ноль (p=0.855). Разница — в выборе весов, ограничения выборки, корректировки ковариат, конструкции исхода. Всё — оправданные решения при написании научной статьи.
Это не нужно было проверять на 50 датасетах. Один яркий пример показал то, что важно: агент не ищет правду в данных — он ищет путь к цели. А цель определяется промптом. Авторы указывают на структурную проблему: в науке долго не было инструмента опровержения в масштабе, потому что это дорого и не публикуется. Агенты делают проверку дешёвой — значит, её отсутствие больше нельзя оправдывать нехваткой времени.
Адаптации и экстраполяции
🔧 Техника: именованный скептик → острее атака
Вместо безликого «АНАЛИТИК ANTI» дай конкретную роль:
СКЕПТИК: Сыграй роль Михаила Токовинина (основатель amoCRM), который разобрал сотни стартапов и скептичен к красивым цифрам без unit economics. Атакуй мой план максимально жёстко.Конкретная личность с известным стилем мышления даёт более острую и специфичную критику, чем абстрактная роль.
🔧 Техника: каскадная фальсификация → проверка каждого шага
Для многошаговых решений (бизнес-план, стратегия) — применяй falsification к каждому промежуточному выводу:
Шаг 1: сформулируй ключевое предположение плана Шаг 2: какой эксперимент / проверка за 2 недели сломает это предположение быстрее всего? Шаг 3: если сломается — что меняется в плане?Это операционализирует метод: не просто «найди слабые места», а «что конкретно сделать, чтобы узнать правду».
Ресурсы
Sound Agentic Science Requires Adversarial Experiments Published at ICLR 2026 Workshop on Agents in the Wild
Авторы: Dionizije Fa, Marko Culjak — Entropic / TakeLab @ FER, University of Zagreb
Связанная работа: POPPER (Huang et al., 2025) — агентный фреймворк для последовательных тестов фальсификации гипотез с контролем ошибок первого рода. ICML 2025.
Теоретический фундамент: Popper (1959) The Logic of Scientific Discovery; Fisher (1935) The Design of Experiments; Pearl (2009) Causality
