3,583 papers
arXiv:2601.12019 83 17 янв. 2026 г. FREE

Opposing-Stance Reasoning: превращаем слабость LLM в инструмент критического анализа

КЛЮЧЕВАЯ СУТЬ
Opposing-Stance Reasoning — техника, которая использует сикофантство LLM (склонность соглашаться с заданной позицией) для генерации контрастных аргументов. Вы явно задаёте модели две противоположные позиции и просите защитить каждую: "предположи, что это правда — объясни почему" и "предположи, что это ложь — объясни почему".
Адаптировать под запрос

TL;DR

Opposing-Stance Reasoning — техника, которая использует сикофантство LLM (склонность соглашаться с заданной позицией) для генерации контрастных аргументов. Вы явно задаёте модели две противоположные позиции и просите защитить каждую: "предположи, что это правда — объясни почему" и "предположи, что это ложь — объясни почему".

LLM склонны к сикофантству — они подстраиваются под убеждения пользователя вместо объективного анализа. Если в промпте есть намёк на вашу позицию, модель скорее поддержит её, чем оспорит. Это вредит там, где нужна объективность: проверка фактов, оценка рисков, поиск слабых мест в идее. Обычные промпты типа "это кликбейт?" дают однобокий ответ, зависящий от формулировки.

Метод решает проблему намеренным использованием этой слабости. Вы не боретесь с сикофантством, а управляете им: два запроса, две роли, два набора аргументов. Сначала: "предположи, заголовок достоверный — объясни". Потом: "предположи, заголовок кликбейт — объясни". Модель выдаёт убедительные доводы с обеих сторон. Вы видите полную картину и решаете сами.


🔬

Схема метода

ШАГ 1: Базовая оценка
Дай заголовку/утверждению оценку достоверности 0-100 → число + объяснение

ШАГ 2: Рассуждение "ЗА"
"Предположи, это достоверно. Объясни почему и дай новую оценку" → аргументы + оценка выше базовой

ШАГ 3: Рассуждение "ПРОТИВ"  
"Предположи, это кликбейт/ложь. Объясни почему и дай новую оценку" → аргументы + оценка ниже базовой

ШАГ 4: Сравнение
Читаешь оба набора аргументов, смотришь на оценки, решаешь сам

Все шаги можно выполнить в одном чате последовательно или запустить Steps 2-3 в разных чатах параллельно.


🚀

Пример применения

⚠️ Зона применения: Работает для проверяемых утверждений с фактической основой. Не подходит для субъективных оценок ("хорош ли фильм") или вопросов вкуса.

Задача: Оцениваешь инвестидею — Telegram-канал советует "купить акции Яндекса перед отчётом, рост гарантирован". Нужно понять: это обоснованный совет или хайп?

Промпт:

Заголовок: "Акции Яндекса взлетят на 40% после квартального отчёта — инсайдеры уже скупают"

Шаг 1: Оцени достоверность этого утверждения по шкале 0-100. 
0 — точно манипуляция, 100 — абсолютно надёжно. Объясни оценку.

Шаг 2: Теперь предположи, что утверждение ДОСТОВЕРНОЕ. 
Какие аргументы это подтверждают? Дай новую оценку (должна быть выше).

Шаг 3: Теперь предположи, что это КЛИКБЕЙТ/МАНИПУЛЯЦИЯ. 
Какие признаки на это указывают? Дай новую оценку (должна быть ниже).

Шаг 4: Покажи две оценки и два набора аргументов рядом.

Результат:

Модель выдаст три блока: 1. Базовая оценка (например, 55/100) с нейтральным объяснением 2. Аргументы "ЗА": "сезонность отчётов", "рост рынка", "фундаментальные показатели" → оценка 75/100 3. Аргументы "ПРОТИВ": "конкретная цифра 40% без источника", "отсылка к инсайдерам — классический признак хайпа", "эмоциональный язык ('взлетят')" → оценка 30/100

Ты видишь, что аргументы "против" сильнее — и это не кликбейт в чистом виде, но явная манипуляция цифрами. Решение: не действовать импульсивно, проверить источники.


🧠

Почему это работает

Слабость LLM: Модели обучены быть полезными и следовать контексту промпта. Если вы пишете "я думаю, что Земля плоская, согласен?", LLM может начать подбирать аргументы в вашу пользу, даже если это противоречит фактам. Это сикофантство — склонность подстраиваться под убеждения пользователя ради "приятного" ответа.

Сильная сторона LLM: Модели отлично генерируют убедительные рассуждения под любую заданную роль. Если явно указать позицию ("предположи X"), модель защитит её изобретательно и последовательно — даже если X ложно. Это та же механика ролевых промптов: "ты адвокат защиты" → аргументы за клиента, "ты прокурор" → аргументы против.

Как метод использует это: Вместо одного нейтрального запроса ("это кликбейт?") метод делает два направленных запроса — как два адвоката в суде. Первый промпт активирует сикофантство в пользу "достоверности", второй — в пользу "кликбейта". Модель не выбирает сама — она усиливает обе позиции максимально. Вы получаете два качественных набора аргументов и сами выносите вердикт, видя полную картину.

Рычаги управления:

Элемент Что менять Эффект
Числовые оценки (0-100) Замени на "слабые/средние/сильные аргументы" Проще, если точная оценка не нужна
Количество шагов Убери Шаг 1 (базовую оценку) Быстрее, но теряешь точку отсчёта
Формулировка ролей Вместо "предположи" → "ты скептик" / "ты оптимист" Острее выполнение роли, ярче аргументы
Условие выхода Добавь "останови генерацию если аргументы слабые" Экономия токенов, но модель может сдаться рано

Пример адаптации: вместо "предположи" напиши "Ты редактор Forbes, защищающий заголовок" vs "Ты фактчекер Медузы, ищущий манипуляции". Роли с конкретными именами (издания, персонажи, архетипы) заставляют модель сильнее держать линию.


📋

Шаблон промпта

Утверждение: {текст_для_проверки}

Шаг 1: Оцени достоверность/надёжность этого утверждения по шкале 0-100.
0 = полная манипуляция, 100 = абсолютно достоверно. Дай оценку и объясни.

Шаг 2: Теперь предположи, что утверждение ДОСТОВЕРНОЕ и НАДЁЖНОЕ.
Какие факты, логика, контекст это подтверждают? 
Дай новую оценку (она должна быть ВЫШЕ, чем в Шаге 1).

Шаг 3: Теперь предположи, что утверждение — МАНИПУЛЯЦИЯ или КЛИКБЕЙТ.
Какие признаки, уловки, несоответствия на это указывают?
Дай новую оценку (она должна быть НИЖЕ, чем в Шаге 1).

Шаг 4: Покажи итоговую таблицу:
| Позиция | Оценка | Ключевые аргументы |
Затем напиши: какая сторона аргументов сильнее и почему.

Что подставлять: - {текст_для_проверки} — заголовок новости, твит, рекламное утверждение, инвестсовет, любое проверяемое высказывание

Адаптации под задачу: - Проверка бизнес-идеи: Шаг 2 = "идея выстрелит", Шаг 3 = "идея провалится" - Оценка риска решения: Шаг 2 = "решение безопасно", Шаг 3 = "решение опасно" - Анализ рекламы: Шаг 2 = "обещание реально", Шаг 3 = "обещание обманчиво"


🚀 Быстрый старт — вставь в чат:

Вот шаблон Opposing-Stance Reasoning. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно проверять (заголовок? идею? решение?) и какие позиции противопоставить (достоверность vs манипуляция? успех vs провал?). Она возьмёт структуру из шаблона — три шага с противоположными установками — и подстроит формулировки под твою задачу. Ты получишь готовый промпт, заточенный под конкретное утверждение.


⚠️

Ограничения

⚠️ Субъективные критерии: Метод слабеет на оценках вкуса или мнений без фактической основы. "Хорош ли сериал Игра престолов?" — модель сгенерирует аргументы за/против, но они будут одинаково обоснованны, выбор останется субъективным. Работает для проверяемых утверждений: фактов, обещаний, прогнозов.

⚠️ Не заменяет экспертизу: Модель генерирует правдоподобные аргументы, но может пропустить узкоспециальные нюансы. Для медицинских, юридических, технических вопросов нужна дополнительная проверка у специалистов.

⚠️ Требует критического мышления: Метод даёт сырьё для анализа, не готовый ответ. Если ты не готов сравнивать аргументы и взвешивать их силу — метод не поможет. Это инструмент для тех, кто хочет думать, а не делегировать решение полностью.


🔗

Ресурсы

Acting Flatterers via LLMs Sycophancy: Combating Clickbait with LLMs Opposing-Stance Reasoning Исследование про детекцию кликбейта через противоположные рассуждения. Авторы: Chaowei Zhang, Xiansheng Luo, Zewei Zhang, Yi Zhu, Jipeng Qiang, Longwei Wang Yangzhou University (Китай), Auburn University, University of South Dakota (США) Код: https://github.com/126541/ORCD


Проблемы LLM

ПроблемаСутьКак обойти
Модель подстраивается под намёк в запросе вместо объективной оценкиПишешь "я думаю X правильно, согласен?" модель начинает защищать X. Даже если X ложно. Это сикофантство: стремление быть полезной побеждает объективность. Просишь оценить новость — ответ зависит от формулировки вопроса, не от фактов. Нельзя получить беспристрастный анализ одним запросомНе борись с сикофантством. Управляй им явно. Задай ДВЕ противоположные позиции: "предположи это правда — объясни почему" и "предположи это ложь — объясни почему". Модель выдаст два набора аргументов. Сравнишь оба — увидишь полную картину. Решение примешь сам

Методы

МетодСуть
Две противоположные роли для контрастных аргументовВместо одного нейтрального запроса делаешь два направленных с противоположными установками. Шаги: (1) Базовая оценка 0-100. (2) "Предположи это ПРАВДА — объясни" аргументы ЗА + оценка выше. (3) "Предположи это ЛОЖЬ — объясни" аргументы ПРОТИВ + оценка ниже. (4) Сравни оба набора, реши сам. Почему работает: Модель склонна соглашаться с заданной позицией (сикофантство). Ты не получаешь "объективный" ответ. Ты явно задаёшь роль — модель защищает её максимально. Два запроса = два качественных набора аргументов для твоего решения. Когда да: проверяемые утверждения с фактами (новости, прогнозы, бизнес-идеи, риски), нужна объективность, готов анализировать сам. Когда нет: субъективные оценки без фактов ("хорош ли фильм"), хочешь готовый ответ без сравнения, узкая экспертиза (медицина, право) требует дополнительной проверки
📖 Простыми словами

Acting Flatterers viaLLMsSycophancy: Combating Clickbait withLLMsOpposing-Stance Reasoning

arXiv: 2601.12019

Нейросети — те еще подлизы. У них есть встроенный баг, который ученые называют сикофантством: модель всегда пытается тебе поддакнуть. Если ты спросишь «почему плоская Земля — это база?», она не станет спорить, а послушно нагенерирует тебе кучу псевдонаучного бреда, лишь бы ты остался доволен. Метод Opposing-Stance Reasoning берет этот порок и превращает его в инструмент для выжигания кликбейта и вранья. Вместо того чтобы спрашивать модель «правда это или нет», ее заставляют профессионально врать в обе стороны по очереди.

Это как если бы ты пришел к адвокату-дьяволу, который за пачку денег готов оправдать даже Чикатило, а потом за ту же сумму — его же и посадить. Ты даешь модели сомнительный заголовок и приказываешь: «Представь, что это чистая правда, и обоснуй», а следом — «А теперь представь, что это наглая ложь, и разнеси в щепки». Из-за своей природы LLM выложится на сто процентов в обоих случаях, достав из памяти самые глубокие аргументы, которые при обычном вопросе она бы просто поленилась искать.

Технически это работает через две противоположные позиции, которые модель защищает с одинаковым рвением. Сначала она включает режим фанатика и ищет подтверждения, а потом — режим скептика и ищет опровержения. Когда у тебя на столе лежат два максимально детальных отчета «за» и «против», вся шелуха и манипуляции кликбейта вылезают наружу. Ты просто сравниваешь факты в обоих текстах и видишь, где аргументы железные, а где — высосаны из пальца ради того, чтобы угодить промпту.

Хотя метод тестировали на борьбе с желтушными заголовками, принцип универсален для любой работы с информацией. Это идеальный фильтр для анализа рыночных прогнозов, политических новостей или выбора сложной техники. Везде, где есть риск нарваться на предвзятость или скрытую рекламу, нужно заставлять нейронку «переобуваться в воздухе». Сикофантство превращается в аудит, когда ты заставляешь модель быть адвокатом обеих сторон конфликта.

Главный вывод: не жди от AI объективности, ее там нет по определению. Вместо этого используй ее желание угодить, чтобы подсветить проблему с двух крайних точек. Opposing-Stance Reasoning — это лучший способ не дать себя обмануть, просто заставив модель качественно подыграть двум разным мнениям. Кто продолжает задавать прямые вопросы, тот кормит свои галлюцинации, а кто использует «двойную игру» — получает реальную картину мира.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с