arXiv:2601.00263 72 1 янв. 2026 г. PRO

3-Step Counterfactual: как найти слова, которые меняют решение LLM

КЛЮЧЕВАЯ СУТЬ

Модель выдала результат — но ты не знаешь КАКИЕ ИМЕННО слова сработали триггером. Она говорит "негативный отзыв", но это из-за "затянулась" или из-за общего тона? Чёрный ящик. Метод контрфактуальных примеров позволяет увидеть карту влияния слов на вывод модели. Меняешь минимум слов → предсказание переворачивается → значит, эти слова критичны. Три шага в одном промпте: (1) модель находит ключевые слова с весами влияния, (2) подбирает замены, которые сдвинут вывод к нужной категории, (3) собирает изменённый текст. Ты видишь не только ЧТО поменялось, но и ПОЧЕМУ — модель показывает рассуждения на каждом шаге. Это как A/B-тест для промпта: изменил одно слово → вывод перевернулся → нашёл триггер.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

3-Step Counterfactual: как найти слова, которые меняют решение LLM

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации