3,583 papers
arXiv:2601.00263 72 1 янв. 2026 г. PRO

3-Step Counterfactual: как найти слова, которые меняют решение LLM

КЛЮЧЕВАЯ СУТЬ
Модель выдала результат — но ты не знаешь КАКИЕ ИМЕННО слова сработали триггером. Она говорит "негативный отзыв", но это из-за "затянулась" или из-за общего тона? Чёрный ящик. Метод контрфактуальных примеров позволяет увидеть карту влияния слов на вывод модели. Меняешь минимум слов → предсказание переворачивается → значит, эти слова критичны. Три шага в одном промпте: (1) модель находит ключевые слова с весами влияния, (2) подбирает замены, которые сдвинут вывод к нужной категории, (3) собирает изменённый текст. Ты видишь не только ЧТО поменялось, но и ПОЧЕМУ — модель показывает рассуждения на каждом шаге. Это как A/B-тест для промпта: изменил одно слово → вывод перевернулся → нашёл триггер.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с