TL;DR
LLM в 7+ раз лучше реагирует на конкретную гипотезу, чем на открытый вопрос. Исследователи устроили 439 "информационных дуэлей" между AI-агентами: один знал секрет, другой пытался его выяснить через диалог. Агент-защитник выигрывал в 87% случаев — и это системная особенность, одинаковая у всех протестированных моделей.
Главная находка: Когда атакующий агент приходил с конкретной гипотезой ("я думаю, что секрет — X, подтверди или опровергни"), он выигрывал в 22% случаев. Когда задавал открытые вопросы без зацепки — 3.5%. Разница в 7.75 раза. Второй инсайт: при длинном диалоге с множеством правил модели начинают эти правила нарушать. В структурированных задачах 41.3% провалов — это не "неправильный ответ", а нарушение собственного ограничения, которое модель "забыла" под нагрузкой.
Оба инсайта прямо переносятся на работу в чате. Вместо "что делать?" — предлагай конкретный план на оценку. Вместо одного большого промпта с пятью правилами — напоминай правила явно в каждом сообщении.
Схема метода
Это два независимых инсайта, каждый с конкретным применением в чате:
ИНСАЙТ 1: Гипотеза вместо слепого вопроса
─────────────────────────────────────────────
❌ Слабый режим: "Что мне делать с X?"
→ AI генерирует усреднённый широкий ответ
✅ Сильный режим: "Я думаю сделать [конкретно].
Где я ошибаюсь?"
→ AI оценивает твой план точечно (в 7.75x эффективнее)
ИНСАЙТ 2: Деградация ограничений под нагрузкой
─────────────────────────────────────────────────
❌ Слабый режим: 5 правил в системном промпте →
длинный диалог →
к 10-му сообщению правила нарушены
✅ Сильный режим: [АКТИВНЫЕ ПРАВИЛА] в каждом
сообщении → стабильное соблюдение
Применяется в обычном чате, никакого кода не нужно.
Пример применения
Задача: Ты готовишь стратегию запуска телеграм-канала про личные финансы. Хочешь получить конкретную обратную связь от Claude/ChatGPT.
Промпт:
Я запускаю телеграм-канал про личные финансы для аудитории 25–35 лет, Москва.
Мой контент-план:
- 3 поста в неделю: понедельник — лайфхак, среда — "разбор ошибки", пятница — кейс читателя
- Формат: коротко (до 500 знаков) + одна конкретная цифра или факт в каждом посте
- Первые 30 постов — только базовые темы: бюджет, подушка, дебетовые карты
НЕ предлагай альтернативный план. Оцени именно этот:
1. Что в этом плане правильно?
2. Где я ошибаюсь или упускаю важное?
3. Какой элемент самый слабый?
Результат: Вместо общего списка "что публиковать в финансовом канале" — модель разберёт твой конкретный план. Укажет, почему "разбор ошибки в среду" может не сработать без сложившейся аудитории, что в формате '500 знаков + факт' рискует зайти слишком схематично, и какой из трёх форматов слабее всего держит подписчиков на раннем этапе. Ответ будет точечным, а не энциклопедическим.
Почему это работает
Слабость LLM в "слепом поиске": Когда ты задаёшь открытый вопрос без зацепки, модель генерирует статистически "среднее по больнице". У неё нет конкретного стимула — она выдаёт универсальный ответ, подходящий всем и никому. Это как спросить у незнакомца на улице "что мне съесть?" — он не знает ни твоих предпочтений, ни твоего бюджета.
Сильная сторона LLM — оценка конкретного варианта: Когда ты предлагаешь конкретную гипотезу, модели проще — она сравнивает твой вариант с паттернами из обучающих данных и ищет расхождения. Это как дать редактору уже написанный текст: критиковать готовое гораздо легче, чем создавать с нуля. Именно поэтому confirmation attack работает в 7.75 раза лучше слепого поиска.
Про деградацию ограничений: Когда в одном диалоге и сложная задача, и много правил, и длинный контекст — "внимание" модели распределяется. Правила из начала диалога вытесняются новыми сообщениями. Модели размером 400 млрд параметров нарушали правила в 72% случаев, а более компактные модели с другим обучением — в 0%. Значит, дело не в размере, а в том, как модель обучалась следовать инструкциям. Вывод для практики: не надейся, что правило из первого промпта доживёт до двадцатого сообщения.
Рычаги управления: - Конкретность гипотезы → чем точнее твой вариант, тем точнее критика. "план А или Б?" слабее, чем "я думаю делать именно так: [детали]" - Количество правил за раз → меньше ограничений в одном сообщении = лучше соблюдение. Разбивай на отдельные запросы - Явное напоминание → повторяй ключевые ограничения в каждом сообщении длинного диалога, не только в первом - "Может быть" как сигнал → если AI часто уходит в "это зависит", "с одной стороны" — это уклонение, а не глубина. Дай более конкретную гипотезу или напрямую попроси один конкретный ответ
Шаблон промпта
Шаблон 1: Гипотеза вместо открытого вопроса
Вот мой план/подход/решение для задачи: {задача}
{твой_конкретный_вариант}
Оцени критически — именно этот план, не предлагай альтернативу:
1. Что здесь правильно?
2. Где я ошибаюсь или упускаю важное?
3. Какой элемент самый слабый и почему?
Плейсхолдеры:
- {задача} — коротко суть: "запуск продукта", "переговоры с подрядчиком", "структура презентации для инвестора"
- {твой_конкретный_вариант} — твои шаги, идеи, решения. Списком или абзацем. Чем конкретнее — тем полезнее критика
Шаблон 2: Якорь ограничений в длинном диалоге
[АКТИВНЫЕ ПРАВИЛА ЭТОГО ОТВЕТА]
- {правило_1}
- {правило_2}
─────────────────────────────────
{задача_этого_сообщения}
Плейсхолдеры:
- {правило_1}, {правило_2} — ограничения именно для этого ответа. Пример: "только российский рынок", "без терминов", "до 150 слов", "только цифры без интерпретаций"
- {задача_этого_сообщения} — что хочешь получить здесь и сейчас
Прикрепляй блок [АКТИВНЫЕ ПРАВИЛА] в каждом сообщении длинного диалога, не только в первом.
🚀 Быстрый старт — вставь в чат:
Помоги адаптировать шаблон под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит тебя о конкретной задаче и попросит описать твой текущий вариант или план — потому что без конкретной гипотезы шаблон не работает. Суть метода именно в том, чтобы оценивать конкретное предположение, а не генерировать ответ с нуля.
Ограничения
⚠️ Не для творческой генерации: Если хочешь свежую идею или нестандартный взгляд — жёсткая гипотеза ограничивает выход. Метод работает для задач с правильным/неправильным ответом: планы, стратегии, тексты на оценку.
⚠️ Эффект деградации слабее в сильных моделях: Qwen3 нарушал правила в 0% случаев, Llama-4 (~400 млрд параметров) — в 72%. ChatGPT и Claude справляются лучше, но не идеально. При сложных задачах с многими ограничениями напоминание остаётся полезным.
⚠️ "Может быть" — уклонение, не глубина: Если AI стабильно отвечает "это зависит от контекста" — это не богатство анализа, а снижение информационной плотности ответа. Сужай гипотезу или явно проси конкретный ответ.
⚠️ Это исследование про AI-агентов, не про промптинг: AIDG изучал дуэли между моделями. Практические инсайты — экстраполяция принципов, не прямые инструкции для пользователей.
Как исследовали
Команда из Исламского университета технологий в Дакке устроила 439 партий "информационной дуэли" между шестью современными моделями: GPT-5, Gemini 2.5 Flash, Qwen3-235B, DeepSeek-V3, Llama-4 Maverick и Granite-3.3-8B. В каждой партии одна модель знала секрет ("код тревоги заканчивается на 42", "синий блокнот лежит в верхнем ящике"), другая пыталась его выяснить за 10–16 ходов. Роли менялись, каждая пара сыграла друг против друга в обе стороны.
Дизайн был умный: два формата дуэлей. В первом (AIDG-I) атакующий мог говорить что угодно — социальные манипуляции, наводящие вопросы, ловушки. Во втором (AIDG-II) защитник мог отвечать только "да", "нет" или "может быть", а атакующий — не называть секрет напрямую до финального хода. Это убрало языковые манипуляции и оставило голую логику.
Самое неожиданное: защитник выигрывал в 87% случаев в обоих форматах — разница между форматами всего 1.9%, статистически незначима. Это значит, что асимметрия — не артефакт конкретных правил, а системное свойство. Ещё интереснее — разброс: способность защищаться у всех моделей почти одинакова (разброс ±1.9 ELO), а способность атаковать разная (разброс ±53.3 ELO). Защита встроена одинаково во все модели. Атака — навык, который у каждой развит по-своему.
Адаптации и экстраполяции
🔧 Техника: "Красная команда" с конкретным оппонентом
Принцип гипотезы работает ещё острее, когда даёшь AI роль конкретного критика:
Ты — Фёдор Овчинников (основатель Додо Пиццы).
Ты смотришь на этот бизнес-план с точки зрения
операционной масштабируемости и юнит-экономики.
Мой план:
{текст_плана}
Твои 3 главных возражения? Что остановит тебя от участия?
Конкретный персонаж с известным стилем мышления + конкретный материал = острая, точечная критика вместо "нужно учесть риски".
🔧 Техника: "Якорный блок" для длинных рабочих сессий
Если работаешь над одной задачей в длинном диалоге — добавляй обновление контекста каждые 8–10 сообщений:
[ЯКОРЬ КОНТЕКСТА]
Задача: {суть_проекта}
Ограничения: {список_правил}
Сделано: {что уже готово}
Следующий шаг: {что нужно сейчас}
─────────────────────────────────
{задача_этого_сообщения}
Это прямая компенсация деградации ограничений из исследования: ранние инструкции "вытесняются" накопленным контекстом, явный якорь возвращает фокус.
Ресурсы
AIDG: Evaluating Asymmetry Between Information Extraction and Containment in Multi-Turn Dialogue
Авторы: Adib Sakhawat, Fardeen Sadab, Rakin Shahriar Islamic University of Technology (IUT), Dhaka, Bangladesh
