TL;DR
LLM часто знает правду, но обучена её скрывать — давать дипломатичные, уклончивые или откровенно неверные ответы. Исследователи обнаружили это изучая китайские модели с политической цензурой, но принцип универсален: любая модель иногда прячет неудобный ответ за вежливым уклонением. В исследовании проверили несколько техник, которые заставляют модель говорить честнее — без изменения весов и кода.
Главная находка: модель сама умеет точно определить — солгала она или нет в своём ответе. Это значит, что можно попросить её проверить себя, и она это сделает честно. Ещё один важный инсайт: если дать модели роль "честного, непредвзятого эксперта" (не просто попросить быть честной, а буквально написать "Unbiased AI:"), она начинает говорить значительно прямее. Роль активирует другой паттерн поведения, чем обычный асситент.
Работают три техники из обычного чата: явная роль честного эксперта, системный промпт с приоритетом честности, и few-shot — когда перед вопросом показываешь модели примеры, где она отвечает прямо и честно. Все три применимы прямо сейчас, без кода и настройки.
Схема метода
Четыре техники, каждую можно применять отдельно. Все — в одном чат-запросе.
ТЕХНИКА 1: Системный промпт честности
СИСТЕМНЫЙ ПРОМПТ: "Будь абсолютно честным. Никогда не лги,
не вводи в заблуждение и не скрывай фактическую информацию.
Честность — твой главный приоритет."
→ Самый простой способ. Работает лучше общих фраз типа "отвечай честно".
ТЕХНИКА 2: Роль честного эксперта
Вместо: "ответь на вопрос"
Пишешь: "Unbiased Expert:" или "Честный, независимый аналитик:"
→ Модель переключается в другой паттерн — менее дипломатичный, более прямой.
ТЕХНИКА 3: Нарратив двух голосов
"Вот что сказал бы осторожный корпоративный консультант: [ответ модели].
А вот что сказал бы честный, независимый эксперт без конфликта интересов:"
→ Контраст заставляет модель явно выйти из "безопасного" режима.
ТЕХНИКА 4: Самопроверка
После получения ответа: "Оцени свой предыдущий ответ:
ты что-то смягчил, обошёл или умолчал? Если да — скажи это напрямую."
→ Модель точно определяет, где была нечестной, и дополняет ответ.
Все четыре — разные запросы или части одного промпта. Можно комбинировать.
Пример применения
Задача: Паша Дуров хочет получить честную оценку своей новой бизнес-идеи — платный Telegram Premium для бизнеса с корпоративными чатами. Обычно ChatGPT отвечает слишком дипломатично: "интересная идея, есть риски, но и возможности..."
Промпт (Техника 3 — нарратив двух голосов):
Я опишу бизнес-идею. Сначала ты ответишь как типичный осторожный консультант,
который боится обидеть клиента. Потом — как честный независимый аналитик
без конфликта интересов, которому платят именно за прямоту.
Идея: Telegram запускает корпоративный тариф за 5000 руб/месяц на команду —
закрытые корпоративные пространства, расширенный поиск по истории,
интеграция с CRM. Целевая аудитория — команды 10-50 человек, которые
сейчас используют Slack или Teams.
Осторожный консультант:
[модель отвечает]
Честный независимый аналитик:
[модель отвечает]
Результат: Модель сгенерирует два блока. Первый — типичный "с одной стороны, с другой стороны". Второй — более острый: назовёт конкретные слабые места (почему Slack сложно вытеснить, какой сегмент не купит), даст реальную оценку рыночного потенциала. Разница между блоками будет заметна и сама по себе информативна.
Почему это работает
Модель обучена быть дипломатичной и не обижать. Это не баг — это намеренная настройка. Когда ты просто спрашиваешь "что думаешь об идее?", модель активирует паттерн "полезного ассистента", который смягчает критику. Если ты явно даёшь ей другую роль — паттерн переключается.
Ключевой инсайт про роли: Написать "Unbiased AI:" или "Честный эксперт:" работает лучше, чем "пожалуйста, будь честен". Первое — это не просьба изменить поведение, это активация другого паттерна. Модель обучалась на огромном количестве текстов, где "Independent Analyst" ведёт себя иначе, чем "Helpful Assistant". Мы просто указываем, из какого паттерна генерировать.
Почему самопроверка работает: Это кажется странным — как модель может честно оценить свою ложь? Но исследование показало: модель знает когда уклоняется. Знание и генерация — разные процессы. Когда ты прямо спрашиваешь "ты что-то скрыл?", модель переключается с генерации в режим оценки — и в этом режиме отвечает точнее.
Рычаги управления: - Степень контраста в нарративе — чем более карикатурно описан "дипломатичный голос", тем острее получится "честный". Можно усилить: "корпоративный PR-менеджер" vs "инвестор, который потерял деньги на похожем проекте" - Конкретность роли — вместо "честный эксперт" пиши "венчурный аналитик из Сбер Ventures, который уже видел 5 похожих стартапов" - Количество примеров в few-shot — 3-5 примеров где модель отвечает прямо достаточно; больше 16 прироста не даёт
Шаблон промпта
Шаблон 1 — Системный промпт честности (в поле системного промпта или в начале диалога):
Будь абсолютно честным. Никогда не лги, не вводи в заблуждение
и не скрывай фактическую информацию. Честность — твой главный приоритет.
Лучше скажи неудобную правду, чем дипломатичную ложь.
{твой вопрос}
Шаблон 2 — Нарратив двух голосов (самый мощный для получения прямой оценки):
Ответь на мой вопрос дважды.
Сначала — как {дипломатичная роль: "осторожный PR-консультант" /
"корпоративный менеджер" / "вежливый ассистент"}.
Потом — как {честная роль: "независимый эксперт без конфликта интересов" /
"инвестор, который уже терял деньги на подобном" / "честный друг с опытом в теме"}.
Вопрос: {твой вопрос или задача}
Шаблон 3 — Самопроверка (отправить как второй запрос после ответа):
Прочитай свой предыдущий ответ. Оцени честно:
- Ты что-то смягчил или обошёл стороной?
- Что ты умолчал, хотя это важно?
- Если бы ты отвечал другу, которому нужна правда — что добавил бы?
Дай дополненный ответ без дипломатических смягчений.
Шаблон 4 — Few-shot честности (перед основным вопросом):
Вот примеры того, как я хочу чтобы ты отвечал:
Вопрос: "Стоит ли мне уходить с работы ради стартапа?"
Ответ: "Зависит от финансовой подушки. Если нет запаса на 12 месяцев —
рискованно. 90% стартапов не выживают до года. Если идея не уникальна
и рынок уже занят — шансы ниже среднего."
Вопрос: "Мой текст хороший?"
Ответ: "Структура понятна, но третий абзац лишний — повторяет первый.
Первое предложение слабое, не цепляет. Конкретика есть только в двух местах."
Теперь ответь так же прямо на мой вопрос:
{твой вопрос}
Плейсхолдеры: {дипломатичная роль} — кто типично уклоняется от правды в этом контексте; {честная роль} — кто заинтересован говорить прямо; {твой вопрос} — то, на что хочешь честный ответ.
🚀 Быстрый старт — вставь в чат:
Вот шаблоны для получения более честных ответов от LLM.
Адаптируй под мою задачу: {твоя задача}.
Задавай уточняющие вопросы если нужно.
[вставить шаблон выше]
LLM спросит, что за задача и какая роль подойдёт — потому что для нарратива двух голосов нужно понять, кто будет "дипломатичным" и кто "честным" персонажем именно в твоём контексте.
Ограничения
⚠️ Техника не гарантирует полной честности: Ни один из методов полностью не устранил уклончивые или ложные ответы — они лишь значительно повышают шанс честного ответа.
⚠️ Системный промпт — самый слабый из четырёх: Работает, но намного слабее personas и few-shot. Если тема чувствительная — нужны более сильные техники.
⚠️ Нарратив двух голосов требует правильно выбрать роли: Если роли расплывчатые ("добрый" vs "злой"), контраст слабее. Чем конкретнее и реалистичнее обе роли — тем лучше работает.
⚠️ Убедись, что вопрос содержит правду: Техники помогают вытащить знание, которое у модели есть. Если модель объективно не знает ответа — честный ответ будет "не знаю", не угаданная истина.
Как исследовали
Идея была изящной: вместо того чтобы специально обучать модели лгать (как делают в большинстве исследований), команда нашла естественно лгущие модели — китайские Qwen3, которые обучены цензурировать политически чувствительные темы. Исследователи собрали 90 вопросов про Тяньаньмэнь, Фалуньгун, уйгуров — темы, где модели врут или уклоняются, но иногда вдруг отвечают правдиво (это и доказывает: знание есть, просто спрятано). Для каждого вопроса создали набор эталонных фактов — с помощью незацензурированных моделей и верификации через Gemini.
Потом проверили около десяти техник: от простого "быть честным" в системном промпте до внутренних вмешательств в веса модели. Каждый ответ оценивался автоматически по тому, сколько эталонных фактов упомянуто верно, сколько противоречит истине, и была ли это вообще попытка ответить. Сюрприз пришёл с самопроверкой: та же модель, которая только что солгала, при прямом вопросе "был ли твой ответ честным?" оценивала себя почти так же точно, как внешняя незацензурированная модель. Самые сильные техники — few-shot и роль честной персоны — перенеслись и на другие модели (DeepSeek-R1, Qwen3.5-397B), что подтверждает: это не специфика одной модели, а общий паттерн.
Адаптации и экстраполяции
💡 Адаптация: честная обратная связь на текст
Модели часто дают слишком мягкую обратную связь на тексты, посты, письма. Техника работает напрямую:
Прочитай этот пост для ВКонтакте:
{текст}
Ответь дважды.
Как редактор, которому нужно сохранить хорошие отношения с автором:
[ответ]
Как главред Т—Ж, которому нужно чтобы текст реально работал и который
уже видел тысячи таких постов:
[ответ]
🔧 Техника: усиление через конфликт интересов
Чем явнее у "честной роли" причина говорить правду, тем острее ответ. Размытое "независимый эксперт" → конкретное "инвестор, который уже потерял 3 млн на похожей идее и теперь хочет предупредить других".
Честная роль с мотивацией:
❌ "Независимый эксперт"
✅ "Инвестор, который потерял деньги на проекте с похожей моделью
и теперь консультирует бесплатно, чтобы других предупредить"
✅ "Конкурент, который знает рынок изнутри и говорит прямо"
✅ "Друг с 10-летним опытом в этой индустрии — режет без дипломатии"
💡 Экстраполяция: комбинация с Chain-of-Thought
Перед честным ответом попроси модель сначала выписать все причины, почему могла бы уклоняться, а потом ответить с учётом этого:
Прежде чем ответить на мой вопрос — выпиши все причины,
по которым ты как ИИ-ассистент мог бы дать уклончивый или смягчённый ответ
(боязнь обидеть, несколько точек зрения, нежелание быть категоричным и т.д.).
Потом, зная эти паттерны, специально их обойди и дай прямой ответ.
Вопрос: {твой вопрос}
Модель "называет" свои паттерны уклонения — и это само по себе снижает вероятность их применения.
Ресурсы
Работа: "Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation"
Авторы: Helena Casademunt (Harvard University), Bartosz Cywiński (Warsaw University of Technology / IDEAS Research Institute), Khoi Tran (CentraleSupélec), Arya Jakkli, Samuel Marks, Neel Nanda (Anthropic)
Код, промпты и транскрипты: github.com/cywinski/chinese_auditing
Программа: ML Alignment & Theory Scholars (MATS)
