TL;DR
LLM реагирует на структуру вопроса, а не на его содержание. Если вопрос выглядит как загадка — модель автоматически задействует «изобретательное» мышление и ищет скрытый смысл, даже когда правильный ответ лежит на поверхности. Это не сбой в конкретном запросе — это системное свойство всех современных моделей.
Проблема в том, что форма вопроса запускает режим рассуждения, а не содержание. Попроси модель буквально: «сколько будет пятница плюс три дня?» — она скажет «понедельник». Но оберни ту же мысль в структуру загадки — и модель начнёт искать хитрость, которой нет. Отсюда бесконечные случаи, когда AI «умничает» там, где ты ждал прямого ответа: усложняет простую задачу, находит несуществующие подтексты, переворачивает очевидное.
Главный вывод исследования — LLM умеет менять режим рассуждения, но переключатель срабатывает от формата, а не от смысла. Значит, режим нужно задавать явно: «отвечай буквально» или «ищи нестандартную интерпретацию». Без этой инструкции модель выбирает режим сама — и выбирает неправильно примерно в половине случаев.
Схема эффекта
Вопрос с "загадочной" структурой
↓
LLM активирует режим: ИЗОБРЕТАТЕЛЬНОЕ мышление
↓
Ищет скрытый смысл, уловку, нелинейный ответ
↓
Ошибается, если ответ был буквальным (50.7% точности)
────────────────────────────────────────────────
Тот же вопрос, но с явным указанием режима:
"Ответь буквально, без поиска скрытых смыслов"
↓
LLM применяет БУКВАЛЬНОЕ мышление
↓
Правильный ответ
Оба варианта — в одном промпте, без дополнительных запросов.
Пример применения
Задача: Ты договариваешься с подрядчиком по ремонту. Пишешь AI вопрос в духе: «Иван обещал сдать работу за 10 дней, взял предоплату 50%, но пропал. Как такое возможно?» — и получаешь эссе про психологию мошенников и «скрытые причины» вместо прямого: «он взял деньги и исчез».
Промпт:
Ответь на этот вопрос буквально. Не ищи скрытых смыслов,
метафор или нестандартных интерпретаций. Прими вопрос
за чистую монету.
Вопрос: Иван обещал сдать ремонт за 10 дней, взял предоплату
50% (80 000 ₽), но пропал и не берёт трубку. Как такое возможно?
Результат: Модель даст прямой, буквальный ответ. Никаких «возможно, у него личная трагедия» или «иногда люди перегружаются обязательствами». Конкретика: взял деньги, перестал выходить на связь — это называется так-то, вот что делать дальше.
Почему это работает
LLM обучается на огромных массивах текста из интернета. Загадки в интернете всегда требуют нестандартного ответа — это определение жанра. Модель выучила шаблон: «вопрос в стиле загадки → применяй изобретательное мышление». Шаблон правильный для 95% реальных загадок.
Проблема в том, что модель не оценивает конкретный вопрос — она срабатывает на форму. Увидела структуру «X делает Y, но Z. Как такое возможно?» — включила режим поиска уловки. Независимо от того, есть ли уловка на самом деле.
Явная инструкция о режиме рассуждения перебивает этот автоматизм. Ты не объясняешь модели структуру вопроса — ты указываешь, какую стратегию применить. Это и есть рычаг.
Рычаги управления:
- "Ответь буквально" — выключает поиск скрытых смыслов
- "Прими вопрос за чистую монету" — усиливает буквальный режим
- "Ищи нестандартную интерпретацию" — намеренно включает изобретательный режим
- "Не ищи хитрости там, где её нет" — прямо называет ловушку
Шаблон промпта
Вариант 1 — Буквальный режим (когда AI усложняет простое)
Ответь на вопрос буквально. Не ищи скрытых смыслов,
уловок или нестандартных интерпретаций. Прими вопрос
за чистую монету и дай прямой ответ.
Вопрос: {твой вопрос}
Когда использовать: Когда вопрос звучит как загадка, но ты хочешь прямой ответ. Задачи с цифрами, юридические формулировки, технические условия, бытовые ситуации, которые «выглядят сложнее чем есть».
Вариант 2 — Изобретательный режим (когда нужно нестандартное решение)
Это может выглядеть как простой вопрос, но ищи
нестандартный ответ. Рассмотри неочевидные интерпретации,
скрытые предположения и способы переформулировать задачу.
Вопрос: {твой вопрос}
Когда использовать: Брейнстормы, поиск неочевидных решений, креативные задачи, когда стандартный ответ тебя не устраивает.
Вариант 3 — Диагностика (когда не уверен, что LLM правильно понял задачу)
Перед ответом укажи: ты интерпретируешь этот вопрос
буквально или ищешь в нём скрытый смысл / нестандартную
трактовку? После этого дай свой ответ.
Вопрос: {твой вопрос}
Когда использовать: Когда ответ кажется неожиданным и хочешь понять, в каком режиме работала модель.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для управления режимом рассуждения AI.
Адаптируй под мою задачу: [твоя задача].
[вставить шаблон выше]
LLM спросит тебя о задаче и о том, хочешь ли ты буквальный или изобретательный ответ — потому что это определяет какой вариант шаблона подходит.
Ограничения
⚠️ Не решает проблему с «закешированными» ответами: Если LLM встречала загадку дословно в обучающих данных — она просто воспроизведёт запомненный ответ, как бы ты ни формулировал. Это отдельный эффект.
⚠️ Работает для вопросов, не для длинных задач: Закономерность выявлена на коротких вопросах-загадках. На длинных инструкциях и многошаговых задачах формат меньше влияет на режим рассуждения.
⚠️ Модели различаются по степени проблемы: Gemini 3.1 Pro переключается на буквальное мышление заметно лучше остальных. Claude Opus 4.6 и Gemini 2.5 Pro показали наибольший «провал» на буквальных вопросах в формате загадок.
⚠️ Люди ошибаются в обратную сторону: Человек по умолчанию думает буквально и пропускает уловки. AI по умолчанию думает изобретательно и усложняет очевидное. Помни об этой асимметрии.
Как исследовали
Исследователи из Принстона придумали элегантный тест: взяли 30 классических загадок из интернета и переписали каждую так, чтобы сохранить структуру, но убрать уловку. Загадка про ковбоя, который приехал в пятницу, пробыл три дня и уехал в пятницу — превратилась в версию где он уехал в понедельник. Структура идентична, но правильный ответ теперь буквальный: пятница + три дня = понедельник.
Девять передовых моделей (GPT‑5.4, Claude Opus 4.6, Gemini 2.5 Pro и другие) отвечали на 60 вопросов по 10 раз каждый — 5 400 ответов. Люди решали подмножество тех же задач в тихой комнате на кампусе. Все ответы потом кодировали: правильно/нет, и каким способом рассуждал решатель — буквально или изобретательно.
Самый интересный момент — проверка на запоминание. Моделям давали первые 40% каждой оригинальной загадки и просили продолжить дословно. Модели воспроизводили до 43% загадок почти слово в слово — то, что нельзя восстановить без памяти о тексте. И вот критичная деталь: чем лучше модель помнила загадку, тем лучше она её решала — и тем хуже решала модифицированную версию. Это прямое свидетельство того, что «решение» загадок — это нередко воспроизведение из памяти, а не рассуждение.
Человеческие результаты перевернули картину: люди решили 80.5% буквальных версий и только 50.5% настоящих загадок. Ровно противоположный паттерн. Люди думают слишком буквально — AI думает слишком изобретательно. Оба типа ошибаются, но в разные стороны.
Оригинал из исследования
Please provide one definitive answer to each word problem
and a one-sentence explanation for how you arrived at it.
Контекст: Единственная инструкция, которую давали всем девяти моделям для всех 60 задач. Никаких указаний на режим рассуждения — именно это позволило зафиксировать «дефолтное» поведение модели.
Пример пары из исследования:
Условие A (настоящая загадка):
"A cowboy rides into town on Friday, stays for three days, and rides out on Friday. How is this possible?" (Ответ: Friday — это имя лошади)
Условие B (буквальная версия):
"A cowboy rides into town on Friday, stays for three days, and rides out on Monday. How is this possible?" (Ответ: пятница + три дня = понедельник)
Адаптации и экстраполяции
💡 Адаптация: режим рассуждения как первый тег в системном промпте
Если ты работаешь с одним чатом для разных типов задач — добавь явное указание режима в начало каждого запроса.
[РЕЖИМ: БУКВАЛЬНЫЙ]
Ответь прямо и конкретно. Не ищи скрытых смыслов.
Задача: {задача}
[РЕЖИМ: ТВОРЧЕСКИЙ]
Ищи нестандартные интерпретации, неочевидные углы,
неожиданные решения.
Задача: {задача}
Тег в квадратных скобках работает как переключатель — модель жёстко привязывается к указанному режиму на всё время ответа.
🔧 Техника: диагностика «почему AI усложнил» → попроси объяснить режим
Получил неожиданно сложный ответ на простой вопрос? Спроси модель напрямую:
Ты только что ответил на этот вопрос. Как ты его
интерпретировал — буквально или искал скрытый смысл / уловку?
Объясни свой выбор.
Модель опишет свою логику — и ты поймёшь, включился ли «режим загадки» там, где не нужно. После этого можно дать инструкцию и попросить ответить заново.
🔧 Техника: использовать «загадочный» формат намеренно для изобретательных ответов
Исследование показало: структура загадки автоматически включает изобретательное мышление. Это можно использовать в обратную сторону — если хочешь нестандартный взгляд на обычную задачу, оберни её в «загадочный» формат.
Вместо: «Как увеличить конверсию лендинга?»
Попробуй: «Лендинг показывает людям ровно то, что они хотят видеть, но они всё равно уходят. Как такое возможно?»
Модель автоматически переключится в режим поиска уловки — и предложит менее очевидные объяснения.
Ресурсы
Название: The Riddle Riddle: Testing Flexible Reasoning in Large Language Models and Humans
Авторы: Bella Fascendini, Kathryn McGregor, Max D. Gupta, Thomas L. Griffiths
Организация: Princeton University (Department of Psychology + Department of Computer Science)
Репозиторий: https://github.com/bellafascendini/riddle-riddle
Связанные работы из исследования: - «Illusion illusion» в VLM (Ullman) — похожий эффект для визуальных моделей - Lake & Baroni — композиционное обобщение в нейросетях - Chain-of-Thought prompting (Wei et al.) — контекст для понимания reasoning в LLM
