TL;DR
DETAIL — фреймворк, который показывает как уровень детализации промпта влияет на качество ответа. Исследователи взяли один и тот же вопрос и переписали его в трёх версиях: короткий расплывчатый, средний, и длинный детальный. Протестировали на GPT-4 и O3-mini, чтобы понять когда нужны подробности, а когда они вредят.
LLM по-разному реагируют на детализацию в зависимости от типа задачи. Математика и код выигрывают от подробных промптов (+47% точности), а задачи на принятие решений почти не меняются или даже проигрывают (+2%, иногда минус). Причина: избыток деталей сужает пространство вариантов — модель следует инструкциям вместо поиска нестандартных решений. Меньшие модели вроде O3-mini проваливаются на расплывчатых промптах (34% точности), но GPT-4 справляется даже с короткими (60%) — большие модели умеют внутренне компенсировать недостаток информации.
Исследователи создали три уровня промптов для одной задачи: Level-1 (расплывчатый), Level-2 (средний), Level-3 (детальный) — и протестировали на 30 задачах из 5 категорий. Замерили точность для каждого уровня и нашли паттерны: процедурные задачи любят детали, креативные — нет. Добавление Chain-of-Thought или Self-Consistency компенсирует расплывчатые промпты особенно для меньших моделей.
Как оценить свою задачу
Процедурные задачи (нужна детализация): - Математические расчёты, финансовые модели - Написание/отладка кода - Логические головоломки, пошаговые алгоритмы - Анализ данных с конкретными метриками
Креативные задачи (детализация вредит): - Принятие решений с субъективными критериями - Этические дилеммы, оценка рисков - Генерация идей, мозговые штурмы - Креативные тексты с авторским стилем
Пример применения
Задача: Посчитать окупаемость запуска платной подписки на российский сервис онлайн-курсов — оценить стоит ли запускать продукт.
Промпт (расплывчатый — Level-1):
Посчитай окупаемость подписки на курсы.
Промпт (детальный — Level-3):
Посчитай окупаемость запуска платной подписки. Вводные:
- Стоимость подписки: 1 990 ₽/месяц
- Конверсия из пробного периода: 15%
- CAC (стоимость привлечения): 3 500 ₽
- Churn rate (отток): 8% в месяц
- Операционные расходы на пользователя: 200 ₽/месяц
Рассчитай:
1. LTV (lifetime value) одного подписчика
2. Срок окупаемости CAC в месяцах
3. Прогноз прибыли через 6 и 12 месяцев при 1000 пользователей в пробном периоде
Покажи все шаги расчётов с формулами.
Результат:
На расплывчатом промпте модель выдаст общие рассуждения без конкретных цифр или запросит недостающие данные — потеряешь время на уточнения. На детальном промпте получишь пошаговый расчёт с формулами: LTV через churn rate (средняя продолжительность жизни клиента), период окупаемости CAC (сколько месяцев подписчик должен платить, чтобы отбить затраты на привлечение), прогноз по месяцам с учётом оттока и операционных расходов. Все промежуточные шаги видны — можешь проверить логику.
Почему это работает
LLM хуже справляются с недоопределёнными задачами — когда не хватает входных данных или непонятна структура решения. В процедурных задачах (математика, код, логика) каждый шаг зависит от предыдущего — ошибка в начале ломает всё решение. Если модель додумала неправильно какое число использовать или в каком порядке считать — всё остальное пойдёт по ложному пути.
Детальный промпт снимает неопределённость: указывает конкретные числа, ожидаемый формат, порядок действий. Модель следует структуре, а не додумывает её сама. Это работает как явная инструкция вместо угадывания намерения — вместо "как он хотел?" модель получает "делай 1-2-3".
Но для креативных задач избыток деталей сужает пространство вариантов — модель следует указаниям вместо того, чтобы искать нестандартные пути. Принятие решений, этические дилеммы, генерация идей выигрывают от свободы интерпретации. Когда ты говоришь "оцени бизнес-идею" без уточнений, модель сама выбирает критерии и углы зрения — часто находит то, о чём ты не подумал.
Рычаги управления:
- Уровень детализации → увеличь для процедурных задач (укажи все числа, шаги, формат), уменьши для креативных (оставь только суть вопроса)
- Входные данные → перечисли явно все параметры, условия, ограничения для математики/кода; убери для идей/решений
- Формат вывода → опиши ожидаемую структуру ответа ("покажи все шаги с формулами", "результат в виде таблицы") для процедурных задач; не указывай формат для креативных
- Промежуточный запрос → если не уверен в уровне детализации, попроси модель сначала задать вопросы: "Какие данные тебе нужны для решения?"
Шаблон промпта
Для процедурных задач (математика, код, логика, анализ данных):
{описание задачи одним предложением}
Вводные данные:
- {параметр_1}: {значение}
- {параметр_2}: {значение}
- {параметр_3}: {значение}
Что нужно рассчитать:
1. {результат_1}
2. {результат_2}
3. {результат_3}
Покажи все шаги расчётов с формулами.
Для креативных задач (принятие решений, этика, идеи, мозговые штурмы):
{краткое описание ситуации — 1-2 предложения}
{открытый вопрос без указания путей решения}
Пояснение плейсхолдеров:
- {описание задачи} — что нужно сделать (например: "Посчитай окупаемость запуска подписки")
- {параметр} и {значение} — конкретные числа и условия для расчётов (цена, конверсия, расходы)
- {результат} — что именно ожидаешь увидеть (LTV, срок окупаемости, прогноз)
- Для креативных задач убери весь блок с данными и форматом — оставь только контекст и вопрос
Ограничения
⚠️ Креативные и субъективные задачи: Детальные промпты ограничивают пространство вариантов. Принятие решений, этические дилеммы, генерация идей почти не выигрывают от детализации (+2% точности) или проигрывают — модель следует твоим инструкциям вместо поиска нестандартных решений. Здесь "меньше = лучше".
⚠️ Оценка правильности через LLM: В исследовании корректность ответов проверяла сама GPT-модель через "семантическую эквивалентность" — не абсолютно надёжный метод. В задачах с множеством правильных решений (например, разные способы расчёта одной метрики) это создаёт шум. Выводы работают для большинства случаев, но не как строгая истина.
⚠️ Меньшие модели критически зависят от детализации: O3-mini проваливается на расплывчатых промптах (34% точности против 60% у GPT-4). Если используешь меньшую или более слабую модель — детализация становится критически важна. GPT-4 умеет внутренне компенсировать недостаток информации, но O3-mini такой способности нет.
Как исследовали
Команда создала 30 задач из пяти категорий: математические задачи, логические головоломки, здравый смысл, понимание кода и принятие решений. Для каждой задачи GPT-4 сгенерировала три версии промпта с разным уровнем детализации: расплывчатую (Level-1, в среднем 57 токенов), среднюю (Level-2) и детальную (Level-3, в среднем 124 токена). Специфичность промптов измерили через perplexity — метрику лингвистической предсказуемости: чем ниже, тем более общие и знакомые фразы.
Протестировали на GPT-4 и O3-mini с четырьмя стратегиями промптинга: обычный промпт (baseline), Chain-of-Thought ("давай подумаем пошагово"), Plan-and-Solve (сначала составь план, потом реши), и Self-Consistency (генерируем пять ответов, выбираем большинством голосов). Каждую комбинацию модель-стратегия-уровень повторили три раза и усреднили точность.
Правильность оценивали не строгим совпадением текста, а через семантическую эквивалентность: GPT-3.5 проверяла, совпадает ли смысл ответа с правильным решением, даже если формулировки разные. Это показало реальную картину — модели часто отвечают правильно, но другими словами, и string-matching пропустил бы такие ответы.
Главный сюрприз: Математика и логика получили огромный выигрыш от детализации (+47% и +36% точности), а задачи на принятие решений почти не изменились (+2%) — иногда даже проиграли. Это противоречило ожиданию, что "больше информации = лучше результат". Оказалось, избыток деталей сужает мышление модели в открытых задачах — она перестаёт искать альтернативы и следует только указанным путям.
Почему O3-mini проваливается? Меньшие модели не могут внутренне компенсировать недостаток информации — им нужна явная структура извне. GPT-4 же умеет "додумывать" неявное (какие числа использовать, в каком порядке считать), поэтому работает даже на коротких промптах. Это объясняет разницу в 26 процентных пунктов на расплывчатых baseline-промптах (60% у GPT-4 vs 34% у O3-mini).
Инсайт для практики: Добавление Chain-of-Thought или Self-Consistency компенсирует расплывчатость — O3-mini с CoT на Level-1 выдала 45% точности (против 34% без CoT). Если пишешь короткий промпт для слабой модели, добавь "давай подумаем пошагово" — это частично заменит детализацию.
Адаптации и экстраполяции
💡 Адаптация для креативных задач — минимализм вместо детализации:
Когда задача требует нестандартного мышления или субъективной оценки, убери детализацию. Дай модели свободу интерпретации — она сама выберет критерии и углы зрения.
Задача: Оценить перспективность бизнес-идеи.
Промпт (минималистичный):
Идея: сервис аренды дизайнерской одежды с доставкой за 2 часа в Москве.
Стоит ли вкладываться?
Модель выдаст несколько сценариев: оптимистичный (растущий спрос на шеринг, удобство), пессимистичный (логистика дорогая, узкая аудитория), альтернативные подходы (может, лучше маркетплейс вместо аренды?). Детальный промпт с конкретными вопросами ("оцени по критериям: рынок, логистика, конкуренция") сузил бы анализ только до указанных направлений — модель не стала бы искать неочевидные риски или возможности.
🔧 Техника: промежуточный запрос → модель сама определяет нужную детализацию
Если не уверен, какой уровень детализации нужен, попроси модель сначала запросить недостающую информацию. Она сама определит, что нужно для этого типа задачи.
{описание задачи общими словами}
Какие данные тебе нужны для решения? Задай мне вопросы.
Ты отвечаешь на вопросы — модель получает только релевантные детали, которые действительно нужны. Не перегружаешь промпт, не упускаешь критичное.
💡 Экстраполяция: Chain-of-Thought компенсирует расплывчатые промпты для слабых моделей
Исследование показало: CoT и Self-Consistency компенсируют недостаток детализации особенно для меньших моделей. Если пишешь короткий промпт (экономишь токены или не хочешь перегружать), добавь CoT.
{короткий расплывчатый промпт}
Давай подумаем пошагово.
Цифры: O3-mini на расплывчатом промпте (Level-1) без CoT: 34% точности. С CoT: 45% точности. Одна фраза даёт +11 процентных пунктов — модель начинает разбивать задачу на шаги сама, компенсируя отсутствие явной структуры.
Для GPT-4 эффект меньше (60% → 72%), потому что она и так умеет внутренне структурировать. Но для слабых моделей CoT — дешёвая замена детализации.
Ресурсы
DETAIL Matters: Measuring the Impact of Prompt Specificity on Reasoning in Large Language Models
Olivia Kim, Emory University
Упоминания и связи: Chain-of-Thought (Wei et al., 2022), Plan-and-Solve (Wang et al., 2023), Self-Consistency, Tree of Thoughts (Yao et al., 2023), perplexity для измерения специфичности промптов.
