3,583 papers
arXiv:2512.02246 77 1 дек. 2025 г. FREE

DETAIL: адаптивная детализация промптов под тип задачи

КЛЮЧЕВАЯ СУТЬ
Парадокс: Больше деталей в промпте не равно лучше результат. Исследование показало что один и тот же вопрос в трёх версиях (короткий, средний, детальный) даёт разную точность в зависимости от типа задачи. Математика и код выигрывают от подробных промптов — +47% точности. А задачи на принятие решений почти не меняются — +2%, иногда минус. Причина: избыток деталей сужает пространство вариантов — модель следует инструкциям вместо поиска нестандартных решений. Меньшие модели вроде O3-mini проваливаются на расплывчатых промптах (34% точности), но GPT-4 справляется даже с короткими (60%) — большие модели умеют внутренне компенсировать недостаток информации.
Адаптировать под запрос

TL;DR

DETAIL — фреймворк, который показывает как уровень детализации промпта влияет на качество ответа. Исследователи взяли один и тот же вопрос и переписали его в трёх версиях: короткий расплывчатый, средний, и длинный детальный. Протестировали на GPT-4 и O3-mini, чтобы понять когда нужны подробности, а когда они вредят.

LLM по-разному реагируют на детализацию в зависимости от типа задачи. Математика и код выигрывают от подробных промптов (+47% точности), а задачи на принятие решений почти не меняются или даже проигрывают (+2%, иногда минус). Причина: избыток деталей сужает пространство вариантов — модель следует инструкциям вместо поиска нестандартных решений. Меньшие модели вроде O3-mini проваливаются на расплывчатых промптах (34% точности), но GPT-4 справляется даже с короткими (60%) — большие модели умеют внутренне компенсировать недостаток информации.

Исследователи создали три уровня промптов для одной задачи: Level-1 (расплывчатый), Level-2 (средний), Level-3 (детальный) — и протестировали на 30 задачах из 5 категорий. Замерили точность для каждого уровня и нашли паттерны: процедурные задачи любят детали, креативные — нет. Добавление Chain-of-Thought или Self-Consistency компенсирует расплывчатые промпты особенно для меньших моделей.


📌

Как оценить свою задачу

Процедурные задачи (нужна детализация): - Математические расчёты, финансовые модели - Написание/отладка кода - Логические головоломки, пошаговые алгоритмы - Анализ данных с конкретными метриками

Креативные задачи (детализация вредит): - Принятие решений с субъективными критериями - Этические дилеммы, оценка рисков - Генерация идей, мозговые штурмы - Креативные тексты с авторским стилем


🚀

Пример применения

Задача: Посчитать окупаемость запуска платной подписки на российский сервис онлайн-курсов — оценить стоит ли запускать продукт.

Промпт (расплывчатый — Level-1):

Посчитай окупаемость подписки на курсы.

Промпт (детальный — Level-3):

Посчитай окупаемость запуска платной подписки. Вводные:
- Стоимость подписки: 1 990 ₽/месяц
- Конверсия из пробного периода: 15%
- CAC (стоимость привлечения): 3 500 ₽
- Churn rate (отток): 8% в месяц
- Операционные расходы на пользователя: 200 ₽/месяц

Рассчитай:
1. LTV (lifetime value) одного подписчика
2. Срок окупаемости CAC в месяцах
3. Прогноз прибыли через 6 и 12 месяцев при 1000 пользователей в пробном периоде

Покажи все шаги расчётов с формулами.

Результат:

На расплывчатом промпте модель выдаст общие рассуждения без конкретных цифр или запросит недостающие данные — потеряешь время на уточнения. На детальном промпте получишь пошаговый расчёт с формулами: LTV через churn rate (средняя продолжительность жизни клиента), период окупаемости CAC (сколько месяцев подписчик должен платить, чтобы отбить затраты на привлечение), прогноз по месяцам с учётом оттока и операционных расходов. Все промежуточные шаги видны — можешь проверить логику.


🧠

Почему это работает

LLM хуже справляются с недоопределёнными задачами — когда не хватает входных данных или непонятна структура решения. В процедурных задачах (математика, код, логика) каждый шаг зависит от предыдущего — ошибка в начале ломает всё решение. Если модель додумала неправильно какое число использовать или в каком порядке считать — всё остальное пойдёт по ложному пути.

Детальный промпт снимает неопределённость: указывает конкретные числа, ожидаемый формат, порядок действий. Модель следует структуре, а не додумывает её сама. Это работает как явная инструкция вместо угадывания намерения — вместо "как он хотел?" модель получает "делай 1-2-3".

Но для креативных задач избыток деталей сужает пространство вариантов — модель следует указаниям вместо того, чтобы искать нестандартные пути. Принятие решений, этические дилеммы, генерация идей выигрывают от свободы интерпретации. Когда ты говоришь "оцени бизнес-идею" без уточнений, модель сама выбирает критерии и углы зрения — часто находит то, о чём ты не подумал.

Рычаги управления:

  • Уровень детализации → увеличь для процедурных задач (укажи все числа, шаги, формат), уменьши для креативных (оставь только суть вопроса)
  • Входные данные → перечисли явно все параметры, условия, ограничения для математики/кода; убери для идей/решений
  • Формат вывода → опиши ожидаемую структуру ответа ("покажи все шаги с формулами", "результат в виде таблицы") для процедурных задач; не указывай формат для креативных
  • Промежуточный запрос → если не уверен в уровне детализации, попроси модель сначала задать вопросы: "Какие данные тебе нужны для решения?"

📋

Шаблон промпта

Для процедурных задач (математика, код, логика, анализ данных):

{описание задачи одним предложением}

Вводные данные:
- {параметр_1}: {значение}
- {параметр_2}: {значение}
- {параметр_3}: {значение}

Что нужно рассчитать:
1. {результат_1}
2. {результат_2}
3. {результат_3}

Покажи все шаги расчётов с формулами.

Для креативных задач (принятие решений, этика, идеи, мозговые штурмы):

{краткое описание ситуации — 1-2 предложения}

{открытый вопрос без указания путей решения}

Пояснение плейсхолдеров: - {описание задачи} — что нужно сделать (например: "Посчитай окупаемость запуска подписки") - {параметр} и {значение} — конкретные числа и условия для расчётов (цена, конверсия, расходы) - {результат} — что именно ожидаешь увидеть (LTV, срок окупаемости, прогноз) - Для креативных задач убери весь блок с данными и форматом — оставь только контекст и вопрос


⚠️

Ограничения

⚠️ Креативные и субъективные задачи: Детальные промпты ограничивают пространство вариантов. Принятие решений, этические дилеммы, генерация идей почти не выигрывают от детализации (+2% точности) или проигрывают — модель следует твоим инструкциям вместо поиска нестандартных решений. Здесь "меньше = лучше".

⚠️ Оценка правильности через LLM: В исследовании корректность ответов проверяла сама GPT-модель через "семантическую эквивалентность" — не абсолютно надёжный метод. В задачах с множеством правильных решений (например, разные способы расчёта одной метрики) это создаёт шум. Выводы работают для большинства случаев, но не как строгая истина.

⚠️ Меньшие модели критически зависят от детализации: O3-mini проваливается на расплывчатых промптах (34% точности против 60% у GPT-4). Если используешь меньшую или более слабую модель — детализация становится критически важна. GPT-4 умеет внутренне компенсировать недостаток информации, но O3-mini такой способности нет.


🔍

Как исследовали

Команда создала 30 задач из пяти категорий: математические задачи, логические головоломки, здравый смысл, понимание кода и принятие решений. Для каждой задачи GPT-4 сгенерировала три версии промпта с разным уровнем детализации: расплывчатую (Level-1, в среднем 57 токенов), среднюю (Level-2) и детальную (Level-3, в среднем 124 токена). Специфичность промптов измерили через perplexity — метрику лингвистической предсказуемости: чем ниже, тем более общие и знакомые фразы.

Протестировали на GPT-4 и O3-mini с четырьмя стратегиями промптинга: обычный промпт (baseline), Chain-of-Thought ("давай подумаем пошагово"), Plan-and-Solve (сначала составь план, потом реши), и Self-Consistency (генерируем пять ответов, выбираем большинством голосов). Каждую комбинацию модель-стратегия-уровень повторили три раза и усреднили точность.

Правильность оценивали не строгим совпадением текста, а через семантическую эквивалентность: GPT-3.5 проверяла, совпадает ли смысл ответа с правильным решением, даже если формулировки разные. Это показало реальную картину — модели часто отвечают правильно, но другими словами, и string-matching пропустил бы такие ответы.

Главный сюрприз: Математика и логика получили огромный выигрыш от детализации (+47% и +36% точности), а задачи на принятие решений почти не изменились (+2%) — иногда даже проиграли. Это противоречило ожиданию, что "больше информации = лучше результат". Оказалось, избыток деталей сужает мышление модели в открытых задачах — она перестаёт искать альтернативы и следует только указанным путям.

Почему O3-mini проваливается? Меньшие модели не могут внутренне компенсировать недостаток информации — им нужна явная структура извне. GPT-4 же умеет "додумывать" неявное (какие числа использовать, в каком порядке считать), поэтому работает даже на коротких промптах. Это объясняет разницу в 26 процентных пунктов на расплывчатых baseline-промптах (60% у GPT-4 vs 34% у O3-mini).

Инсайт для практики: Добавление Chain-of-Thought или Self-Consistency компенсирует расплывчатость — O3-mini с CoT на Level-1 выдала 45% точности (против 34% без CoT). Если пишешь короткий промпт для слабой модели, добавь "давай подумаем пошагово" — это частично заменит детализацию.


💡

Адаптации и экстраполяции

💡 Адаптация для креативных задач — минимализм вместо детализации:

Когда задача требует нестандартного мышления или субъективной оценки, убери детализацию. Дай модели свободу интерпретации — она сама выберет критерии и углы зрения.

Задача: Оценить перспективность бизнес-идеи.

Промпт (минималистичный):

Идея: сервис аренды дизайнерской одежды с доставкой за 2 часа в Москве. 

Стоит ли вкладываться?

Модель выдаст несколько сценариев: оптимистичный (растущий спрос на шеринг, удобство), пессимистичный (логистика дорогая, узкая аудитория), альтернативные подходы (может, лучше маркетплейс вместо аренды?). Детальный промпт с конкретными вопросами ("оцени по критериям: рынок, логистика, конкуренция") сузил бы анализ только до указанных направлений — модель не стала бы искать неочевидные риски или возможности.


🔧 Техника: промежуточный запрос → модель сама определяет нужную детализацию

Если не уверен, какой уровень детализации нужен, попроси модель сначала запросить недостающую информацию. Она сама определит, что нужно для этого типа задачи.

{описание задачи общими словами}

Какие данные тебе нужны для решения? Задай мне вопросы.

Ты отвечаешь на вопросы — модель получает только релевантные детали, которые действительно нужны. Не перегружаешь промпт, не упускаешь критичное.


💡 Экстраполяция: Chain-of-Thought компенсирует расплывчатые промпты для слабых моделей

Исследование показало: CoT и Self-Consistency компенсируют недостаток детализации особенно для меньших моделей. Если пишешь короткий промпт (экономишь токены или не хочешь перегружать), добавь CoT.

{короткий расплывчатый промпт}

Давай подумаем пошагово.

Цифры: O3-mini на расплывчатом промпте (Level-1) без CoT: 34% точности. С CoT: 45% точности. Одна фраза даёт +11 процентных пунктов — модель начинает разбивать задачу на шаги сама, компенсируя отсутствие явной структуры.

Для GPT-4 эффект меньше (60% → 72%), потому что она и так умеет внутренне структурировать. Но для слабых моделей CoT — дешёвая замена детализации.


🔗

Ресурсы

DETAIL Matters: Measuring the Impact of Prompt Specificity on Reasoning in Large Language Models

Olivia Kim, Emory University

Упоминания и связи: Chain-of-Thought (Wei et al., 2022), Plan-and-Solve (Wang et al., 2023), Self-Consistency, Tree of Thoughts (Yao et al., 2023), perplexity для измерения специфичности промптов.


📋 Дайджест исследования

Ключевая суть

Парадокс: Больше деталей в промпте не равно лучше результат. Исследование показало что один и тот же вопрос в трёх версиях (короткий, средний, детальный) даёт разную точность в зависимости от типа задачи. Математика и код выигрывают от подробных промптов — +47% точности. А задачи на принятие решений почти не меняются — +2%, иногда минус. Причина: избыток деталей сужает пространство вариантов — модель следует инструкциям вместо поиска нестандартных решений. Меньшие модели вроде O3-mini проваливаются на расплывчатых промптах (34% точности), но GPT-4 справляется даже с короткими (60%) — большие модели умеют внутренне компенсировать недостаток информации.

Принцип работы

Процедурные задачи любят детали, креативные — нет. Если задача имеет чёткую структуру решения (математика, код, логические цепочки) — укажи все числа, шаги, формат вывода. Каждый шаг зависит от предыдущего, ошибка в начале ломает всё решение. Модель перестаёт додумывать и следует структуре. Но для креативных задач (принятие решений, этика, генерация идей) убери лишние детали — оставь только суть вопроса. Модель сама выбирает критерии и углы зрения, находит то о чём не подумал.

Почему работает

LLM хуже справляются с недоопределёнными задачами — когда не хватает входных данных или непонятна структура решения. В процедурных задачах ошибка в начале ломает всё решение — если модель додумала неправильно какое число использовать, всё остальное пойдёт по ложному пути. Детальный промпт снимает неопределённость: модель следует структуре, а не додумывает её сама. Но для креативных задач избыток деталей сужает пространство вариантов — модель следует указаниям вместо поиска нестандартных путей. Принятие решений, этические дилеммы выигрывают от свободы интерпретации — когда говоришь "оцени бизнес-идею" без уточнений, модель сама выбирает критерии и часто находит то о чём ты не подумал.

Когда применять

Процедурные задачи → детализируй промпт до максимума: математические расчёты, финансовые модели, написание и отладка кода, логические головоломки, анализ данных с конкретными метриками. Креативные задачи → упрости до сути вопроса: принятие решений с субъективными критериями, этические дилеммы, генерация идей, мозговые штурмы, креативные тексты с авторским стилем. Особенно критично для меньших моделей — O3-mini проваливается на расплывчатых промптах (34% против 60% у GPT-4).

Мини-рецепт

1. Определи тип задачи: Процедурная (есть чёткий алгоритм решения) или креативная (множество правильных подходов)?
2. Для процедурных — максимум деталей: Перечисли все входные данные (числа, параметры, условия), укажи ожидаемый формат вывода, опиши порядок действий. Пример: Посчитай окупаемость подписки. Вводные: стоимость 1990₽/месяц, конверсия 15%, стоимость привлечения (CAC) 3500₽, отток (churn) 8%/месяц. Рассчитай: 1) LTV подписчика 2) Срок окупаемости CAC 3) Прогноз прибыли через 6 и 12 месяцев при 1000 пробных пользователей. Покажи все шаги с формулами.
3. Для креативных — только суть: Убери все уточнения формата, критериев, путей решения. Оставь контекст и открытый вопрос. Пример: Оцени бизнес-идею: платформа для обмена навыками без денег. Какие риски и возможности?
4. Если не уверен — спроси модель: Попроси сначала задать вопросы: Какие данные тебе нужны для решения этой задачи? — модель сама покажет что уточнить.

Примеры

[ПЛОХО — расплывчатый промпт для процедурной задачи]: Посчитай окупаемость подписки на курсы — модель выдаст общие рассуждения без цифр или запросит недостающие данные, потеряешь время на уточнения. [ХОРОШО — детальный промпт с конкретными данными]: Посчитай окупаемость запуска платной подписки. Вводные: стоимость 1990₽/месяц, конверсия из пробного периода 15%, стоимость привлечения (CAC) 3500₽, отток (churn) 8%/месяц, операционные расходы на пользователя 200₽/месяц. Рассчитай: 1) LTV (lifetime value) одного подписчика 2) Срок окупаемости CAC в месяцах 3) Прогноз прибыли через 6 и 12 месяцев при 1000 пользователей в пробном периоде. Покажи все шаги расчётов с формулами. — получишь пошаговый расчёт с формулами: LTV через churn rate, период окупаемости CAC, прогноз по месяцам с учётом оттока. Все промежуточные шаги видны — можешь проверить логику.
Источник: DETAIL Matters: Measuring the Impact of Prompt Specificity on Reasoning in Large Language Models
ArXiv ID: 2512.02246 | Сгенерировано: 2026-01-06 00:59

Методы

МетодСуть
Адаптивная детализация по типу задачиДва правила: Для процедурных задач (математика, код, логика, анализ данных) детализируй максимально: перечисли все числа, параметры, условия, опиши формат вывода. Для креативных задач (идеи, решения, этика, мозговые штурмы) упрости до сути: контекст одним абзацем, открытый вопрос, никаких инструкций про формат. Почему работает: Процедурные задачи страдают от неопределённости — каждый шаг зависит от предыдущего, ошибка в начале ломает всё решение. Детали снимают неопределённость: модель следует структуре вместо угадывания. Креативные задачи выигрывают от свободы — избыток деталей заставляет модель следовать инструкциям вместо поиска нестандартных путей. Синтаксис для процедурных: Вводные: {параметр}: {значение} ... Рассчитай: 1. {результат_1} 2. {результат_2} ... Покажи все шаги. Синтаксис для креативных: {контекст 1-2 предложения} {открытый вопрос}. Когда применять: всегда — различай тип задачи перед написанием промпта. Разница в точности: +47% для процедурных, +2% для креативных при детализации

Тезисы

ТезисКомментарий
Избыток деталей сужает пространство решенийКогда даёшь модели подробные инструкции, она следует им буквально. Для математики и кода это хорошо — снимает неопределённость. Для креативных задач (идеи, решения, этика) это плохо — модель перестаёт искать нестандартные пути. Механика: детальный промпт создаёт рамки "делай так и так", модель оптимизирует выполнение инструкции вместо исследования вариантов. Применяй: Для мозговых штурмов, принятия решений, генерации идей пиши короткие расплывчатые промпты. Убери конкретные пути решения, формат ответа, примеры — оставь только суть вопроса
📖 Простыми словами

DETAIL: адаптивная детализация промптов под тип задачи

arXiv: 2512.02246

Суть тут простая: нейронки — это не телепаты, а калькуляторы вероятностей, которые дико лажают на недоопределенных задачах. Когда ты даешь модели расплывчатый запрос, она начинает додумывать контекст за тебя, и в 9 из 10 случаев выбирает не тот путь. В логических и математических задачах это фатально: если модель на первом шаге криво интерпретировала условие, вся дальнейшая цепочка рассуждений превращается в красиво оформленный бред. Исследование DETAIL доказывает, что точность ответа напрямую зависит от того, насколько жестко ты ограничил пространство для маневра.

Это как отправить стажера «купить что-нибудь к чаю», не уточнив бюджет и предпочтения. Он может принести пачку сушек, а может — дорогущий торт, который никто не ест. Формально задача выполнена, но по факту это провал, потому что ты ждал круассаны. С LLM та же история: без четких вводных она ведет себя как исполнительный, но туповатый сотрудник, который галлюцинирует детали, лишь бы не переспрашивать.

Фреймворк DETAIL раскладывает это на три уровня: от короткого «сделай как-нибудь» до детального ТЗ. Выяснилось, что для топовых моделей вроде GPT-4 или o3-mini критически важна специфичность промпта. Если ты просишь посчитать окупаемость подписки, но не даешь структуру (LTV, CAC, churn rate), модель может выдать случайные цифры. Но стоит добавить процедурные детали и четкие требования к шагам решения, как качество рассуждений взлетает. Это не просто «вежливость» с машиной, а устранение шума в ее логике.

Хотя тестировали это на математике и коде, принцип работает везде — от написания юридических договоров до составления планов тренировок. Любая задача, где есть зависимость шагов, требует детального промпта. Если ты не прописал условия, модель начнет импровизировать, а творчество в логике — это прямой путь к ошибке. DETAIL подтверждает: эпоха коротких промптов в духе «напиши мне код» уходит, на смену приходит инженерный подход к деталям.

Короче, если результат нейронки кажется тебе херней, скорее всего, ты просто пожалел слов на нормальное объяснение. Специфичность — это топливо для логики, а не просто лишние буквы. Либо ты тратишь минуту на подробный промпт, либо тратишь час на переделывание за моделью, которая не так поняла. В мире сложных задач длинный и точный промпт всегда бьет лаконичность.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с