3,583 papers
arXiv:2605.26655 71 26 мая 2026 г. FREE

Тип задачи диктует промпт: одни добавки помогают, другие вредят — зависит от типа задачи

КЛЮЧЕВАЯ СУТЬ
Парадокс: фраза 'будь внимателен к деталям' улучшает логические задачи и снижает точность математики. Анализ 20 тысяч реальных правок в промптах показал: один и тот же текст даёт противоположные эффекты в зависимости от типа задачи — не от качества самой добавки. Метод позволяет точно знать что добавлять, а что резать, прежде чем трогать промпт. Определи тип задачи — и ты уже на шаг впереди любого интуитивного редактирования.
Адаптировать под запрос

TL;DR

Промпт работает не по принципу "чем больше добавил, тем лучше". Исследователи проанализировали 20 тысяч реальных правок в промптах и обнаружили устойчивый паттерн: одни и те же добавки улучшают результат на одном типе задач и ухудшают на другом. Эффект воспроизводится на разных моделях и разных инструментах оптимизации.

Главная боль: пользователь добавляет в промпт уточнения — "будь точен", "проверь себя", "учти все детали" — и думает, что улучшает запрос. Для логических и последовательных задач это часто работает. Но для математики и задач, где нужно собрать ответ из нескольких шагов (найти факт → применить → вывести), такие добавки систематически снижают точность. Модель не стала глупее — она перегружена лишними инструкциями, которые мешают ей делать то, что она и так умеет.

Из этого вытекает практический принцип: перед тем как редактировать промпт, определи тип задачи. Для последовательных и логических задач добавляй пошаговые маркеры и самопроверку. Для математики и многошаговых вычислений — убирай лишнее, держи промпт как можно чище.


🔬

Схема метода

ШАГ 1: Определи тип задачи
   → Математика / многошаговый поиск (multi-hop) → иди к блоку А
   → Логика / последовательные действия → иди к блоку Б

БЛОК А (Математика, multi-hop):
   УБЕРИ: мета-инструкции ("будь внимателен", "проверь")
   УБЕРИ: лишний контекст, не связанный прямо с задачей
   УБЕРИ: примеры (few-shot), если их много
   ОСТАВЬ: формулировку задачи + формат ответа
   → Принцип: чем меньше — тем лучше

БЛОК Б (Логика, последовательные задачи):
   ДОБАВЬ: пошаговые маркеры ("Шаг 1:", "Шаг 2:")
   ДОБАВЬ: самопроверку ("После каждого шага проверь правильность")
   ДОБАВЬ: мета-когнитивные инструкции ("Отслеживай ход рассуждения")
   → Принцип: структура и самоконтроль помогают

Всё выполняется в обычном чате, никаких дополнительных инструментов.


🚀

Пример применения

Задача: Ты основатель и просишь Claude помочь с двумя задачами: посчитать unit-экономику и разработать план выхода на новый рынок.

Промпт для математики (блок А — lean):

Посчитай unit-экономику:

— CAC = 3 500 ₽
— средний чек = 4 200 ₽
— маржа = 35%
— средний LTV = 14 месяцев

Покажи: LTV, LTV/CAC, срок окупаемости в месяцах.

Не добавляй к этому промпту: "Будь очень внимателен к деталям", "Проверь все расчёты трижды", "Ты опытный финансовый аналитик с 20-летним стажем" — исследование показывает, что такие добавки систематически снижают точность математических вычислений.


Промпт для разработки плана (блок Б — structured):

Разработай план выхода нашего SaaS-сервиса на рынок Казахстана.

Работай пошагово:
Шаг 1: Определи ключевые отличия рынка от России
Шаг 2: Выяви главные барьеры входа
Шаг 3: Предложи 3 тактики для первых 90 дней
Шаг 4: Проверь каждую тактику на реализуемость при бюджете до 500 000 ₽

После каждого шага сделай короткий вывод перед переходом к следующему.

Результат: Модель выдаст структурированный разбор по шагам с явными промежуточными выводами. Финальные тактики будут уже отфильтрованы по бюджетному критерию — именно потому что самопроверка встроена в процесс.


🧠

Почему это работает

Слабость LLM при переизбытке инструкций: Когда промпт содержит математическую задачу плюс слой мета-инструкций ("проверь", "будь точен", "думай как эксперт"), модель генерирует текст, который соответствует обоим паттернам одновременно. Для чистого расчёта это создаёт конкуренцию между паттернами — и точность падает. Модель начинает "следовать роли внимательного эксперта" вместо того, чтобы просто считать.

Сила LLM в структурированных рассуждениях: Для задач, где нужна цепочка действий, работает обратная логика. Явные шаги и команды самопроверки дают модели паттерн, который она умеет воспроизводить хорошо. Пошаговый формат буквально показывает модели нужную структуру вывода — вместо того чтобы надеяться, что она догадается.

Рычаги управления: - Убери все "мета-слова" из математического промпта ("внимательно", "тщательно", "как эксперт") → чище результат - Добавь номера шагов явно в логические задачи → структурирует вывод - Контролируй количество примеров (few-shot): для логики и многошаговых задач небольшое количество примеров помогает, для последовательных — может мешать - Встрой критерий проверки прямо в шаг ("Шаг 3: проверь совместимость с бюджетом") → модель применяет его в нужный момент, не в конце


📋

Шаблон промпта

Для математики и многошаговых фактических задач (блок А):

{Задача одним абзацем без лирики}

Исходные данные:
— {параметр 1} = {значение}
— {параметр 2} = {значение}

Нужно: {конкретный результат в одном предложении}

Для логических и последовательных задач (блок Б):

{Задача}.

Работай пошагово:
Шаг 1: {первое действие}
Шаг 2: {второе действие}
Шаг 3: {третье действие}
Шаг 4: Проверь каждый предыдущий шаг на соответствие критерию: {твой критерий}

После каждого шага сформулируй короткий вывод.

Плейсхолдеры: - {Задача} — что нужно сделать - {параметр}, {значение} — входные данные для расчётов - {конкретный результат} — что именно вернуть - {первое/второе/третье действие} — шаги под твою задачу - {твой критерий} — условие проверки (бюджет, реализуемость, соответствие требованиям)

🚀 Быстрый старт — вставь в чат:

Помоги адаптировать этот шаблон под мою задачу. 
Задай вопросы, чтобы понять тип задачи и заполнить поля.

[вставить шаблон выше]

LLM уточнит: математика это или логика, какие данные есть, что нужно на выходе — потому что от типа задачи зависит какой из двух шаблонов выбрать и как заполнить шаги.


⚠️

Ограничения

⚠️ Ассоциация, не причина: Исследователи честно оговариваются — это наблюдательное исследование, не эксперимент. Они нашли устойчивые паттерны, но не могут гарантировать, что именно добавка мета-инструкций вызывает снижение точности для математики. Возможно, оба явления связаны с третьим фактором. Используй как рабочую гипотезу, проверяй на своих задачах.

⚠️ Размытая граница типов задач: Реальные задачи редко попадают в чистую категорию. "Составь финансовую модель" — это и математика, и логика одновременно. Принцип работает чётко только на задачах, которые явно тяготеют к одному типу.

⚠️ Математика с высокой базой: Эффект для математических бенчмарков мог частично быть эффектом потолка — модели изначально решали их очень точно (средняя база ~97%), и любое изменение промпта только ухудшало результат. Для нестандартных или сложных математических задач картина может отличаться.

⚠️ Не для бытовых задач: Закономерности проверялись на задачах с объективно измеримым ответом (правильно/неправильно). Для творческих, субъективных или открытых задач ("напиши текст про X") эти принципы не тестировались.


🔍

Как исследовали

Идея была простой: взять реальные логи автоматических оптимизаторов промптов и посмотреть, какие конкретные правки помогают, а какие вредят. Исследователи собрали больше 20 тысяч пар "промпт до → промпт после" из трёх разных инструментов (DSPy, TextGrad, GEPA), протестированных на пяти моделях — включая GPT-4o, GPT-5.2, Qwen3-32B и Deepseek.

Каждый промпт оценивался по 12 параметрам (насколько сложен, насколько содержит лишний контекст, есть ли мета-инструкции, есть ли пошаговые маркеры). Потом смотрели: когда параметр рос от одной версии промпта к другой — точность на задание улучшалась или падала? И насколько стабильно это повторялось.

Чтобы не спутать причину со следствием (может, мета-инструкции добавляют именно когда промпт уже плохо работает?), команда применила метод взвешивания по склонности (IPTW) — это способ сделать сравнение честнее, учитывая исходное состояние промпта. Из 60 проверенных пар "тип правки × тип задачи" статистически устойчивыми после поправки на множественные сравнения оказались только два: лишний контекст вредит последовательным задачам и метакогнитивные инструкции помогают последовательным задачам. Остальные паттерны — воспроизводимые, но не окончательно доказанные.

Удивительно: результат стабилен при смене модели. GPT, Qwen, Deepseek — у всех похожая реакция на одни и те же типы правок. Это говорит о том, что мы имеем дело со свойством архитектуры языковых моделей, а не конкретной реализации.


💡

Адаптации и экстраполяции

💡 Адаптация: диагностика "почему промпт не работает"

Если модель стабильно даёт неточные ответы — проверь промпт на "лишние слои":

Посмотри на этот промпт и скажи:
1. Это математическая задача или задача на рассуждение?
2. Есть ли в промпте мета-инструкции ("будь внимателен", "думай как эксперт")?
3. Есть ли лишний контекст, не связанный прямо с вычислением?

Если задача математическая — предложи версию промпта без мета-инструкций и лишнего контекста.
Если задача на рассуждение — добавь пошаговую структуру и самопроверку.

Промпт: {вставить твой промпт}

🔧 Техника: аудит промпта перед отправкой

Прежде чем отправить промпт, быстро проверь себя: - Считает что-то → убери "будь внимателен" и похожие фразы - Рассуждает, строит план, анализирует → добавь "Шаг 1:", "Шаг 2:", условие проверки в конце

Это занимает 10 секунд и снижает вероятность случайного ухудшения ответа за счёт "улучшений" промпта.


🔗

Ресурсы

Название работы: Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis

Авторы: Shuzhi Gong (University of Melbourne), Hechuan Wen (University of Queensland)

Связанные инструменты из исследования: DSPy (Stanford), TextGrad, GEPA

Бенчмарки: GSM8K, MultiArith, CommonsenseQA, BIG-Bench Hard (boolean expressions, coin flip, last letters, date understanding, strategy QA, ListOps)


📋 Дайджест исследования

Ключевая суть

Парадокс: фраза 'будь внимателен к деталям' улучшает логические задачи и снижает точность математики. Анализ 20 тысяч реальных правок в промптах показал: один и тот же текст даёт противоположные эффекты в зависимости от типа задачи — не от качества самой добавки. Метод позволяет точно знать что добавлять, а что резать, прежде чем трогать промпт. Определи тип задачи — и ты уже на шаг впереди любого интуитивного редактирования.

Принцип работы

Не 'промпт хороший или плохой' — а 'подходит ли добавка к типу задачи'. Два разных мира: Математика и многошаговый поиск — промпт должен быть голым: только данные и нужный результат. Мета-инструкции ('проверь себя', 'думай как эксперт') создают конкуренцию внутри модели. Она начинает 'играть роль внимательного эксперта' вместо того чтобы просто считать. Итог: точность падает. Логика и последовательные задачи — наоборот. Явные шаги и встроенная самопроверка дают модели нужную структуру прямо в промпте. Она не угадывает формат — ты его показываешь.

Почему работает

Модель не читает промпт как список требований. Она генерирует текст, который соответствует паттернам из обучения. Добавь в математический промпт 'будь внимателен' — и одновременно активируются два конкурирующих паттерна: 'реши задачу' и 'веди себя как осторожный эксперт'. Побеждает не тот что нужен — точность проседает. Для логических задач пошаговые маркеры работают иначе: они не конкурируют с задачей, а буквально показывают нужную структуру вывода. Модель воспроизводит паттерн, который уже видит перед собой.

Когда применять

Математика, расчёты, многошаговый поиск фактов → убирай мета-слова. Оставляй только данные и формат ответа. Логика, планирование, пошаговый анализ → добавляй явные шаги и встроенные критерии проверки прямо в каждый шаг. НЕ подходит для: творческих задач, субъективных оценок и открытых вопросов без чёткого правильного ответа — на этих типах паттерн не проверялся.

Мини-рецепт

1. Определи тип задачи: это расчёт с конкретным ответом или цепочка рассуждений? Граница проходит там — где есть числа и факты, или где нужно принять серию решений.

2. Для математики и фактических задач — обнажи промпт: убери всё после формулировки задачи. Никаких 'будь точен', 'проверь себя', 'ты опытный аналитик'. Оставь данные и одну строчку с нужным результатом.

Пример: CAC = 3500₽, средний чек = 4200₽, маржа = 35%, срок жизни клиента = 14 мес. Нужно: LTV, LTV/CAC, срок окупаемости в месяцах.

3. Для логических и последовательных задач — встрой структуру: пронумеруй шаги явно. В последний шаг добавь критерий проверки — не в конце как дополнение, а прямо в шаг.

Пример хвоста: Шаг 4: проверь каждую тактику на реализуемость при бюджете до 500 000 ₽. После каждого шага — короткий вывод перед переходом к следующему.

4. Проверь результат и сравни: если точность или структура не устраивает — сначала проверь, не смешаны ли типы в одном промпте. Смешанные задачи (считай финмодель И придумай стратегию) лучше бить на два отдельных запроса.

Примеры

[ПЛОХО]: `Ты опытный финансовый аналитик с 20-летним стажем. Будь очень внимателен к деталям и проверь расчёты трижды. CAC = 3500₽, средний чек = 4200₽, маржа 35%, LTV 14 мес. Посчитай unit-экономику.` [ХОРОШО]: `Посчитай unit-экономику. Данные: — CAC = 3500₽ — Средний чек = 4200₽ — Маржа = 35% — Срок жизни клиента = 14 мес. Нужно: LTV, соотношение LTV/CAC, срок окупаемости в месяцах.` --- [ПЛОХО]: `Составь план выхода на рынок Казахстана.` [ХОРОШО]: `Разработай план выхода нашего сервиса на рынок Казахстана. Работай пошагово: Шаг 1: Определи ключевые отличия рынка от России Шаг 2: Выяви главные барьеры входа Шаг 3: Предложи 3 тактики для первых 90 дней Шаг 4: Проверь каждую тактику на реализуемость при бюджете до 500 000 ₽ После каждого шага — короткий вывод перед переходом к следующему.`
Источник: Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis
ArXiv ID: 2605.26655 | Сгенерировано: 2026-05-27 07:30

Проблемы LLM

ПроблемаСутьКак обойти
Мета-инструкции мешают математикеДобавляешь в запрос "будь внимателен", "проверь себя", "думай как эксперт". Для логических задач — помогает. Для математики и многошаговых вычислений — систематически снижает точность. Модель начинает "играть роль внимательного эксперта" вместо того чтобы считать. Паттерн "эксперт" конкурирует с паттерном "расчёт".Для математики — убирай все мета-слова. Оставляй только данные и формат ответа. Никаких ролей, никаких просьб "быть внимательным".

Методы

МетодСуть
Тип задачи тип запросаПеред правкой запроса определи тип задачи. Математика, факты, многошаговые вычисления: убери всё лишнее. Только данные + нужный результат. Логика, планирование, последовательные действия: добавь явные шаги (Шаг 1:, Шаг 2:), встрой самопроверку в нужный шаг (Шаг 4: проверь каждую идею на соответствие критерию: {твой критерий}). Почему работает: Для вычислений конкуренция паттернов снижает точность — чище запрос, точнее результат. Для рассуждений явная структура буквально показывает модели нужный формат вывода. Когда не работает: задача одновременно математическая и логическая — граница размытая, нужно проверять.
📖 Простыми словами

WhyPromptOptimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis

arXiv: 2605.26655

Промпты работают не как заклинания, где каждое новое слово усиливает магию, а как настройка фильтров. Исследователи прогнали 20 тысяч правок через разные модели и поняли: LLM — это не бездонный колодец, а система с ограниченным фокусом. Когда ты добавляешь в промпт новую инструкцию, она не просто встает в очередь, она конкурирует за внимание модели с предыдущими командами. Если ты просишь нейронку одновременно быть «креативным копирайтером» и «строгим аналитиком», она не станет супергероем, она просто начнет лажать в обеих ролях.

Это как пытаться одновременно учить человека водить машину и рассказывать ему анекдоты. Вроде бы ты даешь больше информации, но по факту водитель либо пропустит поворот, либо не посмеется. В нейронках этот эффект называется конфликтом паттернов: модель пытается соответствовать всем твоим «будь точен» и «думай как эксперт» сразу, и в итоге тратит вычислительный ресурс на имитацию стиля вместо решения самой задачи.

Главный вывод исследования — универсальных промптов не существует. То, что спасает творческую задачу, напрочь убивает математику. Например, добавление фразы «проверь себя дважды» реально помогает в логических цепочках, но когда дело доходит до простых вычислений или извлечения данных, эта же добавка заставляет модель «мудрить» там, где нужно просто выдать результат. В итоге точность падает, потому что модель слишком занята ролью «проверяльщика».

Этот принцип применим везде: от настройки чат-ботов для поддержки до написания кода. Тестировали на разных моделях, но паттерн везде одинаковый. Если ты берешь «золотой промпт» из интернета, который обещает улучшить всё на свете, скорее всего, он сделает твою конкретную задачу хуже. Нельзя просто наваливать инструкции горой — нужно понимать, какой тип задачи ты решаешь сейчас, иначе ты просто зашумляешь сигнал бесполезным мусором.

Короче, пора перестать верить в магические фразы-улучшайзеры. Промпт-инжиниринг — это хирургия, а не стройка, здесь лишняя деталь не укрепляет конструкцию, а вызывает отторжение. Если результат стал хуже после «оптимизации», значит, ты перегрузил модель мета-инструкциями и она забыла, зачем пришла. Оставляй только то, что бьет точно в цель, и безжалостно вырезай всё остальное, даже если это звучит очень вежливо и экспертно.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с