TL;DR
Промпт работает не по принципу "чем больше добавил, тем лучше". Исследователи проанализировали 20 тысяч реальных правок в промптах и обнаружили устойчивый паттерн: одни и те же добавки улучшают результат на одном типе задач и ухудшают на другом. Эффект воспроизводится на разных моделях и разных инструментах оптимизации.
Главная боль: пользователь добавляет в промпт уточнения — "будь точен", "проверь себя", "учти все детали" — и думает, что улучшает запрос. Для логических и последовательных задач это часто работает. Но для математики и задач, где нужно собрать ответ из нескольких шагов (найти факт → применить → вывести), такие добавки систематически снижают точность. Модель не стала глупее — она перегружена лишними инструкциями, которые мешают ей делать то, что она и так умеет.
Из этого вытекает практический принцип: перед тем как редактировать промпт, определи тип задачи. Для последовательных и логических задач добавляй пошаговые маркеры и самопроверку. Для математики и многошаговых вычислений — убирай лишнее, держи промпт как можно чище.
Схема метода
ШАГ 1: Определи тип задачи
→ Математика / многошаговый поиск (multi-hop) → иди к блоку А
→ Логика / последовательные действия → иди к блоку Б
БЛОК А (Математика, multi-hop):
УБЕРИ: мета-инструкции ("будь внимателен", "проверь")
УБЕРИ: лишний контекст, не связанный прямо с задачей
УБЕРИ: примеры (few-shot), если их много
ОСТАВЬ: формулировку задачи + формат ответа
→ Принцип: чем меньше — тем лучше
БЛОК Б (Логика, последовательные задачи):
ДОБАВЬ: пошаговые маркеры ("Шаг 1:", "Шаг 2:")
ДОБАВЬ: самопроверку ("После каждого шага проверь правильность")
ДОБАВЬ: мета-когнитивные инструкции ("Отслеживай ход рассуждения")
→ Принцип: структура и самоконтроль помогают
Всё выполняется в обычном чате, никаких дополнительных инструментов.
Пример применения
Задача: Ты основатель и просишь Claude помочь с двумя задачами: посчитать unit-экономику и разработать план выхода на новый рынок.
Промпт для математики (блок А — lean):
Посчитай unit-экономику:
— CAC = 3 500 ₽
— средний чек = 4 200 ₽
— маржа = 35%
— средний LTV = 14 месяцев
Покажи: LTV, LTV/CAC, срок окупаемости в месяцах.
❌ Не добавляй к этому промпту: "Будь очень внимателен к деталям", "Проверь все расчёты трижды", "Ты опытный финансовый аналитик с 20-летним стажем" — исследование показывает, что такие добавки систематически снижают точность математических вычислений.
Промпт для разработки плана (блок Б — structured):
Разработай план выхода нашего SaaS-сервиса на рынок Казахстана.
Работай пошагово:
Шаг 1: Определи ключевые отличия рынка от России
Шаг 2: Выяви главные барьеры входа
Шаг 3: Предложи 3 тактики для первых 90 дней
Шаг 4: Проверь каждую тактику на реализуемость при бюджете до 500 000 ₽
После каждого шага сделай короткий вывод перед переходом к следующему.
Результат: Модель выдаст структурированный разбор по шагам с явными промежуточными выводами. Финальные тактики будут уже отфильтрованы по бюджетному критерию — именно потому что самопроверка встроена в процесс.
Почему это работает
Слабость LLM при переизбытке инструкций: Когда промпт содержит математическую задачу плюс слой мета-инструкций ("проверь", "будь точен", "думай как эксперт"), модель генерирует текст, который соответствует обоим паттернам одновременно. Для чистого расчёта это создаёт конкуренцию между паттернами — и точность падает. Модель начинает "следовать роли внимательного эксперта" вместо того, чтобы просто считать.
Сила LLM в структурированных рассуждениях: Для задач, где нужна цепочка действий, работает обратная логика. Явные шаги и команды самопроверки дают модели паттерн, который она умеет воспроизводить хорошо. Пошаговый формат буквально показывает модели нужную структуру вывода — вместо того чтобы надеяться, что она догадается.
Рычаги управления: - Убери все "мета-слова" из математического промпта ("внимательно", "тщательно", "как эксперт") → чище результат - Добавь номера шагов явно в логические задачи → структурирует вывод - Контролируй количество примеров (few-shot): для логики и многошаговых задач небольшое количество примеров помогает, для последовательных — может мешать - Встрой критерий проверки прямо в шаг ("Шаг 3: проверь совместимость с бюджетом") → модель применяет его в нужный момент, не в конце
Шаблон промпта
Для математики и многошаговых фактических задач (блок А):
{Задача одним абзацем без лирики}
Исходные данные:
— {параметр 1} = {значение}
— {параметр 2} = {значение}
Нужно: {конкретный результат в одном предложении}
Для логических и последовательных задач (блок Б):
{Задача}.
Работай пошагово:
Шаг 1: {первое действие}
Шаг 2: {второе действие}
Шаг 3: {третье действие}
Шаг 4: Проверь каждый предыдущий шаг на соответствие критерию: {твой критерий}
После каждого шага сформулируй короткий вывод.
Плейсхолдеры:
- {Задача} — что нужно сделать
- {параметр}, {значение} — входные данные для расчётов
- {конкретный результат} — что именно вернуть
- {первое/второе/третье действие} — шаги под твою задачу
- {твой критерий} — условие проверки (бюджет, реализуемость, соответствие требованиям)
🚀 Быстрый старт — вставь в чат:
Помоги адаптировать этот шаблон под мою задачу.
Задай вопросы, чтобы понять тип задачи и заполнить поля.
[вставить шаблон выше]
LLM уточнит: математика это или логика, какие данные есть, что нужно на выходе — потому что от типа задачи зависит какой из двух шаблонов выбрать и как заполнить шаги.
Ограничения
⚠️ Ассоциация, не причина: Исследователи честно оговариваются — это наблюдательное исследование, не эксперимент. Они нашли устойчивые паттерны, но не могут гарантировать, что именно добавка мета-инструкций вызывает снижение точности для математики. Возможно, оба явления связаны с третьим фактором. Используй как рабочую гипотезу, проверяй на своих задачах.
⚠️ Размытая граница типов задач: Реальные задачи редко попадают в чистую категорию. "Составь финансовую модель" — это и математика, и логика одновременно. Принцип работает чётко только на задачах, которые явно тяготеют к одному типу.
⚠️ Математика с высокой базой: Эффект для математических бенчмарков мог частично быть эффектом потолка — модели изначально решали их очень точно (средняя база ~97%), и любое изменение промпта только ухудшало результат. Для нестандартных или сложных математических задач картина может отличаться.
⚠️ Не для бытовых задач: Закономерности проверялись на задачах с объективно измеримым ответом (правильно/неправильно). Для творческих, субъективных или открытых задач ("напиши текст про X") эти принципы не тестировались.
Как исследовали
Идея была простой: взять реальные логи автоматических оптимизаторов промптов и посмотреть, какие конкретные правки помогают, а какие вредят. Исследователи собрали больше 20 тысяч пар "промпт до → промпт после" из трёх разных инструментов (DSPy, TextGrad, GEPA), протестированных на пяти моделях — включая GPT-4o, GPT-5.2, Qwen3-32B и Deepseek.
Каждый промпт оценивался по 12 параметрам (насколько сложен, насколько содержит лишний контекст, есть ли мета-инструкции, есть ли пошаговые маркеры). Потом смотрели: когда параметр рос от одной версии промпта к другой — точность на задание улучшалась или падала? И насколько стабильно это повторялось.
Чтобы не спутать причину со следствием (может, мета-инструкции добавляют именно когда промпт уже плохо работает?), команда применила метод взвешивания по склонности (IPTW) — это способ сделать сравнение честнее, учитывая исходное состояние промпта. Из 60 проверенных пар "тип правки × тип задачи" статистически устойчивыми после поправки на множественные сравнения оказались только два: лишний контекст вредит последовательным задачам и метакогнитивные инструкции помогают последовательным задачам. Остальные паттерны — воспроизводимые, но не окончательно доказанные.
Удивительно: результат стабилен при смене модели. GPT, Qwen, Deepseek — у всех похожая реакция на одни и те же типы правок. Это говорит о том, что мы имеем дело со свойством архитектуры языковых моделей, а не конкретной реализации.
Адаптации и экстраполяции
💡 Адаптация: диагностика "почему промпт не работает"
Если модель стабильно даёт неточные ответы — проверь промпт на "лишние слои":
Посмотри на этот промпт и скажи:
1. Это математическая задача или задача на рассуждение?
2. Есть ли в промпте мета-инструкции ("будь внимателен", "думай как эксперт")?
3. Есть ли лишний контекст, не связанный прямо с вычислением?
Если задача математическая — предложи версию промпта без мета-инструкций и лишнего контекста.
Если задача на рассуждение — добавь пошаговую структуру и самопроверку.
Промпт: {вставить твой промпт}
🔧 Техника: аудит промпта перед отправкой
Прежде чем отправить промпт, быстро проверь себя: - Считает что-то → убери "будь внимателен" и похожие фразы - Рассуждает, строит план, анализирует → добавь "Шаг 1:", "Шаг 2:", условие проверки в конце
Это занимает 10 секунд и снижает вероятность случайного ухудшения ответа за счёт "улучшений" промпта.
Ресурсы
Название работы: Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis
Авторы: Shuzhi Gong (University of Melbourne), Hechuan Wen (University of Queensland)
Связанные инструменты из исследования: DSPy (Stanford), TextGrad, GEPA
Бенчмарки: GSM8K, MultiArith, CommonsenseQA, BIG-Bench Hard (boolean expressions, coin flip, last letters, date understanding, strategy QA, ListOps)
