3,583 papers
arXiv:2605.26731 74 26 мая 2026 г. FREE

Парадокс структуры промпта: больше инструкций — не всегда лучше

КЛЮЧЕВАЯ СУТЬ
Добавил шаги, критерии и требования к формату — всё ради точного JSON. Получил подробный отчёт о том, как модель этот JSON составляла. Это не баг и не невнимательность — исследование показало: GPT-4o и Claude систематически деградируют при перегрузке промпта структурой. Метод даёт простую диагностику: какой стиль нужен под конкретную модель и задачу. Фишка: reasoning-модель (o1, Claude extended thinking) требует ровно противоположного — больше этапов и чётких критериев успеха. Одна и та же «улучшенная» инструкция — это апгрейд для o1 и деградация для GPT-4o.
Адаптировать под запрос

TL;DR

ChatGPT и Claude работают хуже, когда промпт перегружен структурой: этапами, правилами, требованиями к формату и процессу одновременно. Исследователи называют это harness-complexity paradox — парадокс сложности инструкций. Чем подробнее инструкция для чат-модели, тем сильнее она «съезжает» в объяснения вместо чистого вывода.

Главная боль: просишь модель дать JSON или таблицу, добавляешь «для надёжности» шаги выполнения и критерии проверки — получаешь красивый рассказ о том, как она всё сделала, вместо самого результата. Модель не игнорирует задачу — она понимает её, но конкурирующие инструкции (объясни процесс + выдай формат) тянут в разные стороны, и побеждает проза.

Reasoning-модели (o1, Claude в режиме расширенного мышления) устроены иначе: им нужна больше структуры — чёткие критерии успеха сокращают не только ошибки, но и время ответа. Разные типы моделей требуют противоположных подходов.


🔬

Схема метода

Это не пошаговая техника, а диагностическая матрица — два измерения определяют правильный стиль промпта:

ТИП МОДЕЛИ × ТИП ЗАДАЧИ → СТИЛЬ ПРОМПТА

[Чат-модель] × [нужен чистый формат: JSON, таблица, список]
  → МИНИМАЛЬНЫЙ промпт: прямо скажи что нужно, без шагов и процесса

[Чат-модель] × [координация нескольких файлов / многошаговые операции]
  → УМЕРЕННЫЙ промпт: 3-4 шага, допустима структура

[Reasoning-модель] × [любая сложная задача]
  → СТРОГИЙ промпт: явные этапы + критерии успеха + что считается верным

[Слабая модель] × [любая задача]
  → УМЕРЕННЫЙ промпт: нужен список разрешённых действий, но не перегружай

Всё работает в одном промпте — запрос не делится на отдельные сообщения.


🚀

Пример применения

Задача: Ты — основатель небольшого SaaS-сервиса для малого бизнеса. Хочешь попросить ChatGPT (GPT-4o) проанализировать три конкурента и вернуть данные в виде таблицы: название, цена, ключевые фичи, слабое место.

❌ Промпт, который ломает результат:

Ты — эксперт по конкурентному анализу. Выполни следующие шаги:

Шаг 1. Изучи информацию о конкурентах ниже.
Шаг 2. Составь план анализа.
Шаг 3. Проанализируй каждого конкурента по критериям.
Шаг 4. Проверь полноту анализа.
Шаг 5. Сформируй финальный отчёт в виде таблицы.

Критерии: цена, ключевые фичи, слабое место.
Убедись, что анализ полный и обоснованный.

[данные о конкурентах]

✅ Промпт, который работает:

Вот данные о трёх конкурентах: [данные]

Верни таблицу в формате:
| Название | Цена | Ключевые фичи | Слабое место |

Только таблица, без пояснений.

Результат: Прямой промпт вернёт чистую таблицу без вводных, объяснений и «подведения итогов». Многошаговый промпт с высокой вероятностью вернёт тот же контент, обёрнутый в абзацы рассуждений — модель будет «отчитываться» о каждом шаге.


🧠

Почему это работает

Слабость чат-моделей: У них нет жёсткого «режима вывода» — они генерируют следующий токен, ориентируясь на весь предыдущий текст. Когда промпт длинный и процессный, паттерн генерации смещается в сторону объяснений. Инструкция «выполни шаг 2, затем шаг 3» активирует паттерн «рассказывать о действиях», а не «выдавать результат».

Сильная сторона чат-моделей: Они отлично понимают прямые, конкретные указания. «Верни JSON с полями X и Y — только JSON» — это однозначный сигнал. Нет конкуренции между «объясни процесс» и «дай формат».

Reasoning-модели работают иначе: Они проводят внутреннее «обдумывание» до генерации ответа. Чёткие критерии успеха дают этому внутреннему процессу ориентиры — модель знает, что считать завершённым. Без ориентиров она блуждает дольше и делает больше ошибок. Парадокс: строгая инструкция для o1 сокращает время ответа — модель тратит меньше внутренних итераций.

Рычаги управления:

Что менять Эффект
Убрать «шаги выполнения» Меньше прозы, чище формат
Добавить «только результат, без объяснений» Снижает «отчётность»
Для reasoning-модели: добавить «успешный результат выглядит так: [пример]» Уменьшает время и ошибки
Перенести требования к формату в конец промпта отдельным блоком Снижает конфликт инструкций

📋

Шаблон промпта

Для чат-модели (GPT-4o, Claude) + задачи с нужным форматом:

{контекст и данные}

Верни {нужный формат: таблицу / JSON / список} с полями: {поля}.

Только {формат}, без пояснений.

Для reasoning-модели (o1, Claude extended thinking) + сложная задача:

Задача: {задача}

Данные: {данные}

Этапы:
1. {этап 1}
2. {этап 2}
3. {этап 3}

Успешный результат: {конкретное описание что должно получиться}.
Формат вывода: {формат}.

Диагностический промпт — если не знаешь какой стиль выбрать:

Мне нужно {описание задачи}.

Я буду использовать {название модели}. 
Какой стиль промпта даст лучший результат: 
минимальный (прямой запрос), умеренный (3-4 шага) или строгий (этапы + критерии)?
Объясни коротко почему.

🚀 Быстрый старт — вставь в чат:

Помоги мне написать промпт под конкретную задачу. 
Я использую [модель — GPT-4o / Claude / o1].
Мне нужно получить [что именно — JSON / таблицу / анализ / текст].

Задача: [твоя задача]

Вставь шаблон выше и адаптируй.

LLM спросит о типе нужного вывода и модели — потому что именно от этих двух факторов зависит правильный стиль промпта.


⚠️

Ограничения

⚠️ Один представитель на тип модели: Каждый «класс» (чат, reasoning, слабая) представлен одной моделью. Нельзя уверенно сказать «все чат-модели» — это наблюдение по конкретным моделям.

⚠️ Только задачи с кодом и файлами: Бенчмарк — агентские задачи с изменением файлов в репозитории. Для чисто текстовых задач закономерности могут отличаться.

⚠️ Парадокс специфичен для формат-чувствительных задач: Структурное редактирование и «починка» работают хорошо при любой структуре промпта. Проблема — именно задачи с нужным форматом вывода (JSON, схема).

⚠️ Результаты предварительные: Авторы сами предупреждают — нужно минимум 3 повторения для статистической надёжности. Часть результатов — с одним прогоном.


🔍

Как исследовали

Идея была простой: взять 6 разных моделей — от топовых API-моделей до маленьких локальных — и прогнать каждую на одних и тех же 24 задачах, но с тремя версиями промпта: минимальной, средней и строгой. 432 прогона всего. Задачи — агентские: модели читали файлы в git-репозитории и вносили изменения. Верификатор просто смотрел на git diff — изменился ли нужный файл так, как надо. Никакого субъективного суждения.

Самый неожиданный результат — Gemma4 с 2 миллиардами параметров показала такую же стабильность как GPT-OSS-120B с 60-кратно большим количеством параметров. Это разрушает интуицию «больше параметров = лучше». Оказалось, что качество инструкционного тюнинга важнее размера — модель обучена следовать инструкциям, и это важнее чем просто «знать много».

Ещё один противоречивый результат: строгий промпт для reasoning-модели не только поднял точность, но и снизил задержку на 34%. Чёткие критерии буквально «укоротили» внутренние размышления модели.


📄

Оригинал из исследования

Три уровня harness (промпта-обёртки):

Light: A two-line prompt: role statement plus the raw task instruction. 
No format specification, no scope constraint, no verification procedure.

Balanced: Adds a four-step process template (plan, execute, check, respond) 
and lists the allowed files. No schema or verification spec.

Strict: Adds six explicit stages (preflight / plan / execute / verify / recover / report), 
an allowed-file list, explicit success criteria, a verification specification, 
and instructions to express file changes using the <<>> marker.

Контекст: Это три версии одного и того же задания — минимальная, средняя, максимально структурированная. Разница только в обёртке вокруг задачи, не в самой задаче.


💡

Адаптации и экстраполяции

💡 Диагностика по типу ошибки — что пошло не так:

Исследование даёт таксономию ошибок, которую можно применить напрямую. Если модель ошиблась — посмотри что именно:

Ошибка Что это значит Что делать
Получил прозу вместо формата Промпт конкурирует сам с собой Убери шаги, оставь только формат
Модель изменила не тот файл / раздел Промпт слишком лёгкий — нет ограничений Добавь явный список допустимых действий
Правильная структура, неверные данные Проблема понимания, не формата Пересмотри задачу, не структуру промпта

🔧 Техника: разделяй задачу и формат → лучше и то и другое

Одна находка из связанного исследования (Deng et al., 2025), которую авторы цитируют как объяснение парадокса: задача и требования к формату вывода конкурируют как частично противоречащие цели.

Попробуй разделить их в промпте:

Задача: {задача}

[Реши задачу]

---

Теперь оформи результат:
Формат: {нужный формат}
Поля: {поля}
Только формат, без пояснений.

Разделитель --- создаёт смысловую паузу между «думать» и «оформить». Это снижает конфликт между prose-режимом и format-режимом.


🔗

Ресурсы

  • Статья: "It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers"
  • Автор: Yong-eun Cho, KailosLab, Seoul, Republic of Korea — kevin@kailoslab.com
  • Связанные работы: Sclar et al. (2024) — изменения форматирования промпта дают до 76 пунктов разницы; Deng et al. (2025) — разделение задачи и форматирования улучшает оба; Khan (2025) — более простые промпты обгоняют engineered для способных моделей

📋 Дайджест исследования

Ключевая суть

Добавил шаги, критерии и требования к формату — всё ради точного JSON. Получил подробный отчёт о том, как модель этот JSON составляла. Это не баг и не невнимательность — исследование показало: GPT-4o и Claude систематически деградируют при перегрузке промпта структурой. Метод даёт простую диагностику: какой стиль нужен под конкретную модель и задачу. Фишка: reasoning-модель (o1, Claude extended thinking) требует ровно противоположного — больше этапов и чётких критериев успеха. Одна и та же «улучшенная» инструкция — это апгрейд для o1 и деградация для GPT-4o.

Принцип работы

Два вопроса заменяют всю настройку промпта: какая модель и что нужно на выходе. Чат-модель + нужен формат (JSON, таблица, список) → режь инструкции до минимума. Только задача и требование к формату, без шагов. Reasoning-модель + сложная задача → добавляй этапы и пиши чем выглядит успех. Строгая инструкция для o1 сокращает время ответа — модель тратит меньше внутренних итераций. Та же строгая инструкция для GPT-4o превращает ответ в отчёт о собственных действиях. Это парадокс сложности инструкций — чем подробнее промпт для чат-модели, тем сильнее она съезжает в описания процесса вместо чистого вывода.

Почему работает

Чат-модель генерирует следующее слово, ориентируясь на весь предыдущий текст. Длинный процессный промпт активирует паттерн «рассказывать о действиях». Два сигнала начинают конкурировать: «объясни шаги» и «выдай формат». Побеждает проза. Reasoning-модель работает иначе — она думает до ответа, а не во время. Чёткие критерии успеха дают этому внутреннему процессу ориентиры. Без ориентиров модель блуждает дольше и ошибается чаще. Результат: один и тот же приём улучшения («добавь шаги для надёжности») работает в противоположные стороны в зависимости от типа модели.

Когда применять

GPT-4o, Claude Sonnet и другие чат-модели — когда нужен структурированный вывод: JSON, таблица, список, схема. Особенно когда уже трижды переписал промпт «для ясности», а модель всё равно добавляет вступление и итоги. o1, Claude в режиме расширенного мышления — для многошаговых задач, где сложно описать что считать правильным ответом. Чем сложнее задача, тем больше структуры нужно. НЕ подходит как универсальная формула для свободных текстовых задач без чёткого формата вывода — там структура промпта влияет слабее. Исследование проверялось на агентских задачах с кодом и файлами, не на творческих текстах.

Мини-рецепт

1. Определи тип модели: чат (GPT-4o, Claude Sonnet) или с расширенным мышлением (o1, Claude extended thinking).
2. Определи тип вывода: нужен конкретный формат (JSON, таблица, список) или свободный текст.
3. Если чат-модель + нужен формат — убери все шаги и «для надёжности»-инструкции. Оставь только данные + требование: Только таблица, без пояснений.
4. Если reasoning-модель — добавь явные этапы и опиши чем выглядит финальный результат: Успешный результат: JSON с полями X, Y, Z — без вложенных объектов.
5. Если не уверен — перенеси требования к формату отдельным блоком в самый конец промпта. Это снижает конфликт инструкций даже без переработки всего промпта.

Примеры

[ПЛОХО] : Ты эксперт по анализу. Шаг 1: изучи данные. Шаг 2: составь план. Шаг 3: проанализируй по критериям. Шаг 4: проверь полноту. Шаг 5: верни таблицу с полями Название | Цена | Функции | Слабое место. Результат: пять абзацев с описанием каждого шага, таблица где-то в конце или вовсе отсутствует.
[ХОРОШО] : Вот данные о трёх конкурентах: [данные]. Верни таблицу: | Название | Цена | Ключевые функции | Слабое место | Только таблица, без пояснений. Результат: чистая таблица без вводных, выводов и отчёта о проделанной работе.
Источник: It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
ArXiv ID: 2605.26731 | Сгенерировано: 2026-05-27 07:32

Проблемы LLM

ПроблемаСутьКак обойти
Инструкция «опиши процесс» и инструкция «дай формат» конкурируют друг с другомДобавляешь шаги выполнения и одновременно просишь JSON или таблицу. Модель не игнорирует задачу — она делает обе. Но токены уже смещены в сторону объяснений. Получаешь не таблицу, а рассказ о том, как таблица составлялась. Срабатывает на любом задании где нужен чистый формат выводаУбери шаги из промпта. Оставь только: данные + нужный формат + «только результат, без пояснений». Одна инструкция — один паттерн генерации

Методы

МетодСуть
Выбор сложности промпта по типу моделиЧат-модель (GPT-4o, Claude) + нужен формат минимальный промпт: {данные}. Верни {формат} с полями {поля}. Только {формат}, без пояснений. Чат-модель + многошаговая координация умеренный: 3–4 шага, без требований к процессу. Модель с расширенным мышлением (o1, Claude extended thinking) + сложная задача строгий: явные этапы + Успешный результат: {пример}. Почему работает: У чат-модели нет внутреннего обдумывания — она генерирует сразу. Процессные инструкции активируют паттерн «рассказывать о действиях». У мыслящей модели есть внутренний этап обдумывания. Чёткие критерии дают ему ориентир — модель тратит меньше итераций и реже ошибается. Ограничение: Проверено на задачах с кодом и файлами. Для чисто текстовых задач закономерность может отличаться
📖 Простыми словами

It's Not the Capability: Harness Sensitivity Is Non-Monotone AcrossLLMAgentTiers

arXiv: 2605.26731

Суть в том, что современные нейронки типа GPT-4o или Claude 3.5 страдают от избытка «заботы» со стороны промптера. Когда ты вываливаешь на модель гору правил, этапов и требований к формату, она ловит harness-complexity paradox. Вместо того чтобы просто сделать работу, модель начинает «плыть»: она тратит весь свой ресурс на то, чтобы соответствовать твоей сложной структуре, и в итоге выдает кучу мусорных объяснений вместо чистого результата. Чем умнее модель, тем сильнее она пытается быть «хорошим мальчиком», следуя каждой букве инструкции, и тем хуже получается сам итог.

Это как если бы ты нанял крутого шеф-повара, но вместо заказа «сделай стейк» стоял бы у него над душой и диктовал: «сначала возьми вилку левой рукой, потом проверь температуру ровно три секунды, затем опиши мне свои чувства и только потом жарь». В итоге повар так зациклится на твоих дебильных правилах, что стейк сгорит, зато отчет о проделанной работе будет на пять страниц. Слишком подробный промпт превращает исполнителя в бюрократа, который объясняет свои действия, но лажает в сути.

Исследователи выкатили диагностическую матрицу, которая показывает: универсального рецепта нет. Если ты работаешь с топовой моделью, ей нужно давать свободу в процессе, но жестко фиксировать результат. Если же промпт перегружен «процессными» командами вроде «сначала проанализируй, потом сравни, затем выдели главное», модель переключается в режим рассуждений. В итоге структурная сложность убивает качество вывода: вместо таблицы с конкурентами ты получаешь поток сознания о том, как нейронка старалась их сравнить.

Этот принцип применим везде — от написания кода до создания маркетинговых стратегий. Мы привыкли думать, что чем детальнее ТЗ, тем лучше результат, но в мире LLM это полный облом. Тестировали это на сложных аналитических задачах, но правило работает и для простых запросов: если ты просишь ChatGPT проанализировать рынок, не расписывай ему каждый шаг «внутренней кухни». SEO-подход с кучей ключей здесь не катит — нейронка просто теряет фокус и начинает имитировать деятельность.

Короче: хватит душить умные модели микроменеджментом. Главный вывод исследования — чувствительность к сложности промпта нелинейна. Если хочешь крутой результат от топовой нейронки, упрощай инструкции по процессу и делай упор на финальный формат. Либо ты даешь модели дышать, либо получаешь вежливую отписку вместо дела. Кто продолжит писать промпты-простыни, тот так и будет чистить мусор в ответах, пока остальные получают чистый профит короткими командами.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с