3,583 papers
arXiv:2507.17699 83 23 июля 2025 г. FREE

Парадокс: модели с «расширенными рассуждениями» без внешнего рабочего пространства почти не превосходят обычные LLM.

КЛЮЧЕВАЯ СУТЬ
Парадокс: модели с «расширенными рассуждениями» без внешнего рабочего пространства почти не превосходят обычные LLM. Ноль магии, ноль разницы. Метод Scratchpad позволяет любому чат-боту решать сложные задачи значительно лучше — без дообучения и платных API. Фишка: добавь в промпт тег-черновик — место, где модель думает вслух и фиксирует промежуточные шаги. После черновика она пишет чистый финальный ответ. Модель перестаёт тянуть рассуждения и результат одновременно — качество резко растёт.
Адаптировать под запрос

Исследование проверяет, действительно ли модели, обученные "думать по шагам" (как в Chain-of-Thought), лучше решают сложные задачи. Выяснилось, что без внешних "инструментов" их преимущество незначительно или отсутствует. Однако, когда моделям дали доступ к "калькулятору" (интерпретатор Python) и "блокноту" (scratchpad для записи промежуточных шагов), их производительность резко возросла, и они стали стабильно превосходить обычные LLM.

Ключевой результат: Способность LLM к рассуждениям — не иллюзия, но она становится по-настоящему эффективной только тогда, когда модель может "выгружать" сложные вычисления и промежуточные шаги во внешние инструменты или специальное рабочее пространство.

Суть метода, который можно извлечь из этого исследования для практического промптинга, заключается в разделении процесса мышления и финального результата внутри самого промпта. Вместо того чтобы просить LLM сразу выдать готовый сложный ответ, мы создаем для нее симуляцию "инструментов", описанных в статье.

Это достигается через две ключевые концепции, адаптированные для обычного пользователя:

  1. Симуляция "Scratchpad" (Блокнота/Черновика): Мы явно выделяем в промпте специальную область, где модель должна проводить все свои рассуждения, делать заметки, проверять гипотезы и отслеживать состояние задачи. Это ее "блокнот". Мы прямо запрещаем ей писать в этой области финальный ответ.

  2. Симуляция "Интерпретатора" (Логического калькулятора): Для задач, требующих логики или последовательных действий, мы инструктируем модель внутри "блокнота" действовать как строгий исполнитель: разбивать задачу на элементарные шаги, анализировать ограничения и только потом синтезировать решение.

Методика для пользователя: Для любой сложной задачи, требующей планирования, анализа или многошаговых рассуждений, структурируйте свой промпт следующим образом: * Шаг 1. Определите роль и задачу. Четко сформулируйте, кем должна быть модель и что является конечной целью. * Шаг 2. Создайте "Рабочую область". Используйте Markdown или XML-теги (например, или ## Черновик для размышлений), чтобы обозначить место для промежуточных рассуждений. * Шаг 3. Дайте инструкцию по использованию "Рабочей области". Прямо укажите модели: "Сначала подумай шаг за шагом внутри тега . Проанализируй все данные, составь план. Не пиши здесь окончательный ответ". * Шаг 4. Запросите финальный результат. После закрывающего тега рабочей области попросите модель: "Теперь, на основе рассуждений в , предоставь итоговый, чистый и структурированный ответ".

Этот подход заставляет LLM сначала полностью "продумать" задачу в изолированном пространстве, не пытаясь одновременно генерировать и форматировать финальный ответ. Это снижает когнитивную нагрузку на модель и, как доказывает исследование, кардинально повышает качество результата.

  • Прямая применимость: Пользователь может немедленно применить адаптированный метод "scratchpad" в любом чат-боте. Для этого достаточно использовать в промпте специальные разделы, например, с помощью заголовков Markdown (## Рабочая область, ## Итоговый ответ) или XML-тегов (, ), и дать модели инструкцию сначала думать в одном разделе, а потом писать ответ в другом.

  • Концептуальная ценность: Исследование дает пользователю мощную ментальную модель: LLM имеет ограниченную "оперативную память". Когда задача сложная, модель "забывает" начальные условия или путается в собственных рассуждениях. Предоставление "блокнота" в промпте — это способ расширить эту память, позволяя модели отслеживать свой прогресс и не сбиваться с пути.

  • Потенциал для адаптации: Метод легко адаптируется для любых сложных задач.

    • Планирование: Путешествия, мероприятия, бюджет.
    • Анализ: Сравнение продуктов, анализ отзывов, разбор сложного текста.
    • Творчество: Написание сценария, разработка сюжета книги, создание маркетинговой кампании.

    Механизм адаптации прост: любая задача, которую человек решал бы с листком бумаги и ручкой, делая заметки, является идеальным кандидатом для применения этого подхода с LLM.

Ты — опытный event-менеджер. Твоя задача — спланировать корпоративное мероприятие на природе для IT-компании из 50 человек.

**Ограничения:**
- Бюджет: 300 000 рублей.
- Время: последняя суббота августа.
- Цели: тимбилдинг, отдых, неформальное общение.
- Пожелания: активные игры, вкусная еда (включая вегетарианские опции), памятные сувениры.

**Инструкция по выполнению:**

1.  **Используй рабочую область `` для пошагового планирования.** Внутри этого тега ты должен:
    *   Проанализировать все ограничения и цели.
    *   Предложить 2-3 варианта локации под Москвой.
    *   Распределить бюджет по основным статьям: аренда, кейтеринг, трансфер, активности, сувениры.
    *   Набросать тайминг мероприятия с 12:00 до 21:00.
    *   Продумать идеи для тимбилдинга и сувениров.
    *   Не пиши здесь финальный план! Это только твои заметки и расчеты.

2.  **После завершения работы в ``, создай финальный план в теге ``.** Это должен быть чистый, структурированный и готовый к презентации документ для клиента.







Этот промпт работает за счет нескольких механик, напрямую следующих из выводов исследования:

  • Принудительная декомпозиция: Инструкция заставляет модель не генерировать ответ сразу, а разбить сложную задачу ("спланировать ивент") на серию мелких, управляемых подзадач (выбрать локацию, распределить бюджет, составить тайминг).
  • Внешняя память (симуляция Scratchpad): Тег служит "блокнотом". Записывая туда свои промежуточные выводы (например, "Бюджет на еду - 100к, это по 2000 на человека"), модель фиксирует состояние и может ссылаться на него на следующих шагах, не "забывая" и не противореча себе.
  • Снижение когнитивной нагрузки: Модель сначала фокусируется исключительно на анализе и планировании в свободной форме, а уже потом — на структурировании и форматировании чистового ответа. Это разделение задач, как и у людей, повышает качество выполнения каждой из них.
Ты — опытный маркетолог и контент-стратег. Тебе нужно разработать контент-план на одну неделю для Instagram-аккаунта нового бренда органической косметики.

**Целевая аудитория:** Женщины 25-40 лет, интересующиеся экологичным образом жизни, йогой и натуральным уходом.

**Цели на неделю:**
- Повысить осведомленность о флагманском продукте (сыворотка с витамином С).
- Увеличить вовлеченность (лайки, комментарии, сохранения).
- Получить 300 новых подписчиков.

**Инструкция:**

1.  **Сначала проведи всю подготовительную работу в разделе "## Рабочая область для анализа".** В этом разделе:
    *   Определи ключевые рубрики (например: "Польза ингредиентов", "За кадром", "Отзывы", "Эко-советы").
    *   Распредели рубрики и форматы (Пост, Reels, Stories) по дням недели.
    *   Придумай конкретные темы для постов и Reels, ориентированные на цели недели.
    *   Продумай идеи для интерактивных Stories (опросы, викторины).

2.  **После того как закончишь анализ, представь готовый контент-план в разделе "## Итоговый контент-план" в виде таблицы.**

## Рабочая область для анализа
*Здесь модель будет проводить мозговой штурм и делать заметки.*

## Итоговый контент-план
*Здесь модель представит финальную таблицу.*

Этот промпт эффективен, потому что он симулирует реальный рабочий процесс стратега, который подтверждается выводами исследования:

  • Стратегия перед тактикой: Раздел "Рабочая область для анализа" заставляет модель сначала думать стратегически (определить рубрики, цели), прежде чем переходить к тактике (писать конкретные посты). Это предотвращает генерацию случайного, несвязанного контента.
  • Фиксация промежуточных решений: Модель записывает свои идеи по рубрикам и форматам. Это служит для нее "опорой" при создании финальной таблицы, гарантируя, что все первоначальные идеи будут учтены и логически связаны между собой.
  • Структурирование вывода: Требование представить финальный результат в виде таблицы заставляет модель не просто перечислить идеи, а синтезировать их в четкий, готовый к использованию рабочий документ. Разделение "мозгового штурма" и "финального отчета" позволяет получить на выходе гораздо более качественный и структурированный продукт.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая напрямую, но высокая концептуально. Исследование не предлагает новых фраз, но доказывает эффективность методологии, которую можно симулировать в промптах (использование "рабочей области" или "черновика").
  • B. Улучшение качества диалоговых ответов: Высокое. Методы, описанные в исследовании, кардинально повышают точность решения сложных, многошаговых задач, что напрямую транслируется в более качественные и надежные ответы.
  • C. Прямая практическая применимость: Низкая. Основные методы (Python-интерпретатор, API-управляемый scratchpad) требуют инструментов программирования и недоступны обычному пользователю в интерфейсе ChatGPT. Однако концепцию "scratchpad" (черновика) можно адаптировать.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще объясняет, почему LLM терпят неудачу в сложных задачах (ограничения "оперативной памяти" и длины вывода) и как это преодолеть. Оно формирует у пользователя правильную "ментальную модель" LLM — не как всезнающего оракула, а как мощного, но ограниченного процессора, которому нужны инструменты и рабочее пространство.
  • E. Новая полезная практика (кластеризация): Работа попадает в несколько кластеров:
    • Кластер 2 (Поведенческие закономерности LLM): Демонстрирует, как производительность резко падает при превышении определенного порога сложности/длины рассуждений.
    • Кластер 6 (Контекст и память): Метод "scratchpad" — это, по сути, стратегия управления памятью и контекстом для решения длинных задач.
    • Кластер 7 (Надежность и стабильность): Использование внешних инструментов (интерпретатор) — это метод повышения надежности и снижения галлюцинаций в задачах, требующих точных вычислений.
  • Чек-лист практичности (+15 баллов): Да, исследование концептуально показывает, как структурировать сложные запросы, раскрывает неочевидные особенности поведения LLM (провал "мышления" без инструментов) и предлагает способы кардинально улучшить точность ответов.
📌

Цифровая оценка полезности

Оценка 83 балла отражает огромную концептуальную ценность исследования и высокий потенциал для адаптации его выводов в продвинутых промптах, несмотря на низкую прямую применимость описанных инструментов для обычного пользователя.

Аргументы за оценку: * Фундаментальный инсайт: Главный вывод — "мышление" (Chain-of-Thought) раскрывает свой потенциал только при наличии "инструментов" (калькулятора, блокнота) — является одним из ключевых для понимания современного промпт-инжиниринга. * Практическая адаптация: Идея "scratchpad" (черновика/рабочей области) легко переносится в промпт с помощью разметки (XML-теги, Markdown), что позволяет пользователю симулировать предложенный подход и значительно улучшить результаты для сложных задач. * Объяснение "почему": Исследование дает пользователю четкое понимание, почему его сложный запрос может провалиться, и предлагает ментальную модель для решения проблемы: "нужно дать модели место для промежуточных мыслей".

Контраргументы (почему оценка могла быть ниже): * Требуется адаптация: Пользователь не может просто взять и использовать "Python-интерпретатор". Ему нужно догадаться, как симулировать этот подход через инструкции в промпте, что требует определенного уровня абстрактного мышления. * Фокус на коде: Значительная часть исследования посвящена Program-of-Thought (PoT), что может отпугнуть нетехническую аудиторию и создать впечатление, что выводы применимы только для задач программирования.


📋 Дайджест исследования

Ключевая суть

Парадокс: модели с «расширенными рассуждениями» без внешнего рабочего пространства почти не превосходят обычные LLM. Ноль магии, ноль разницы. Метод Scratchpad позволяет любому чат-боту решать сложные задачи значительно лучше — без дообучения и платных API. Фишка: добавь в промпт тег-черновик — место, где модель думает вслух и фиксирует промежуточные шаги. После черновика она пишет чистый финальный ответ. Модель перестаёт тянуть рассуждения и результат одновременно — качество резко растёт.

Принцип работы

LLM как студент на экзамене без черновика — держит всё в голове, путается, забывает начальные условия. Дай ей черновик — картина меняется. Раздели промпт на два изолированных этапа: сначала думай, потом отвечай. Этап 1: тег — весь анализ, варианты, расчёты, противоречия. Финальный ответ туда не идёт. Этап 2: тег — чистый структурированный результат на основе черновика. Модель видит всё что записала и не теряет нить.

Почему работает

LLM ограничена в рабочей памяти. Чем длиннее цепочка рассуждений — тем выше шанс потерять ключевое условие. Или начать себе противоречить. Черновик работает как внешняя память: модель фиксирует промежуточные выводы и обращается к ним на следующих шагах. Именно это делают внешние инструменты в исследовании — интерпретатор Python и блокнот для заметок. Их симуляция через структурные теги в промпте даёт тот же эффект.

Когда применять

Любая задача с несколькими переменными или шагами. Планирование: мероприятие, путешествие, бюджет. Анализ: сравнение вариантов, разбор сложного текста, оценка рисков. Творчество: сценарий, маркетинговая кампания, разработка продукта. Простое правило: если бы ты сам решал задачу с листком бумаги — это кандидат для scratchpad-промпта. НЕ подходит для простых фактических вопросов — там черновик только раздует промпт без пользы.

Мини-рецепт

1. Задай роль и цель: Чётко опиши кем должна быть модель и что нужно на выходе.
2. Перечисли все ограничения: Условия, данные, пожелания — до инструкции по мышлению.
3. Создай черновик: Добавь раздел или ## Рабочая область. Прямо напиши: «Здесь анализируй, строй варианты, делай расчёты. Финальный ответ сюда не пиши».
4. Запроси чистовик: После черновика добавь или ## Итоговый ответ. Попроси: «На основе рабочей области напиши чистый структурированный результат».

Примеры

[ПЛОХО] : Спланируй корпоратив на 50 человек, бюджет 300к, суббота в августе, тимбилдинг и еда
[ХОРОШО] : Ты — опытный event-менеджер. Задача: корпоратив на природе для IT-компании, 50 человек. Бюджет: 300 000 рублей. Дата: последняя суббота августа. Цели: тимбилдинг, отдых, неформальное общение. Пожелания: активные игры, еда с вегетарианскими вариантами, сувениры. Здесь проведи весь анализ: — 2-3 варианта локации — распределение бюджета по статьям — тайминг с 12:00 до 21:00 — идеи тимбилдинга и сувениров Финальный план сюда не пиши. На основе рабочей области напиши готовый план мероприятия — структурированный, с бюджетом и таймингом.
Источник: Thinking Isn't an Illusion: Overcoming the Limitations of Reasoning Models via Tool Augmentations
ArXiv ID: 2507.17699 | Сгенерировано: 2026-03-02 17:10

Проблемы LLM

ПроблемаСутьКак обойти
Модель думает и форматирует одновременно — и делает оба хужеКогда просишь сложный ответ сразу, модель пытается одновременно: рассуждать, удерживать ограничения в памяти и форматировать вывод. Слишком много задач за раз. Итог: теряет начальные условия, противоречит себе, выдаёт поверхностный анализ. Проблема возникает в любой задаче дольше 3 шаговРаздели мышление и вывод структурно. Сначала зона рассуждений, потом зона ответа. Используй теги: для черновика и для итога. В инструкции явно запрети писать финальный ответ в черновике

Методы

МетодСуть
Две зоны в промпте — черновик и чистовикРаздели промпт на две явные части. Первая — рабочая зона: или ## Черновик. Вторая — зона ответа: или ## Итог. В инструкции напиши: «Сначала разбери задачу, запиши шаги, проверь ограничения — всё в . Финальный ответ — только после, в . В черновике итога не пиши». Почему работает: Модель фиксирует промежуточные выводы текстом. Не держит всё в голове. Каждый следующий шаг опирается на записанное, а не на то что «помнится». Разделение задач снижает нагрузку: сначала думаем свободно, потом форматируем. Когда применять: любые многошаговые задачи — планирование, анализ, сравнение, написание сложного текста. Когда не нужно: простые однозначные запросы без ограничений
📖 Простыми словами

Мышление — не иллюзия: преодоление ограничений моделей рассуждений посредством дополнений инструментами

arXiv: 2507.17699

Суть в том, что современные «думающие» модели вроде o1 или DeepSeek-R1 на самом деле заперты внутри собственной головы. Когда нейронка выстраивает длинную цепочку рассуждений (Chain-of-Thought), она полагается только на свою память, которая часто подводит. Исследование доказывает: если модель просто долго «думает» над сложной задачей без доступа к внешним инструментам, она начинает плодить ошибки и галлюцинировать. Это фундаментальный барьер — внутренняя логика лажает, когда данных не хватает или они устарели.

Это как пытаться собрать сложный шкаф из Икеи в полной темноте, полагаясь только на интуицию. Ты можешь быть гением инженерной мысли, но без инструкции и фонарика ты неизбежно вкрутишь саморез не туда. Формально ты очень старался, но шкаф развалится. Инструменты в данном случае — это тот самый фонарик и инструкция, которые позволяют модели не гадать, а проверять факты в реальном времени.

Чтобы пробить этот потолок, авторы предлагают Tool Augmentation — связку глубокого размышления с внешними костылями вроде поиска в Google или калькулятора. Работает это так: модель не просто выдает ответ, а сначала строит план, понимает, где у неё «белое пятно», и идет во внешний мир за данными. Ключевой метод здесь — интерактивное уточнение, когда нейронка использует Python-скрипт или API, чтобы подтвердить свои догадки. Это превращает её из самоуверенного фантазера в дотошного аналитика, который перепроверяет каждый шаг.

Хотя эксперименты ставили на математике и кодинге, принцип универсален. Это применимо везде: от написания юридических договоров до планирования путешествий. Если ты просишь AI составить маршрут, обычная модель может предложить закрытый на ремонт музей, потому что «так помнит». Модель с инструментами — это GEO нового уровня, которая сначала проверит часы работы через поиск, а потом впишет их в логику рассуждений. Любая сложная работа с данными теперь требует не просто «ума», а умения пользоваться инструментами.

Короче: чистое «мышление» нейронок — это круто, но без внешних инструментов оно быстро упирается в тупик. Главный вывод исследования в том, что инструменты исправляют логические сбои, которые невозможно вылечить просто увеличением мощности модели. Если хочешь результат без косяков, заставляй модель не просто думать, а ходить в интернет и считать на калькуляторе. Кто продолжит юзать «голые» промпты для сложных задач, тот так и будет получать уверенную чушь вместо рабочих решений.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с