3,583 papers
arXiv:2410.08105 80 1 окт. 2024 г. FREE

Что заставляет большие языковые модели рассуждать при многократной генерации кода

КЛЮЧЕВАЯ СУТЬ
Исследование дает пользователю ключевую концептуальную модель: LLM — это не оракул, а ассистент, чью работу нужно направлять. Оно наглядно показывает, что разделение задачи на "что делать" (рассуждение) и "как это должно выглядеть" (инструкция) кардинально улучшает результат. Пользователь начинает понимать, что промт — это не просто вопрос, а своего рода "программный код" для управления поведением модели.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследователи систематически проверили, какие типы промптов лучше всего помогают LLM решать сложные задачи по программированию. Они разделили промпты на три категории: заставляющие модель сначала "подумать" о решении на естественном языке (Reasoning), дающие указания по формату кода (Instruction) и содержащие информацию об ошибках выполнения (Feedback).

Ключевой результат: Наибольший прирост производительности достигается при последовательном использовании сначала "рассуждающего", а затем "инструктирующего" промпта, особенно для сложных задач и мощных моделей.

🔬

2. Объяснение всей сути метода:

Суть метода, который можно извлечь из исследования, заключается вдвухэтапном подходе к решению сложных задач. Вместо того чтобы пытаться получить идеальный результат одним большим и сложным промптом, пользователь должен разделить свой запрос на два логических шага.

  1. Этап 1: Рассуждение (Reasoning). На этом этапе вы не просите модель сгенерировать конечный результат. Вместо этого вы просите её подумать над задачей: составить план, разбить проблему на логические части, определить ключевые компоненты, описать алгоритм действий на естественном языке. Это аналог "Chain of Thought", который активирует "мыслительные" способности модели перед тем, как она начнет "исполнять".

  2. Этап 2: Инструкция и Генерация (Instruction & Generation). После того как модель выдала развернутый план или рассуждение, вы подаете второй промпт. В нем вы ссылаетесь на созданный план и даете конкретные инструкции по форматированию и стилю конечного результата. Например: "Теперь, на основе предложенного тобой плана, напиши текст. Структурируй его...", "Используй деловой стиль", "Оформи ключевые выводы в виде таблицы".

Еще один важный вывод касается итеративного улучшения (Multi-turn). Если модель ошиблась, не всегда стоит давать ей максимально подробный разбор ошибок. Исследование показало, что простое указание на ошибку ("Твой код не работает") может быть эффективнее, так как заставляет модель искать новое, "исследовательское" (exploratory) решение, а не пытаться "эксплуатировать" (exploitative) и исправлять изначально провальную идею.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь может немедленно начать применять двухэтапный метод для любых сложных задач. Вместо "Напиши мне маркетинговую стратегию для кофейни" использовать сначала "Продумай и опиши по шагам план создания маркетинговой стратегии для новой кофейни в центре города", а затем "Отлично, теперь на основе этого плана напиши саму стратегию, уделяя особое внимание SMM и локальным акциям".

  • Концептуальная ценность: Исследование дает пользователю ключевую концептуальную модель: LLM — это не оракул, а ассистент, чью работу нужно направлять. Оно наглядно показывает, что разделение задачи на "что делать" (рассуждение) и "как это должно выглядеть" (инструкция) кардинально улучшает результат. Пользователь начинает понимать, что промт — это не просто вопрос, а своего рода "программный код" для управления поведением модели.

  • Потенциал для адаптации: Механизм адаптации прост и универсален. Нужно взять общие категории промптов из исследования и наполнить их содержанием из своей предметной области.

    • "Reasoning Prompt" (в коде: "опиши алгоритм") → (в маркетинге: "определи целевую аудиторию и каналы продвижения").
    • "Instruction Prompt" (в коде: "используй вспомогательные функции") → (в копирайтинге: "напиши текст с тремя подзаголовками и списком в конце").

🚀

4. Практически пример применения:

Представим, что пользователь хочет составить контент-план для блога о здоровом питании.

### Роль

Ты — опытный контент-маркетолог и диетолог.

### Задача

Мне нужен контент-план на один месяц для блога о здоровом питании. Целевая аудитория — занятые профессионалы 25-40 лет, которые хотят питаться правильно, но не имеют много времени на готовку.

### Этап 1: Рассуждение и Планирование (Reasoning Prompt)

Прежде чем писать сам контент-план, давай его спроектируем. Пожалуйста, продумай и подробно опиши следующие аспекты:
1. **Основные рубрики:** Предложи 3-4 ключевые рубрики (например, "Быстрые рецепты", "Мифы о питании", "Наука о еде" и т.д.), которые будут интересны целевой аудитории. Кратко обоснуй выбор каждой.
2. **Форматы контента:** Перечисли, какие форматы постов мы будем использовать (например, пошаговый рецепт, инфографика, разбор продукта, интервью с экспертом).
3. **Ключевые темы:** В рамках предложенных рубрик набросай 5-6 конкретных идей для постов, которые напрямую отвечают на "боли" нашей аудитории (нехватка времени, сложность выбора продуктов).

Просто изложи свои мысли в виде структурированного текста. Конечный контент-план пока не нужен.

(После ответа модели)

### Этап 2: Инструкция и Генерация (Instruction & Generation Prompt)

Отлично, твой план выглядит убедительно. Теперь, пожалуйста, на основе **именно тех рубрик и идей, что ты предложил(а) выше**, создай финальный контент-план.

**Требования к форматированию:**
- Оформи результат в виде Markdown-таблицы.
- Таблица должна содержать 4 колонки: "Неделя/День", "Рубрика", "Тема поста", "Формат контента".
- Распредели посты равномерно, чтобы получалось 3 публикации в неделю (например, Пн, Ср, Пт).
- Всего в плане должно быть 12 постов (4 недели * 3 поста).

🧠

5. Почему это работает:

Этот промпт работает, потому что он в точности следует методологии, доказанной в исследовании:

  1. Декомпозиция задачи: Вместо одного сложного запроса "сделай мне контент-план" мы разбиваем его на два: "сначала подумай над структурой" и "теперь заполни эту структуру".
  2. Активация "рассуждения": Первый промпт заставляет модель активировать свои знания в маркетинге и диетологии, чтобы создать логический каркас (рубрики, темы). Это снижает вероятность того, что она сгенерирует несвязный или поверхностный набор случайных тем.
  3. Четкая "инструкция": Второй промпт снимает с модели задачу "придумывания" и оставляет только задачу "исполнения". Она уже имеет готовый план и получает очень конкретные указания по форматированию (Markdown-таблица, 4 колонки), что гарантирует предсказуемый и структурированный результат.

📌

6. Другой пример практического применения

Задача: Спланировать выступление на конференции на тему "Будущее удаленной работы".

### Роль

Ты — опытный спикер, эксперт по HR-трендам и организационной психологии.

### Задача

Помоги мне подготовить структуру 15-минутного выступления на тему "Будущее удаленной работы: вызовы и возможности".

### Этап 1: Рассуждение и Мозговой штурм (Reasoning Prompt)

Прежде чем мы перейдем к слайдам, давай определим ключевые смысловые блоки выступления. Продумай и опиши:
1. **Главный тезис:** Сформулируй одну главную мысль, которую аудитория должна унести с собой.
2. **Ключевые блоки:** Разбей выступление на 3-4 логических блока (например, "Проблема: выгорание и изоляция", "Решение: гибридные модели и асинхронная коммуникация", "Будущее: технологии и культура").
3. **Цепляющие элементы:** Предложи для каждого блока по одному интересному факту, статистическому данным или короткой истории, чтобы удержать внимание аудитории.

Сейчас мне нужен только твой "скелет" мыслей, а не готовый текст речи.

(После ответа модели)

### Этап 2: Инструкция и Генерация (Instruction & Generation Prompt)

Прекрасная структура. Теперь, пожалуйста, на основе этих смысловых блоков и цепляющих элементов, которые ты предложил(а), создай пошаговый план выступления.

**Требования к результату:**
- Оформи ответ в виде маркированного списка.
- Для каждого пункта укажи примерное время в минутах (например, `(2 мин)`).
- Структура должна быть такой:
- Вступление (приветствие, анонс главного тезиса).
- Блок 1 (тезис, факт/история, вывод).
- Блок 2 (тезис, факт/история, вывод).
- Блок 3 (тезис, факт/история, вывод).
- Заключение (повторение главного тезиса, призыв к действию).

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример работает по той же доказанной в исследовании причине: разделение когнитивной нагрузки модели.

  1. Фаза Рассуждения: Первый промпт заставляет модель сфокусироваться на самой сути выступления — его идее, логике и аргументации. Он не отвлекает её на формат, тайминг или конкретные формулировки. Модель генерирует высокоуровневую концепцию.
  2. Фаза Инструкции: Второй промпт дает модели уже готовую, одобренную пользователем концепцию и просит выполнить чисто механическую работу: упаковать эту концепцию в заданный формат (маркированный список с таймингом) и структуру (вступление, блоки, заключение).

Такой подход, как и показывает исследование, значительно повышает согласованность, логичность и качество финального ответа, так как модель решает одну сложную задачу за два простых шага, а не пытается сделать всё сразу.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Максимальная. Исследование целиком посвящено сравнению и анализу эффективности различных типов промптов: "рассуждающих" (Reasoning), "инструктирующих" (Instruction) и "обратной связи" (Feedback).
  • B. Улучшение качества диалоговых ответов: Высокая. Хотя исследование сфокусировано на генерации кода, его выводы напрямую влияют на качество конечного продукта (работающий код), что является аналогом точности и релевантности в обычном диалоге.
  • C. Прямая практическая применимость: Средняя. Принципы применимы напрямую, но требуют адаптации, так как все примеры и задачи связаны со специфической областью — соревновательным программированием. Пользователь без навыков программирования не сможет использовать примеры "как есть", но может перенести саму методологию на свои задачи.
  • D. Концептуальная ценность: Очень высокая. Исследование дает фундаментальное понимание того, как структурировать сложные запросы. Оно наглядно доказывает, что декомпозиция задачи на этапы "рассуждение" -> "инструкция" -> "генерация" значительно эффективнее, чем попытка решить всё одним промптом. Также оно раскрывает неочевидные поведенческие закономерности, например, что слишком детальная обратная связь может вредить.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • №1 (Техники формулирования): Является ядром исследования (CoT, Decomposed prompting).
    • №2 (Поведенческие закономерности): Раскрывает, как эффективность промптов зависит от сложности задачи и размера модели.
    • №6 (Контекст и память): Анализирует многоходовые (multi-turn) сценарии, что является формой работы с контекстом.
    • №7 (Надежность и стабильность): Изучает методы самоисправления (self-repair) на основе обратной связи для снижения ошибок.
  • Чек-лист практичности: Дает готовые типы конструкций, показывает, как структурировать сложные запросы и раскрывает неочевидные особенности поведения LLM. Бонус +15 баллов применен.
📌

2 Цифровая оценка полезности

Аргументы в пользу оценки 80:

Эта работа — настоящий клад для "продвинутого" пользователя LLM. Она эмпирически доказывает фундаментальный принцип промт-инжиниринга: разделяй и властвуй. Главный вывод о том, что комбинация "рассуждающего" и "инструктирующего" промптов дает наилучший результат, можно немедленно перенести на любую сложную задачу, будь то написание бизнес-плана, создание контент-стратегии или планирование сложного проекта. Ценность работы в том, что она превращает интуитивное "надо разбить задачу на части" в доказанную и структурированную методику.

Контраргументы:

  • Почему оценка могла быть ниже? Фокус на генерации кода делает исследование узкоспециализированным. Обычному пользователю, который пишет маркетинговые тексты, придется приложить умственные усилия, чтобы адаптировать принципы "написать вспомогательные функции" или "объяснить входные/выходные данные" к своей сфере. Прямое копирование промптов невозможно, что снижает немедленную практическую пользу.
  • Почему оценка могла быть выше? Если рассматривать исследование не как сборник готовых промптов, а как учебник по "ментальной модели" LLM, его ценность стремится к 90-95 баллам. Понимание того, что модели лучше работают, когда их "мыслительный процесс" направляется пошагово, и что избыточная критика может завести их в тупик — это инсайты высшего уровня, которые кардинально меняют подход к взаимодействию с ИИ.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с