3,583 papers
arXiv:2501.18099 94 30 янв. 2025 г. FREE

Обучение планированию и рассуждению для оценки с помощью Thinking-LLM-как-судьи

КЛЮЧЕВАЯ СУТЬ
Ключевой результат: Разделение сложной задачи на фазы планирования и исполнения внутри одного запроса делает рассуждения LLM более структурированными, надежными и прозрачными
Адаптировать под запрос

Исследование показывает, что если заставить LLM сначала составить подробный план действий для оценки задачи, а уже потом, следуя этому плану, выполнить саму оценку, то качество и точность итогового вердикта значительно возрастают. Этот двухэтапный процесс "Планирование -> Исполнение" работает гораздо лучше, чем попытка сделать все за один шаг.

Ключевой результат: Разделение сложной задачи на фазы планирования и исполнения внутри одного запроса делает рассуждения LLM более структурированными, надежными и прозрачными.

Суть метода, который можно извлечь из этого исследования для повседневного использования, заключается в изменении подхода к постановке сложных задач для LLM. Вместо того чтобы давать модели одну большую и сложную инструкцию в надежде, что она все учтет, вы разделяете свой запрос на два четких этапа прямо в тексте промпта:

  1. Этап 1: Планирование. Сначала вы просите LLM не решать задачу, а составить план ее решения. Этот план должен включать все шаги, критерии, структуру будущего ответа и все, что нужно учесть. По сути, вы заставляете модель сначала "подумать на бумаге" и создать для себя же четкое техническое задание.

  2. Этап 2: Исполнение. Сразу после этого вы даете команду "А теперь, строго следуя плану, который ты только что составил, выполни задачу".

Этот подход заставляет LLM зафиксировать все требования в виде структурированного плана, что резко снижает вероятность того, что она что-то забудет или проигнорирует в процессе генерации ответа. Модель сама для себя создает "чек-лист" и затем следует ему, что делает результат гораздо более предсказуемым и качественным.

  • Прямая применимость: Пользователь может немедленно использовать эту структуру для любых сложных задач. Например, при написании эссе, составлении бизнес-плана или анализе документа. Достаточно в промпте написать: "Сначала составь план для [моя задача], а затем, следуя этому плану, напиши [финальный текст]". Это можно сделать в любом чат-боте (ChatGPT, Claude, YandexGPT).

  • Концептуальная ценность: Главная идея — LLM лучше работает как исполнитель, которому дали четкий план, даже если этот план она создала сама секунду назад. Это учит пользователя не просто "спрашивать", а "управлять процессом мышления" модели. Вы перестаете быть просто заказчиком и становитесь менеджером проекта, который сначала утверждает план, а потом принимает работу.

  • Потенциал для адаптации: Метод легко адаптируется. Вместо "План оценки" можно использовать "План статьи", "Структура отчета", "Критерии для анализа", "План маркетинговой кампании". Механизм адаптации прост:

    1. Определите конечный сложный продукт (например, email-рассылка).
    2. В первой части промпта попросите LLM составить план/структуру этого продукта ("Составь план для email-рассылки: тема, вступление, 3 ключевых тезиса, призыв к действию").
    3. Во второй части промпта дайте команду сгенерировать конечный продукт на основе этого плана ("Теперь напиши текст рассылки по этому плану").
Ты — опытный маркетолог-копирайтер. Твоя задача — написать текст для рекламного поста в Telegram о новом онлайн-курсе "Основы инвестирования для начинающих".

Действуй строго в два этапа:

**### Этап 1: Составь план для рекламного поста**

В плане должны быть следующие обязательные пункты:
1.  **Цепляющий заголовок:** Придумай 3 варианта.
2.  **Боль аудитории:** Четко опиши проблему, с которой сталкиваются новички (страх, сложность, отсутствие знаний).
3.  **Решение:** Представь курс как простое и понятное решение этой боли.
4.  **Ключевые преимущества курса:** Укажи 3-4 главных особенности (например, "уроки по 10 минут", "поддержка куратора", "практические задания").
5.  **Призыв к действию (Call to Action):** Сформулируй ясный призыв зарегистрироваться и упомяни скидку для первых 100 участников.

**### Этап 2: Напиши текст поста, строго следуя плану**

Используй один из заголовков, который ты придумал на Этапе 1, и последовательно раскрой каждый пункт плана в живом и убедительном тексте. Текст должен быть емким и хорошо структурированным для чтения в Telegram (используй абзацы, эмодзи).

Этот промпт эффективен, потому что он использует принцип "План-Исполнение", описанный в исследовании.

  • Структурирование Мышления: Этап 1 заставляет LLM сначала разложить сложную творческую задачу ("напиши рекламный пост") на логические компоненты (заголовок, боль, решение, CTA). Это предотвращает хаотичную генерацию и гарантирует, что все маркетинговые элементы будут на месте.
  • Фиксация Контекста: Создав план, модель фактически создает для себя же якоря контекста. Когда она переходит к Этапу 2, у нее уже есть четкая, утвержденная структура. Это резко снижает риск того, что она "забудет" упомянуть скидку или нечетко сформулирует преимущества.
  • Контроль и Качество: Пользователь получает более качественный и предсказуемый результат, потому что модель не импровизирует на ходу, а следует заранее определенной логике. Разделение на этапы заставляет ее уделить должное внимание каждой части задачи.
Ты — опытный HR-специалист. Тебе нужно подготовить описание вакансии "Менеджер по продукту" для публикации на сайте компании.

Работай в два этапа.

**### Этап 1: Разработай структуру описания вакансии**

Твой план должен включать следующие разделы:
1.  **Краткое интро:** 1-2 предложения о нашей компании (финтех-стартап, создаем приложение для управления личными финансами) и о сути роли.
2.  **Обязанности:** Список из 4-5 ключевых задач (например, анализ рынка, формирование бэклога, написание user stories, взаимодействие с разработкой).
3.  **Требования:** Список из 4-5 ключевых требований к кандидату (например, опыт в финтехе от 2 лет, знание Agile, навыки работы с аналитикой).
4.  **Что мы предлагаем:** Список из 3-4 бенефитов (например, гибкий график, ДМС, опционная программа, современный офис).
5.  **Заключительный призыв:** Короткое предложение, мотивирующее откликнуться.

**### Этап 2: Напиши полный текст вакансии**

Теперь, строго следуя структуре, которую ты создал на Этапе 1, напиши полный, ясный и привлекательный текст вакансии. Используй деловой, но дружелюбный тон.

Этот промпт работает по тому же принципу декомпозиции, что и предыдущий, но в другой предметной области.

  • Предотвращение Пропусков: Создание вакансии требует учета множества деталей. Этап 1 гарантирует, что ни один важный раздел (обязанности, требования, условия) не будет пропущен. LLM сначала создает "скелет" документа.
  • Повышение Релевантности: Заставляя модель сначала спланировать разделы, мы гарантируем, что сгенерированный на Этапе 2 текст будет точно соответствовать стандартной и эффективной структуре описания вакансии. Модель не будет смешивать обязанности и требования в одном абзаце, что часто случается при простом запросе.
  • Управляемая Генерация: Вместо того чтобы получить один большой и, возможно, плохо структурированный текст, пользователь получает предсказуемый результат, который легко проверить и отредактировать. План, созданный на Этапе 1, служит четким ТЗ для самой модели на Этапе 2, что приводит к более качественному и полному итоговому тексту.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование предлагает конкретную структуру промпта "План -> Исполнение", которая является продвинутой формой техники Chain-of-Thought.
  • B. Улучшение качества диалоговых ответов: Да, метод напрямую нацелен на повышение точности и обоснованности ответов в сложных задачах, требующих многошагового анализа.
  • C. Прямая практическая применимость: Да, пользователь может немедленно применить принцип "сначала заставь LLM составить план, а потом выполнить его" в любом чат-боте без кода и специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную "ментальную модель" для взаимодействия с LLM: не просто давать задачу, а заставлять модель сначала декомпозировать ее на шаги (планирование), а затем последовательно их выполнять. Это объясняет, почему LLM часто "сбиваются" при выполнении сложных инструкций, и как этого избежать.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • №1 (Техники формулирования): Предлагает новую, более структурированную версию Chain-of-Thought.
    • №3 (Оптимизация структуры): Демонстрирует эффективность разделения промпта на логические блоки ("План", "Исполнение").
    • №7 (Надежность и стабильность): Основная цель метода — повысить надежность и последовательность рассуждений LLM, снижая вероятность пропуска шагов или критериев.
  • Чек-лист практичности (+15 баллов): Да, исследование дает готовую конструкцию, показывает, как структурировать сложные запросы, и раскрывает неочевидную особенность поведения LLM (значительное улучшение качества при разделении планирования и исполнения).
📌

Цифровая оценка полезности

Аргументы в пользу оценки 94: Исследование предлагает не просто "фишку", а фундаментальный принцип для работы со сложными задачами — декомпозицию задачи на этапы планирования и исполнения внутри одного промпта. Это чрезвычайно полезная и универсальная техника, которую может освоить любой пользователь. Она напрямую решает одну из главных проблем LLM — "потерю контекста" или игнорирование части инструкций в длинных запросах. Концептуальная ценность огромна, так как она учит пользователя "думать как тренер" для LLM, а не как простой заказчик.

Контраргументы (почему оценка могла бы быть ниже): * Узкий фокус исследования: Статья формально посвящена специфической задаче "LLM-as-a-Judge" (оценка одного ответа LLM относительно другого). Обычный пользователь редко занимается таким сравнением. Чтобы применить метод, ему нужно мысленно адаптировать его с "оценки" на "генерацию", что требует небольшого творческого усилия. * Требует более длинных промптов: Применение этого метода делает промпты более громоздкими и структурированными, что может показаться излишним для простых задач.

Контраргументы (почему оценка могла бы быть выше): * Универсальность принципа: Несмотря на узкий фокус статьи, лежащий в основе принцип "План-Исполнение" является одним из самых мощных и универсальных методов промпт-инжиниринга, применимым практически к любой сложной задаче (написание отчета, создание маркетинговой стратегии, планирование путешествия и т.д.). Его пользу сложно переоценить.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с