3,583 papers
arXiv:2508.21061 68 28 авг. 2025 г. FREE

OnGoal: отслеживание и визуализация диалоговых целей в многоходовых диалогах с большими языковыми моделями

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически плохо удерживает цели в длинных диалогах — к 5-6 сообщению модель начинает игнорировать или искажать первоначальные задачи, даже если они явно указаны в начале. Исследование позволяет понять механизм "дрейфа целей" и научиться управлять многоходовыми диалогами так, чтобы модель не забывала, что от нее хотели. Решение — превратить себя в "трекер целей": разбить запрос на четкие подзадачи, явно прописать их списком в промпте, затем аудировать каждый ответ по этому чек-листу. Пользователи с таким подходом достигали результата на 40% быстрее и тратили меньше ментальных усилий.
Адаптировать под запрос
📌

Ключевые аспекты исследования:

В длинных и сложных диалогах с LLM пользователи часто теряют контроль над беседой, а модель начинает игнорировать или забывать первоначальные цели. Исследователи разработали и протестировали специальный чат-интерфейс OnGoal, который автоматически извлекает цели из запросов пользователя (например, "сделать текст более формальным"), отслеживает их выполнение в ответах LLM и визуализирует этот прогресс.

Ключевой результат: Пользователи, которые видели, как LLM выполняет (или не выполняет) их цели, достигали результата быстрее, тратили меньше ментальных усилий и лучше понимали, как скорректировать свои запросы для достижения успеха.

🔬

Объяснение всей сути метода:

Суть метода, который обычный пользователь может извлечь из этого исследования, — это "ручное управление целями диалога". Вместо того чтобы полагаться на память LLM, вы берете на себя роль менеджера проекта, а LLM становится вашим исполнителем.

Система OnGoal делала это автоматически, но вы можете воспроизвести ее логику вручную в любом чат-боте:

  1. Декомпозиция Запроса на Цели: Перед тем как отправить сложный запрос, мысленно или на бумаге разбейте его на четкие, измеримые подзадачи (цели). Например, вместо "Напиши мне пост для блога о здоровом питании" вы формулируете список целей:

    • Цель 1: Написать пост для блога.
    • Цель 2: Тема — здоровое питание для офисных работников.
    • Цель 3: Тон — ободряющий и простой.
    • Цель 4: Включить 3 практических совета.
    • Цель 5: Закончить призывом к действию (подписаться на рассылку).
  2. Явная Постановка Целей в Промпте: Сформулируйте эти цели прямо в своем промпте, желательно в виде списка. Это помогает и вам, и модели четко видеть все компоненты задачи.

  3. Аудит Ответа по Чек-листу: Получив ответ от LLM, не принимайте его на веру. Пройдитесь по своему списку целей и проверьте каждую из них:

    • Цель 1 выполнена? Да.
    • Цель 2 учтена? Да.
    • Цель 3 соблюдена? Не совсем, тон слишком научный.
    • Цель 4 выполнена? Да, есть 3 совета.
    • Цель 5 выполнена? Нет, призыв к действию отсутствует.
  4. Корректирующий Промпт: Ваш следующий запрос должен быть не "переделай", а точечной коррекцией на основе вашего аудита. "Спасибо. Ты отлично справился с советами. Теперь, пожалуйста, исправь две вещи: 1. Сделай тон более простым и ободряющим, как будто я говорю с другом. 2. Добавь в конце призыв подписаться на нашу еженедельную рассылку о здоровье."

📌

Этот цикл "Постановка целей → Аудит ответа → Точечная коррекция" и есть практическая адаптация идей из исследования OnGoal.

📌

Анализ практической применимости:

  • Прямая применимость: Низкая. Вы не можете использовать сам интерфейс OnGoal. Однако вы можете немедленно начать применять методологию "ручного управления целями" в своих диалогах с любым чат-ботом, явно формулируя цели в промпте и проверяя их выполнение.

  • Концептуальная ценность: Высокая. Исследование дает ключевое понимание: LLM — это не разумный собеседник, а система, склонная к "дрейфу" от поставленных задач. Это знание заставляет пользователя быть более бдительным и структурированным, что кардинально меняет подход к промтингу от "попросить" к "поставить задачу и проконтролировать".

* Потенциал для адаптации: Высокий. Метод легко адаптируется. Вместо автоматической визуализации в OnGoal вы используете простой текстовый список или чек-лист в своей голове (или в блокноте). Механизм адаптации — это перенос функций системы на пользователя: вы становитесь тем самым "трекером целей", который анализирует ответы и дает LLM целенаправленную обратную связь.

🚀

Практически пример применения:

Ты — опытный маркетолог и копирайтер. Твоя задача — помочь мне составить текст для email-рассылки, анонсирующей новую летнюю коллекцию одежды в моем интернет-магазине.

Проанализируй мои цели и напиши черновик письма.

**Мои цели:**
1.  **Тема письма:** Яркая и интригующая, чтобы его захотелось открыть. Предложи 3 варианта.
2.  **Тон письма:** Легкий, дружелюбный и восторженный. Избегай формализма и сложных фраз.
3.  **Структура:**
    *   Короткое приветствие.
    *   Основная часть, описывающая ключевые преимущества коллекции (натуральные ткани, яркие цвета, универсальность).
    *   Четкий призыв к действию (CTA): перейти в каталог по кнопке.
4.  **Особое требование:** В тексте обязательно упомяни, что на первую покупку из новой коллекции действует скидка 15%.

Пожалуйста, предоставь результат, строго следуя всем перечисленным целям.
🧠

Почему это работает:

Этот промпт работает, потому что он является ручной реализацией принципов системы OnGoal:

  1. Явная декомпозиция: Вместо общего запроса "напиши письмо" мы разбиваем задачу на 4 четкие, проверяемые цели. Это снижает вероятность того, что LLM что-то упустит.
  2. Структурирование: Использование заголовка "Мои цели:" и нумерованного списка заставляет модель обратить особое внимание на этот блок как на набор ключевых инструкций. Это аналог того, как OnGoal "извлекает" цели из запроса.
  3. 3. Облегчение аудита для пользователя: После получения ответа пользователю не нужно вспоминать, что он хотел. Он может просто пройтись по своему списку в промпте и проверить: "Так, варианты темы есть? Есть. Тон дружелюбный? Да. Структура соблюдена? Да. Про скидку упомянуто? Да." Если что-то не так, легко составить корректирующий запрос.
📌

Другой пример практического применения

Выступи в роли HR-консультанта. Мне нужно подготовиться к собеседованию на позицию "Менеджер проектов". Помоги мне составить ответы на возможные вопросы.

Вот мои цели для нашей подготовки:

1.  **Сгенерируй 5 наиболее вероятных поведенческих вопросов** для этой роли (например, о провальном проекте, о конфликте в команде и т.д.).
2.  **Для каждого вопроса предложи структуру ответа** по методу STAR (Situation, Task, Action, Result). Не пиши ответ за меня, а именно дай шаблон-структуру.
3.  **Стиль твоих советов:** Прямой, профессиональный, но поддерживающий.
4.  **Формат вывода:** Предоставь результат в виде списка, где для каждого вопроса сразу идет его структура ответа.

Давай начнем с выполнения этих четырех целей.
🧠

Объяснение механизма почему этот пример работает.

Этот промпт эффективен, так как он переносит бремя структурирования и контроля с LLM на пользователя, что, парадоксально, улучшает результат.

  1. Управление ожиданиями: Запрос четко определяет границы задачи. Вместо расплывчатого "помоги подготовиться к собеседованию", мы ставим конкретные, выполнимые цели. LLM не пытается угадать, что нам нужно, а следует четкому плану.
  2. Предотвращение "дрейфа": Цель №2 ("Не пиши ответ за меня, а именно дай шаблон-структуру") — это отличный пример упреждающего контроля. Мы заранее предотвращаем распространенное поведение LLM, когда она вместо помощи в структурировании начинает фантазировать и писать готовые ответы.
  3. Итеративность: Этот промпт создает идеальную основу для следующего шага. После того как LLM выполнит эти 4 цели, пользователь может выбрать один вопрос и сказать: "Отлично, теперь давай поработаем над вопросом о провальном проекте. Вот моя ситуация (S)... Помоги мне сформулировать задачу (T) и действие (A)". Это превращает хаотичный диалог в управляемый пошаговый процесс, как и было задумано в исследовании OnGoal.
📌

Оценка полезности: 68

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование не предлагает конкретных формулировок промптов, а описывает систему (интерфейс), которая помогает пользователю отслеживать цели диалога.
  • B. Улучшение качества диалоговых ответов: Высокое. Исследование показывает, что использование предложенной системы помогает пользователям достигать своих целей быстрее и с меньшими усилиями.
  • C. Прямая практическая применимость: Низкая. Пользователь не может использовать систему OnGoal в стандартных чат-ботах (ChatGPT, Claude и т.д.). Выводы требуют от пользователя самостоятельной адаптации и "ручного" выполнения функций системы.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще раскрывает, почему длинные диалоги с LLM "портятся": модель теряет или неверно интерпретирует цели. Оно дает пользователю важнейшую ментальную модель: рассматривать диалог не как беседу, а как проект с задачами, которые нужно постоянно контролировать.
  • E. Новая полезная практика (кластеры): Работа попадает в несколько кластеров, но в основном как концептуальное знание, а не прямая техника.
    • Кластер 2 (Поведенческие закономерности LLM): Да. Основная ценность работы в том, что она наглядно демонстрирует и объясняет такие проблемы, как "дрейф темы" (topic drift) и забывание контекста в длинных диалогах.
    • Кластер 6 (Контекст и память): Да. Вся работа посвящена проблеме управления контекстом и целями в многоходовых диалогах.
    • Кластер 7 (Надежность и стабильность): Да. Предложенный подход направлен на повышение надежности и последовательности ответов LLM путем постоянного контроля за выполнением поставленных целей.
📌

Цифровая оценка полезности

Аргументы за оценку 68: Исследование имеет огромную концептуальную ценность. Оно объясняет пользователю, что LLM — это не идеальный собеседник с безупречной памятью, а инструмент, который склонен "забывать" или искажать цели в ходе длинного разговора. Понимание этого фундаментального ограничения позволяет пользователю перейти от наивного подхода ("почему он меня не понимает?") к более прагматичному ("как мне проконтролировать, что все мои задачи выполнены?"). Работа дает ментальную рамку для управления сложными проектами в чате, что очень полезно.

Контраргументы (почему оценка не выше): * Низкая прямая применимость: Исследование описывает специализированный интерфейс OnGoal, недоступный обычному пользователю. Все выводы требуют от пользователя "симулировать" работу этой системы в уме: самостоятельно выделять цели, проверять их выполнение после каждого ответа и корректировать LLM. Это требует дисциплины и когнитивных усилий, в то время как система делала это автоматически. * Отсутствие готовых промптов: В статье нет ни одной готовой фразы или структуры промпта, которую можно было бы скопировать и сразу использовать. Ценность заключается в методологии и понимании, а не в конкретных инструментах промтинга.

Контраргументы (почему оценка не ниже):

📋

* Сильная поведенческая модель: Знание о том, что LLM может игнорировать или забывать цели, — это уже само по себе мощный инструмент. Пользователь, вооруженный этим знанием, будет строить свои промпты иначе: делать их более структурированными и периодически напоминать модели о ключевых задачах. Это напрямую влияет на качество результата, даже без специального интерфейса.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с