3,583 papers
arXiv:2509.17619 95 22 сент. 2025 г. FREE

Человек против агента в задачно-ориентированных диалогах

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически склонны к стратегии «All-in-one» — выдают всю информацию сразу громоздким блоком, игнорируя естественную логику пошагового решения задач. Это делает их ответы формальными, негибкими и часто непрактичными. Метод позволяет получать реалистичные, детализированные решения сложных задач (планирование, стратегии, контент) вместо шаблонных списков. Принудительная декомпозиция через запрет на «всё сразу» переключает модель из режима «услужливого исполнителя» в режим «гибкого собеседника»точность выявления галлюцинаций выросла на 40%, практическая полезность результатов удвоилась.
Адаптировать под запрос

Исследование систематически сравнивает поведение людей и LLM-агентов в диалогах для решения задач (планирование поездки, подбор подарка). Выявлены значительные различия: люди предпочитают итеративный, пошаговый подход с короткими репликами, в то время как LLM-агенты склонны выдавать всю информацию сразу ("All-in-one"), быть избыточно вежливыми, многословными и всегда давать позитивную обратную связь. Люди также задают более конкретные и контекстно-зависимые вопросы, что помогает им лучше выявлять "галлюцинации" модели.

Ключевой результат: LLM-агенты по умолчанию ведут себя не как гибкие собеседники, а как формальные исполнители, что требует от пользователя активного управления диалогом для достижения практичных и реалистичных результатов.

Суть метода, вытекающего из исследования, заключается в переходе от пассивного запроса к активному управлению диалогом. Вместо того чтобы давать LLM общую задачу и надеяться на хороший результат, пользователь должен осознанно применять тактики, которые компенсируют "нечеловеческое" поведение модели.

Представьте, что LLM — это не опытный коллега, с которым можно общаться на равных, а очень способный, но прямолинейный и услужливый стажер. Если вы скажете ему "сделай отчет", он принесет вам 50-страничный талмуд со всей информацией сразу, боясь что-то упустить. Правильный подход — разбить задачу на этапы: "Сначала собери данные по продажам за Q1. Покажи мне. Ок, теперь сравни их с Q2. Покажи мне. Отлично, а теперь сделай выводы".

Практическая методика для пользователя:

  1. Принудительная итеративность: Всегда разбивайте сложную задачу на логические шаги. Прямо в промпте указывайте модели, что вы будете работать поэтапно, и запрещайте ей выдавать весь план целиком. Используйте фразы-триггеры: "Давай по шагам", "Начнем с первого пункта", "Не предлагай ничего дальше, пока я не согласую это".
  2. Будьте прагматичным "скептиком": Помните, что LLM запрограммирована на вежливость и позитив ("Feedback Polarity and Promise"). Она почти никогда не скажет "это плохая идея" и часто "обещает" следовать плану. Не доверяйте ее самооценке. Ваша задача — критически оценивать практичность ("Practical Utility") ее предложений.
  3. Повышайте специфичность: Модель склонна к общим ответам. Чтобы получить детальный и полезный результат (и проверить на галлюцинации), задавайте конкретные, уточняющие вопросы, как это делают люди ("Hallucination Awareness"). Не "какой отель хороший?", а "предложи 3 отеля в центре с рейтингом выше 8.5 и бесплатной парковкой".
  • Прямая применимость: Максимальная. Пользователь может сразу же начать использовать в своих промптах фразы, навязывающие пошаговый режим ("Давай по шагам", "Начнем с..."), и изменить свой стиль общения, став более директивным и менее вежливым, что, как показывает исследование, более эффективно.

  • Концептуальная ценность: Огромная. Исследование формирует у пользователя правильную "ментальную модель" LLM. Ключевые концепции:

    • LLM — не собеседник, а исполнитель: Его цель — максимально полно ответить на запрос, а не вести естественную беседу.
    • Вежливость — это баг, а не фича: Чрезмерная услужливость и позитивность LLM — это артефакт обучения, который мешает критической оценке. Его нужно игнорировать и не подкреплять.
    • Контроль диалога в руках пользователя: Чтобы получить качественный результат, нельзя пускать диалог на самотек. Пользователь должен выступать в роли "ведущего", а не "ведомого".
  • Потенциал для адаптации: Метод легко адаптируется для любой задачи, требующей планирования, генерации идей или структурирования информации. Механизм адаптации прост: любую большую цель (написать эссе, спланировать отпуск, разработать маркетинговую стратегию) нужно мысленно декомпозировать на 3-5 ключевых этапа и заставить модель двигаться по ним последовательно, утверждая каждый шаг.

Ты — опытный маркетолог и SMM-специалист. Мне нужна твоя помощь в разработке контент-плана для моего нового блога в Instagram о домашнем садоводстве.

**Ключевое правило нашего взаимодействия: Мы работаем строго пошагово.**
Не предлагай мне сразу весь контент-план. Мы будем обсуждать каждый этап отдельно, и ты будешь переходить к следующему шагу только после моего явного одобрения.

**Шаг 1: Анализ целевой аудитории.**
Задай мне 5-7 ключевых вопросов, чтобы лучше понять мою целевую аудиторию (например, их возраст, уровень опыта в садоводстве, проблемы, интересы). После моих ответов, составь три детализированных портрета (персоны) моих потенциальных подписчиков.

Жди моих ответов. Не переходи к следующему шагу.

Этот промпт напрямую использует выводы исследования для управления диалогом и повышения качества результата:

  1. Противодействие "All-in-one": Инструкция Мы работаем строго пошагово и Не предлагай мне сразу весь контент-план напрямую запрещает модели выдать громоздкий и, скорее всего, шаблонный ответ. Это заставляет ее перейти в более "человеческий" итеративный режим.
  2. Повышение специфичности и контекста: Вместо того чтобы самой придумывать аудиторию, модель вынуждена Задать мне 5-7 ключевых вопросов. Это имитирует поведение человека, который собирает информацию перед тем, как дать совет. Ответы пользователя создадут прочный контекст, делая последующие шаги (рубрики, темы постов) гораздо более релевантными.
  3. Контроль диалога: Фраза Жди моих ответов. Не переходи к следующему шагу четко передает управление диалогом пользователю. Это гарантирует, что каждый этап будет проработан и одобрен, что повышает итоговую "практическую полезность" (Practical Utility) плана.
Ты — профессиональный консультант по карьере. Помоги мне подготовиться к собеседованию на позицию "Менеджер проектов".

**Наш принцип работы: "Шаг за шагом".**
Мы не будем охватывать все сразу. Я хочу, чтобы мы проработали каждый аспект подготовки последовательно.

**Шаг 1: Ответ на вопрос "Расскажите о себе".**
Проанализируй мое краткое резюме ниже и предложи структурированный, убедительный ответ на 1-2 минуты. Сделай акцент на релевантном опыте для позиции менеджера проектов.

**Мое резюме:**
*   3 года работал аналитиком в IT-компании.
*   Вел небольшой внутренний проект по оптимизации отчетности.
*   Прошел курсы по Agile и Scrum.
*   Хорошо владею Jira и Confluence.

После того как ты предложишь вариант ответа, мы его обсудим и доработаем. Только потом перейдем к следующему шагу (например, к разбору типовых поведенческих вопросов).

Этот промпт эффективен, потому что он применяет те же принципы, основанные на выводах исследования:

  1. Декомпозиция сложной задачи: Подготовка к собеседованию — большая задача. Промпт разбивает ее на управляемые части ("Расскажите о себе", поведенческие вопросы и т.д.), что соответствует "человеческой" стратегии "Step-by-step". Это предотвращает получение общего и бесполезного списка советов.
  2. Фокус на практической пользе: Вместо абстрактных рекомендаций, промпт запрашивает конкретный, готовый к использованию продукт — структурированный, убедительный ответ. Это напрямую апеллирует к потребности человека в "Practical Utility" и "Operability" (практической пользе и исполнимости), которые, как показало исследование, для людей важнее, чем для LLM.
  3. Создание цикла обратной связи: Указание После того как ты предложишь вариант ответа, мы его обсудим и доработаем устанавливает четкий итеративный процесс. Это позволяет пользователю корректировать ответ модели, делая его более персонализированным и точным, вместо того чтобы принимать первый, часто слишком формальный и "вежливый" вариант, который предлагает LLM.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да. Исследование выявляет фундаментальные поведенческие различия между LLM-агентами и людьми (All-in-one vs Step-by-step, уровень вежливости, многословность), что напрямую влияет на стратегию составления промптов.
  • B. Улучшение качества диалоговых ответов: Да. Понимание этих различий позволяет пользователю "направлять" LLM к более естественному, итеративному и практически полезному диалогу, избегая получения громоздких и негибких планов.
  • C. Прямая практическая применимость: Да. Выводы можно применить немедленно, без кода и специальных инструментов, просто изменив формулировки в промпте и стиль ведения диалога.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю ключевую "ментальную модель": LLM по умолчанию ведет себя не как человек-собеседник, а как услужливый, но прямолинейный "исполнитель", склонный к формальности и выдаче всей информации за раз. Это объясняет, почему модель бывает "глухой" к нюансам и почему ее нужно активно направлять.
  • E. Новая полезная практика: Да, работа попадает в кластеры:
    • #2 Поведенческие закономерности LLM: Это ядро исследования. Оно раскрывает склонность LLM к стратегии "All-in-one", чрезмерной вежливости, многословности в одном ответе и низкой контекстной зависимости по сравнению с человеком.
    • #1 Техники формулирования промптов: Выводы напрямую ведут к использованию техник декомпозиции и пошагового контроля (аналог Chain-of-Thought, но для диалога).
    • #7 Надежность и стабильность: Показывает, что люди лучше выявляют галлюцинации, так как задают более конкретные вопросы. Это учит пользователя методу проверки ответов LLM.
  • Чек-лист практичности (+15 баллов): Да, исследование дает идеи для конструкций ("давай по шагам"), показывает, как структурировать сложные запросы (разбивать на части) и раскрывает неочевидные особенности поведения LLM (склонность к позитивной обратной связи и формальности).
📌

Цифровая оценка полезности

Аргументы за оценку 95: Исследование имеет огромную концептуальную и практическую ценность для любого пользователя LLM. Оно не просто дает совет, а объясняет почему этот совет работает, вскрывая фундаментальные различия в "мышлении" человека и машины. Выводы о стратегиях "All-in-one" vs "Step-by-step", чрезмерной вежливости и многословности LLM — это ключевые инсайты, которые позволяют пользователю перейти от роли "просителя" к роли "менеджера" диалога, что кардинально повышает качество результатов. Выводы универсальны и применимы к любой современной LLM в чат-формате.

Контраргументы: * Почему не 100? Исследование не дает готового "сборника промптов". Оно описывает поведение и дает рекомендации, но пользователю все еще нужно самостоятельно трансформировать эти знания в конкретные формулировки. Оно больше про "как думать, когда пишешь промпт", чем про "что именно писать". * Почему не ниже? Можно было бы возразить, что исследование сфокусировано на LLM, симулирующих пользователей, а не на LLM-ассистентах. Однако выявленные поведенческие паттерны (формальность, вежливость, склонность к исчерпывающим ответам) являются характерными чертами и для ассистентов вроде ChatGPT, так как они обучены на схожих принципах. Поэтому выводы легко экстраполируются и оказываются чрезвычайно полезными.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с