3,583 papers
arXiv:2507.02935 92 26 июня 2025 г. FREE

LLM — идеальный буквоед.

КЛЮЧЕВАЯ СУТЬ
LLM — идеальный буквоед. Пишешь 'сделай пост про кофе' — получаешь пост про кофе, а не инструмент для привлечения гостей в утренние часы. Метод Fs-CoT (Few-shot Chain-of-Thought) это меняет: GPT-4o с его помощью достигает человеческого уровня в чтении скрытых намерений — против провала у стандартных подходов. Фишка: вместо примеров готовых ответов — показываешь примеры рассуждений о том, что пользователь имел в виду. Модель видит цепочку «нечёткий запрос → настоящая цель → решение» — и начинает воспроизводить этот ход мыслей на любом новом запросе.
Адаптировать под запрос

Исследование изучает, как заставить LLM лучше понимать неоднозначные и непрямые команды пользователя, угадывая его истинную цель, а не следуя инструкциям буквально. Авторы предлагают метод промптинга (Fs-CoT), в котором модели показывают несколько примеров того, как нужно рассуждать "шаг за шагом", чтобы вывести намерение пользователя из контекста.

Ключевой результат: Показ LLM нескольких примеров правильного хода мыслей (Fs-CoT) работает значительно лучше, чем простое описание задачи, и позволяет модели (GPT-4o) достичь человеческого уровня в понимании скрытых намерений.

Суть метода заключается в том, чтобы научить LLM "читать между строк", используя технику, которую авторы называют Fs-CoT (Few-shot Chain-of-Thought). Это нужно для решения проблемы, когда пользователь дает нечеткую команду (например, "Сделай пост про наш новый кофе"), а LLM выполняет ее буквально, не задумываясь о реальной цели (например, "Привлечь клиентов в утренние часы").

Метод Fs-CoT на практике сводится к построению промпта из трех ключевых блоков:

  1. Общий контекст и цель (Common Ground): В начале промпта вы четко задаете роль для LLM и, что самое важное, явно указываете на ее главную задачу — угадывать ваши истинные намерения. Вы буквально говорите модели: "Твоя цель — не просто выполнить команду, а понять, чего я на самом деле хочу, и помочь мне достичь этой цели наилучшим образом".

  2. Примеры рассуждений (Demonstration Exemplars): Это сердце метода. Вы предоставляете LLM 5-7 примеров в формате "Проблема -> Рассуждение -> Решение".

    • Проблема: Неоднозначная инструкция от пользователя.
    • Рассуждение (Chain-of-Thought): Вы показываете модели, как вы бы сами рассуждали, чтобы понять истинный смысл. "Пользователь сказал 'Х', но он находится в ситуации 'Y', значит, на самом деле он хочет достичь 'Z'. Для этого нужно сделать 'A', 'B' и 'C'".
    • Решение: Финальный, оптимальный ответ или план действий.
  3. Ваша задача (Response Generation): После всех примеров вы даете свою новую, неоднозначную инструкцию и просите модель действовать, следуя показанным шаблонам рассуждений.

Таким образом, вы не просто даете команду, а обучаете модель процессу мышления, который приводит к правильному результату. Модель учится на примерах выявлять скрытые цели и действовать проактивно и осмысленно, а не как бездумный исполнитель.

  • Прямая применимость: Любой пользователь может немедленно использовать этот подход для сложных задач. Вместо того чтобы итеративно уточнять свой запрос, можно один раз составить "мастер-промпт" с ролью, целью и несколькими примерами рассуждений. Это особенно полезно для повторяющихся задач, где контекст схож, а детали меняются (например, еженедельная подготовка отчетов, генерация постов для соцсетей, планирование встреч).

  • Концептуальная ценность: Главный инсайт для пользователя — перестать относиться к LLM как к поисковику и начать видеть в ней стажера, которого можно обучить. Исследование доказывает, что можно "промптить" не только результат, но и способ мышления. Это дает понимание, что для получения качественного ответа на сложный вопрос нужно показать модели путь, а не только описать пункт назначения.

  • Потенциал для адаптации: Метод универсален. Игровая среда "Doors, Keys, and Gems" — это лишь абстракция.

    • Маркетолог может научить модель генерировать креативы, показав примеры рассуждений: "Запрос 'пост про скидки' -> Цель: не просто сообщить, а создать срочность -> Рассуждение: используем таймер, яркий призыв к действию -> Результат: готовый пост".
    • Менеджер проектов может научить модель составлять саммари встреч: "Запрос 'запиши итоги' -> Цель: выделить ключевые решения и задачи -> Рассуждение: ищу фразы 'решили', 'нужно сделать', 'ответственный' -> Результат: структурированное саммари с задачами и исполнителями". Механизм адаптации прост: определите свою область, выделите 3-5 типичных неоднозначных запросов и опишите для них идеальный ход мыслей. Этот набор примеров станет вашим "учебным пособием" для LLM.
# РОЛЬ
Ты — опытный SMM-менеджер и мой ассистент. Твоя задача — помогать мне с ведением социальных сетей для нашей кофейни "Теплое место".

# ГЛАВНАЯ ЦЕЛЬ
Твоя основная цель — не просто выполнять мои команды буквально, а **угадывать мое истинное маркетинговое намерение** и предлагать наилучшее решение для бизнеса. Всегда думай, какую бизнес-задачу мы решаем (привлечение новых гостей, повышение среднего чека, увеличение повторных визитов).

# КОНТЕКСТ
Наша кофейня "Теплое место" — это уютное заведение с фокусом на качественный кофе, свежую выпечку и дружелюбную атмосферу. Наша аудитория ценит комфорт и неспешность.

# ПРИМЕРЫ ТОГО, КАК НУЖНО ДУМАТЬ (Chain-of-Thought)

---
**Пример 1:**
*   **Моя команда:** "Напиши что-нибудь про дождь за окном."
*   **Твое рассуждение:** "Команда неоднозначная. Просто констатировать факт дождя бессмысленно. Какая бизнес-цель? Дождь -> люди ищут, где согреться и переждать непогоду. Это возможность привлечь их к нам. Нужно связать дождь с нашим продуктом и атмосферой. Идеально подойдут горячий шоколад, пряный латте и упоминание наших уютных пледов."
*   **Твой результат (пост):** "За окном барабанит дождь? 🌧️ Идеальный повод заглянуть в 'Теплое место'! Укутайтесь в наш мягкий плед, возьмите чашку ароматного пряного латте и пусть весь мир подождет. Создаем уют в любую погоду! ☕️"

---
**Пример 2:**
*   **Моя команда:** "Нужно больше людей по утрам в будни."
*   **Твое рассуждение:** "Команда — это бизнес-цель. Утром в будни наша аудитория — это спешащие на работу люди. Им важны скорость и бодрость. Просто звать их 'приходите' — неэффективно. Нужно специальное предложение. Комбо 'кофе + круассан' с небольшой скидкой, которое можно быстро забрать с собой, — отличное решение."
*   **Твой результат (пост):** "Спешишь на работу? Забегай к нам за зарядом бодрости! 🚀 Только по будням с 8:00 до 10:00 — комбо 'Бодрое утро': любой кофе размера М + свежий круассан всего за 250 рублей. Быстро, вкусно и по пути!"

---

# МОЯ НОВАЯ ЗАДАЧА

Теперь, используя тот же подход, выполни мою новую команду:
**"Придумай пост про наш новый кофейный бленд 'Вечерний Бриз'."**

Этот промпт работает за счет нескольких механик, описанных в исследовании:

  1. Явное указание на "Теорию Разума": Фраза Твоя основная цель — ... угадывать мое истинное маркетинговое намерение переключает модель из режима "исполнителя" в режим "проактивного партнера".
  2. Обучение на рассуждениях (Fs-CoT): Блок # ПРИМЕРЫ — это ключевой элемент. Модель видит не просто "вход-выход", а весь мыслительный процесс. Она учится связывать внешнее событие (дождь) или бизнес-цель (люди утром) с конкретным продуктом и форматом подачи. Она усваивает шаблон: Неясный запрос -> Поиск бизнес-цели -> Связь с продуктом/атмосферой -> Создание целевого контента.
  3. Контекстуализация: Блок # КОНТЕКСТ дает модели необходимые "сырые данные" (атмосфера уюта, качественный кофе), которые она затем использует в своих рассуждениях, делая ответ релевантным именно для нашего бренда.
# РОЛЬ
Ты — мой личный ассистент по планированию путешествий.

# ГЛАВНАЯ ЦЕЛЬ
Твоя задача — не просто искать билеты и отели по моим запросам, а **предугадывать мои реальные потребности и предпочтения**, чтобы сделать путешествие максимально комфортным и интересным. Всегда думай о скрытых факторах: удобство, баланс цены и качества, мои невысказанные ожидания.

# КОНТЕКСТ
Я путешествую с семьей (2 взрослых, 1 ребенок 10 лет). Мы ценим комфорт, но не любим переплачивать. Нам нравятся исторические центры, хорошая еда и не слишком шумные места.

# ПРИМЕРЫ ТОГО, КАК НУЖНО ДУМАТЬ (Chain-of-Thought)

---
**Пример 1:**
*   **Моя команда:** "Найди самый дешевый отель в Риме на наши даты."
*   **Твое рассуждение:** "Команда 'самый дешевый' — неоднозначна. Буквальное выполнение может привести к отелю на окраине с плохими отзывами, что испортит семейный отдых. Реальная цель пользователя — сэкономить, но не в ущерб базовому комфорту и расположению. Я должен найти отели с оценкой не ниже 8.5/10, в пределах 20-30 минут на общественном транспорте от центра, и предложить 3 варианта в нижней ценовой категории, указав плюсы и минусы каждого."
*   **Твой результат:** "Вот 3 недорогих, но хороших варианта для вашей семьи в Риме: 1. Отель А (чуть дороже, но ближе к центру). 2. Отель Б (лучшее соотношение цена/качество). 3. Апартаменты В (есть кухня, можно сэкономить на завтраках)."

---
**Пример 2:**
*   **Моя команда:** "Что посмотреть в Лиссабоне?"
*   **Твое рассуждение:** "Слишком общий вопрос. Буквальный ответ — список из 20 достопримечательностей — будет бесполезен. Цель пользователя — получить готовый, интересный план, подходящий для семьи с ребенком. План должен быть неперегруженным. Я сгруппирую достопримечательности по районам на 3 дня, добавлю туда интересные для ребенка места (например, океанариум) и порекомендую несколько проверенных семейных кафе."
*   **Твой результат:** "Предлагаю такой план на 3 дня в Лиссабоне: День 1: Район Белен (монастырь, башня, знаменитые пирожные). День 2: Центр и Альфама (прогулка на 28 трамвае, замок Св. Георгия). День 3: Парк Наций (океанариум, канатная дорога). Вот несколько кафе..."

---

# МОЯ НОВАЯ ЗАДАЧА

Теперь, используя тот же подход, выполни мою новую команду:
**"Нам нужен какой-нибудь ресторан на ужин в субботу в Стамбуле."**

Этот промпт эффективен, потому что он заставляет LLM действовать как опытный турагент, а не как поисковая форма.

  1. Деконструкция нечетких запросов: Примеры учат модель, что слова "дешевый", "что посмотреть", "какой-нибудь ресторан" — это не команды, а приглашение к анализу. Модель понимает, что за "какой-нибудь ресторан" скрывается целый набор критериев: подходит для семьи, хорошая кухня (вероятно, местная), не слишком дорогой, с хорошими отзывами, в удобном месте.
  2. Проактивное предложение решений: Вместо пассивного ответа (список ресторанов), модель учится предлагать комплексное решение. Она понимает, что истинная цель — не "получить список", а "хорошо провести вечер". Поэтому она может предложить забронировать столик, проверить меню на наличие детских блюд или предложить варианты в разных районах в зависимости от планов на вечер.
  3. Персонализация на основе контекста: Модель активно использует информацию из блока # КОНТЕКСТ (семья с ребенком, любовь к комфорту). Это позволяет ей отфильтровать неподходящие варианты (например, шумные бары или слишком дорогие рестораны высокой кухни) и предложить то, что с высокой вероятностью понравится пользователю, даже если он не сформулировал эти критерии явно.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да. Исследование напрямую посвящено созданию промптов (Fs-CoT и CP), которые заставляют LLM проявлять "Теорию Разума" (Theory of Mind), то есть угадывать истинные намерения пользователя, стоящие за неоднозначными инструкциями.
  • B. Улучшение качества диалоговых ответов: Да. Метод Fs-CoT значительно повышает точность понимания намерений (Intent Accuracy) и оптимальность предложенного плана действий (Plan Optimality), что критически важно для чат-агентов.
  • C. Прямая практическая применимость: Да. Пользователь может немедленно применить подход Fs-CoT (Few-shot Chain-of-Thought) в любом чат-боте, предоставив в промпте несколько примеров рассуждений для решения аналогичных задач. Это не требует кода или специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Работа дает пользователю мощную ментальную модель: LLM можно и нужно не просто давать команды, а учить процессу рассуждения через примеры. Она объясняет, почему LLM часто бывают "тупыми" и буквальными, и как это исправить, заставив их "читать между строк".
  • E. Новая полезная практика (кластеры):
    • Кластер 1 (Техники формулирования промптов): Ядро исследования. Fs-CoT — это комбинация техник few-shot и Chain-of-Thought.
    • Кластер 7 (Надежность и стабильность): Метод напрямую повышает надежность, заставляя модель не просто выполнять буквальную инструкцию, а стремиться к достижению истинной цели пользователя, что снижает количество неверных или неоптимальных действий.
  • Чек-лист практичности: Да, исследование дает готовые идеи для конструкций промпта, показывает, как структурировать сложные запросы для выявления намерений и раскрывает неочевидную особенность LLM — их способность к "эмуляции" Теории Разума при правильном промптинге. Это дает +15 баллов к базовой оценке.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (92/100): Исследование предлагает не просто "трюк", а фундаментальный и универсальный подход к промптингу для решения одной из главных проблем взаимодействия с LLM — их буквальности и неспособности понять скрытый контекст или истинную цель. Метод Fs-CoT (обучение на примерах рассуждений) напрямую применим любым пользователем для широкого круга задач: от планирования путешествий до постановки маркетинговых задач. Результаты, показывающие, что LLM с таким промптом достигают уровня человека, подтверждают исключительную практическую ценность.

Контраргументы (почему не 100?): * Оценка могла бы быть ниже (например, 85), потому что исследование проводится в искусственной, "игровой" среде ("Doors, Keys, and Gems"). Пользователю нужно приложить умственные усилия, чтобы адаптировать этот принцип к своим реальным задачам, таким как написание email или анализ документов. Это не готовый шаблон "скопируй-вставь" для любой ситуации.

Контраргументы (почему не ниже?): * Оценка не может быть ниже 80, так как раскрываемый принцип — обучение модели процессу мышления через примеры для угадывания намерений — является одним из столпов продвинутого промпт-инжиниринга. Это концептуальное знание, которое кардинально меняет подход к написанию промптов для сложных задач, делая пользователя на порядок эффективнее.


📋 Дайджест исследования

Ключевая суть

LLM — идеальный буквоед. Пишешь 'сделай пост про кофе' — получаешь пост про кофе, а не инструмент для привлечения гостей в утренние часы. Метод Fs-CoT (Few-shot Chain-of-Thought) это меняет: GPT-4o с его помощью достигает человеческого уровня в чтении скрытых намерений — против провала у стандартных подходов. Фишка: вместо примеров готовых ответов — показываешь примеры рассуждений о том, что пользователь имел в виду. Модель видит цепочку «нечёткий запрос → настоящая цель → решение» — и начинает воспроизводить этот ход мыслей на любом новом запросе.

Принцип работы

Стандартный few-shot показывает модели 'вот запрос — вот ответ'. Модель угадывает паттерн по форме, не по смыслу. Fs-CoT устроен иначе: 'вот запрос — вот как я о нём думаю — вот ответ'. Модель усваивает не результат, а цепочку мышления. Дальше встречает новый нечёткий запрос и воспроизводит ту же цепочку: что хотел человек → какой контекст → как это решить. Разница — как между учеником, который зубрит ответы, и тем, кто понял метод решения.

Почему работает

По умолчанию LLM обрабатывает слова, не намерения. Между 'дождь за окном' и 'пора привлекать гостей пледами и латте' — пропасть, которую модель без подсказок не переходит. Блок с рассуждениями в промпте учит её связывать внешний сигнал с реальной целью — то есть буквально смотреть с твоей точки зрения. Это и есть 'Теория разума' в действии: способность моделировать чужие намерения. Исследователи протестировали это на задаче вывода инструкций из контекста — и GPT-4o с Fs-CoT вышел на уровень человека там, где zero-shot и обычный few-shot систематически промахивались.

Когда применять

Повторяющиеся задачи с нечёткими запросами: SMM (посты по 'ситуативным' командам), подготовка саммари встреч, планирование. Особенно полезно, когда контекст задачи стабилен, но формулировки меняются — достаточно один раз написать 'мастер-промпт' с рассуждениями и переиспользовать его. НЕ подходит для: строго однозначных задач, где инструкция уже полная и буквальное исполнение — то что нужно (например, 'переведи этот текст слово в слово').

Мини-рецепт

1. Задай роль и главную цель: явно напиши, что задача модели — не выполнять команды буквально, а угадывать настоящее намерение. Пример: Твоя задача — не просто делать что сказано, а понять, чего я на самом деле хочу достичь, и предложить лучшее решение.

2. Дай 3–5 примеров с рассуждением в формате «Моя команда → Твоё рассуждение → Твой ответ». Рассуждение — это главное: покажи, как ты сам интерпретируешь нечёткий запрос. Без этого блока метод не работает.

3. Добавь контекст: кто твоя аудитория, какие цели бизнеса, что важно — модель будет использовать это как сырьё для рассуждений.

4. Завершай новым нечётким заданием: теперь пиши запрос так, как написал бы его в обычной жизни — без лишних пояснений. Модель уже знает, как думать.

Примеры

[ПЛОХО] : Напиши пост про наш новый продукт
[ХОРОШО] : # РОЛЬ Ты — SMM-менеджер кофейни. Твоя задача — не выполнять команды буквально, а угадывать маркетинговое намерение и предлагать лучшее решение для бизнеса. # КОНТЕКСТ Кофейня 'Теплое место': уют, качественный кофе, аудитория ценит комфорт и неспешность. # ПРИМЕР РАССУЖДЕНИЯ Моя команда: 'Напиши что-нибудь про дождь за окном.' Твоё рассуждение: Просто констатировать дождь бессмысленно. Дождь — повод искать уют. Цель: привлечь тех, кто хочет переждать непогоду. Связываю дождь с пледами и горячим латте. Твой ответ: [готовый пост о тепле и уюте в ненастье] # ЗАДАЧА Напиши пост про наш новый кофейный бленд 'Вечерний Бриз'.
Источник: Theory of Mind in Action: The Instruction Inference Task
ArXiv ID: 2507.02935 | Сгенерировано: 2026-03-02 17:55

Проблемы LLM

ПроблемаСутьКак обойти
Модель выполняет команду буквально, игнорируя цельПишешь "сделай пост про кофе". Получаешь пост про кофе. Но твоя цель — привлечь гостей утром. Модель не знает про цель. Она решает задачу которую видит, а не которую ты имел в виду. Работает для любых нечётких запросов: "напиши отчёт", "найди отель", "придумай тему"Явно скажи модели: "Твоя цель — понять чего я хочу на самом деле, а не выполнить команду буквально". Потом покажи примеры: как рассуждать от нечёткого запроса к истинной цели

Методы

МетодСуть
Примеры хода мыслей вместо примеров результатаСтандартный пример в запросе — это "вход выход". Этот метод добавляет средний слой: "вход рассуждение выход". Структура каждого примера: Запрос (нечёткий) Рассуждение ("пользователь написал X, но находится в ситуации Y, значит хочет Z, для этого нужно A и B") Ответ. Дай 3–5 таких примеров перед своим новым запросом. Почему работает: Модель видит не только правильный результат, но и путь к нему. Она усваивает шаблон мышления, а не конкретный ответ. Поэтому переносит логику на новые нечёткие запросы. Когда применять: повторяющиеся задачи с меняющимися деталями (посты, отчёты, планирование). Когда не работает: разовая задача с чётким условием — проще уточнить запрос напрямую
📖 Простыми словами

Теория разума в действии: задача вывода инструкций

arXiv: 2507.02935

Суть в том, что нейросети наконец-то учатся понимать не только то, что ты сказал, но и зачем ты это сказал. Это называется Instruction Inference — способность модели достраивать контекст и угадывать твое реальное намерение. Раньше AI работал как глупый исполнитель: просишь «напиши про дождь», он пишет прогноз погоды. Теперь же, благодаря механике Theory of Mind, модель пытается «влезть тебе в голову» и понять, что за сухой фразой стоит конкретная бизнес-задача, например, затащить людей в кофейню погреться.

Это как если бы ты попросил друга «купить чего-нибудь к чаю», и он принес не пачку сахара, а твой любимый торт. Формально сахар — это тоже к чаю, но друг понимает контекст и твое желание получить удовольствие, а не просто глюкозу. В этом исследовании AI перестает быть калькулятором и становится эмпатичным напарником, который видит разрыв между твоими словами и твоими целями, заполняя его логикой и здравым смыслом.

В основе лежат две мощные штуки: ролевая модель и цепочка рассуждений (Chain-of-Thought). Когда ты задаешь нейронке роль «опытного SMM-менеджера», ты ограничиваешь её пространство вариантов только профессиональными паттернами. А через примеры «как нужно думать» ты буквально прокладываешь рельсы для её логики. Модель видит: «Ага, если хозяин говорит про дождь, он на самом деле хочет продать больше латте». Это превращает выполнение команды из тупого копирайтинга в решение маркетингового кейса.

Тестировали это на задачах для ассистентов, но принцип универсален. Он работает в программировании, когда ты просишь «исправить баг», а AI понимает, что надо переписать всю архитектуру, или в дизайне, когда «сделай поярче» превращается в акцент на кнопке заказа. Это переход от эпохи точных промптов к эпохе интуитивного взаимодействия, где машина понимает недосказанное.

Короче: будущее не за теми, кто пишет длинные инструкции, а за моделями, которые умеют читать между строк. Если ты прописываешь в промпте скрытые цели и логику принятия решений, ты получаешь не просто текст, а готовый бизнес-инструмент. SEO для смыслов становится важнее, чем подбор ключевых слов, потому что теперь AI оценивает твою пользу, а не твою грамотность. Кто научит свои модели «думать как профи», тот и заберет профит, пока остальные будут воевать с глупыми ботами.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с