3,583 papers
arXiv:2506.04089 82 1 июня 2025 г. FREE

АмбиК Датасет Неоднозначных Задач в Кухонной Среде

КЛЮЧЕВАЯ СУТЬ
LLM не умеют отличать четкие инструкции от неоднозначных и вместо запроса уточнений выдают САМОУВЕРЕННЫЕ ГАЛЛЮЦИНАЦИИ. Твоя задача — писать промпты так, будто даешь инструкцию очень умному, но абсолютно буквальному исполнителю без жизненного опыта. ПРЕВЕНТИВНО УСТРАНЯЙ все места, где LLM может 'додумать' что-то неправильно.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследователи создали датасет AmbiK с парами похожих инструкций для робота на кухне: одна — однозначная, другая — неоднозначная (например, "возьми керамическую кружку" vs "возьми кружку", когда их несколько). Они протестировали, как современные LLM (включая GPT-3.5/4 и Llama) справляются с распознаванием такой неоднозначности. Выяснилось, что все модели работают очень плохо: они не понимают, когда нужно запросить уточнение, и часто действуют излишне самоуверенно, что приводит к ошибкам.

Ключевой результат: LLM не способны надежно отличить четкую инструкцию от неоднозначной, если они лингвистически похожи, и не справляются с задачами, требующими человеческого здравого смысла или понимания невысказанных предпочтений.

🔬

2. Объяснение всей сути метода:

Суть подхода, который пользователь может извлечь из этого исследования, — этопревентивное устранение неоднозначностив своих промптах. Вместо того чтобы надеяться, что LLM "догадается", что вы имели в виду, нужно действовать так, будто вы даете инструкцию очень умному, но абсолютно буквальному исполнителю без жизненного опыта.

Методика для пользователя сводится к самопроверке своего промпта по трем категориям неоднозначности, выделенным в исследовании:

  1. Неоднозначность ПРЕДПОЧТЕНИЙ (PREFERENCES): Возникает, когда выбор зависит от личного вкуса, который LLM не может знать.

    • Плохо: "Напиши пост в интересном стиле".
    • Хорошо: "Напиши пост в юмористическом и немного саркастичном стиле".
  2. Неоднозначность ЗДРАВОГО СМЫСЛА (COMMON SENSE): Возникает, когда для правильного действия нужно знание об устройстве мира, которое для человека очевидно.

    • Плохо: "Подогрей ужин". (Человек знает, что суп греют в кастрюле, а пиццу — в духовке. LLM может "предложить" погреть суп на тарелке на плите).
    • Хорошо: "Подогрей суп в кастрюле на плите на среднем огне".
  3. Неоднозначность БЕЗОПАСНОСТИ (SAFETY): Возникает, когда неверный выбор может привести к негативным последствиям (физическим, репутационным и т.д.).

    • Плохо: "Поставь тарелку в микроволновку". (А если тарелка с золотым ободком?).
    • Хорошо: "Возьми любую тарелку без металлических элементов и поставь в микроволновку".

Главный вывод для практики: LLM не просит уточнений. Он скорее выберет случайный (и часто неверный) вариант и представит его как единственно правильный. Задача пользователя — не оставлять ему пространства для таких догадок.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь не может использовать научные методы из статьи (Conformal Prediction), но может напрямую использовать еевыводы. Это выражается в выработке привычки писать более детальные и однозначные промпты, заранее отвечая на потенциальные вопросы, которые мог бы задать человек, но не задаст LLM. Например, вместо "подбери картинку к посту" писать "подбери яркую вертикальную фотографию без людей, где изображена чашка кофе и ноутбук, в стиле минимализм".

  • Концептуальная ценность: Исследование дает пользователю четкую ментальную модель: LLM — это не "собеседник", а "исполнитель инструкций". Он не обладает фоновыми знаниями о ваших целях, вкусах и здравом смысле. Каждый ваш промпт — это полный и исчерпывающий технический заказ, где любая недосказанность будет интерпретирована буквально или случайным образом.

  • Потенциал для адаптации: Метод адаптируется очень просто. Перед отправкой сложного промпта задайте себе три вопроса:

    1. Есть ли здесь слова, зависящие от моего вкуса ("хороший", "красивый", "интересный")? → Уточнить критерии.
    2. Полагаюсь ли я на здравый смысл или общеизвестные факты? → Прописать их явно.
    3. Может ли неверная интерпретация привести к нежелательному результату? → Добавить ограничения и запреты. Эта простая "префлайт-проверка" промпта и есть практическая адаптация выводов исследования.

🚀

4. Практически пример применения:

Представим, что SMM-менеджер просит LLM помочь с постом для кофейни.

Плохой промпт (неоднозначный): Напиши пост для Инстаграма про нашу новую акцию "второй кофе в подарок". Сделай его интересным и добавь подходящие хэштеги.

Хороший промпт (с устраненной неоднозначностью по методу исследования):

# Роль: Опытный SMM-менеджер кофейни "Утренний Бриз"

# Задача: Создать текст для поста в Инстаграм

## Контекст

Мы запускаем новую акцию: при покупке одного любого кофе, второй капучино стандартного объема (300 мл) идет в подарок. Акция действует с 10:00 до 12:00 по будням. Наша целевая аудитория — студенты и офисные работники 20-35 лет.

## Инструкции по тексту

1. **Стиль и тон (устранение неоднозначности PREFERENCES):**

- Тон: дружелюбный, энергичный, позитивный.
- Стиль: короткие предложения, использование эмодзи (☕, ✨, 🙌).
- НЕ использовать: формальный язык, сленг.
2. **Структура поста (устранение неоднозначности COMMON SENSE):**

- **Заголовок:** Яркий и привлекающий внимание (например, "Твой идеальный дуэт!").
- **Основная часть:** Четко опиши условия акции (какой кофе, в какое время). Сделай акцент на выгоде ("захвати друга" или "возьми второй себе на потом").
- **Призыв к действию (CTA):** Пригласи отметить в комментариях друга, с которым они придут.
3. **Хэштеги (устранение неоднозначности SAFETY/COMMON SENSE):**

- Включи 3-4 брендовых хэштега: #УтреннийБриз #КофеУБ
- Включи 5-7 популярных релевантных хэштегов: #кофевподарок #акциякофейня #утроначинаетсяскофе #кофессобой
- НЕ использовать: высокочастотные несвязанные хэштеги типа #love #instagood.
🧠

5. Почему это работает:

Этот промпт работает, потому что он не оставляет LLM пространства для догадок, применяя принципы из исследования:

  • Устранена неоднозначность предпочтений: Вместо абстрактного "интересный стиль" даны четкие инструкции: дружелюбный, энергичный, короткие предложения, использование эмодзи. Модель точно знает, каким должен быть результат.
  • Устранен "здравый смысл": Вместо "напиши пост" задана четкая структура: заголовок, основная часть, CTA. Это то, как опытный SMM-менеджер сделал бы сам, но это не является "очевидным" для LLM. Мы явно прописываем логику.
  • Устранена неоднозначность безопасности/релевантности: Вместо "подходящие хэштеги" даны конкретные категории и примеры, а также явный запрет (НЕ использовать...). Это предотвращает добавление нерелевантных или спамных тегов, защищая репутацию бренда.

📌

6. Другой пример практического применения

Задача: пользователь планирует поездку и просит LLM помочь с поиском отеля.

Плохой промпт (неоднозначный): Найди мне хороший отель в Риме на три ночи в июле.

Хороший промпт (с устраненной неоднозначностью):

# Роль: Опытный ассистент по планированию путешествий

# Задача: Подобрать 3 варианта отелей в Риме

## Основные критерии поиска

1. **Даты:** заезд 15 июля, выезд 18 июля (3 ночи).
2. **Количество гостей:** 2 взрослых.

## Требования к отелю (устранение неоднозначности)

- **Бюджет (PREFERENCES):** Не дороже 180 евро за ночь за двухместный номер.
- **Расположение (COMMON SENSE/PREFERENCES):** В районе Трастевере или рядом с Пантеоном. Важна пешая доступность (не более 15 минут пешком) до основных достопримечательностей.
- **Рейтинг и отзывы (PREFERENCES):** Рейтинг на Booking.com или Google Maps не ниже 8.5/10. В отзывах должны упоминаться чистота и хороший завтрак.
- **Удобства (SAFETY/COMMON SENSE):** Обязательно наличие кондиционера. Бесплатный Wi-Fi в номере.
- **Стиль (PREFERENCES):** Предпочтительно небольшой бутик-отель, а не крупная сетевая гостиница.

## Формат вывода

Представь результат в виде таблицы с колонками: Название отеля, Район, Цена за 3 ночи, Рейтинг, Ключевое преимущество.

🧠

7. Объяснение механизма почему этот пример работает.

Этот промпт эффективен, так как он переводит расплывчатые человеческие желания на язык четких машинных инструкций, как и предлагает исследование.

  • Механизм устранения неоднозначности PREFERENCES: Понятие "хороший отель" полностью декомпозировано на измеримые критерии: бюджет < 180 евро, рейтинг > 8.5, стиль - бутик-отель. LLM не нужно гадать, что для пользователя означает "хорошо".
  • Механизм устранения неоднозначности COMMON SENSE: Указание на пешую доступность и обязательное наличие кондиционера в июле в Риме — это явное прописывание вещей, которые человек учел бы по здравому смыслу. Для LLM это просто еще один фильтр, который гарантирует релевантность результата.
  • Механизм устранения неоднозначности SAFETY: Требование к отзывам о чистоте и кондиционере можно отнести к "безопасности" комфорта. Это защищает пользователя от выбора отеля, который может испортить отдых.

В итоге, пользователь, вооруженный знанием из статьи AmbiK, не вступает в диалог с LLM, а сразу ставит исчерпывающую техническую задачу, что многократно повышает шансы на получение полезного ответа с первой попытки.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Дает концептуальное понимание проблемы неоднозначности (ambiguity) и классифицирует ее типы (Preferences, Common Sense, Safety). Это напрямую влияет на то, как пользователь должен формулировать запросы, чтобы избежать ошибок.
  • B. Улучшение качества диалоговых ответов: Косвенно. Исследование показывает, почему LLM дают нерелевантные или неверные ответы на неоднозначные запросы, что мотивирует пользователя писать более точные промпты.
  • C. Прямая практическая применимость: Низкая для методов (Conformal Prediction недоступен обычному пользователю), но очень высокая для выводов. Выводы можно немедленно применять, изменив свой стиль написания промптов.
  • D. Концептуальная ценность: Очень высокая. Исследование отлично раскрывает фундаментальное ограничение LLM — их неспособность оперировать здравым смыслом и понимать неявные человеческие предпочтения. Оно дает пользователю "ментальную модель" LLM как очень буквального, но не всегда сообразительного исполнителя.
  • E. Новая полезная практика (кластеризация):
    • Кластер 2 (Поведенческие закономерности LLM): Да. Ключевой вывод — LLM излишне самоуверенны и плохо отличают однозначные инструкции от неоднозначных.
    • Кластер 7 (Надежность и стабильность): Да. Вся работа посвящена выявлению ситуаций, снижающих надежность ответов, и предлагает основу для их решения (запрос уточнений).
  • Чек-лист практичности (+15 баллов): Да, работа раскрывает неочевидные особенности поведения LLM (излишняя самоуверенность) и предлагает способы улучшить точность ответов (через осознанное устранение неоднозначности в промпте).
📌

2 Цифровая оценка полезности

Оценка 82/100 обусловлена огромной концептуальной ценностью исследования для любого пользователя, который хочет перейти от простых запросов к сложным и надежным. Работа не дает готовых фраз, но вооружает пользователя фундаментальным пониманием одного из главных источников ошибок LLM — неоднозначности.

  • Аргументы за высокую оценку:

    1. Фундаментальное знание: Классификация неоднозначности на типы (предпочтения, здравый смысл, безопасность) — это мощный инструмент для анализа собственных промптов. Пользователь начинает думать: "А не полагаюсь ли я здесь на здравый смысл, которого у машины нет?".
    2. Практический вывод об LLM: Ключевой инсайт — современные LLM, включая GPT-4, плохо справляются с неопределенностью и склонны к "самоуверенным" галлюцинациям, вместо того чтобы попросить уточнение. Это учит пользователя не доверять LLM по умолчанию и формулировать запросы "защищенным" от неверной интерпретации способом.
    3. Универсальность: Проблема неоднозначности универсальна для всех моделей и задач, от написания email до планирования путешествий.
  • Контраргументы (почему не 90-100):

    1. Отсутствие готовых техник: Исследование не предлагает готовых конструкций типа "Используй фразу Х, чтобы получить Y". Оно требует от пользователя самостоятельного анализа и переформулирования своих промптов на основе полученных концепций.
    2. Академичность методов: Основные методы, которые тестируются в работе (Conformal Prediction), абсолютно неприменимы для обычного пользователя, так как требуют доступа к внутренним параметрам модели (логитам) или сложной настройки. Это может отпугнуть нетехнического читателя.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с