3,583 papers
arXiv:2403.19346 92 1 мар. 2024 г. FREE

Большие языковые модели испытывают трудности с нерациональностью в математических задачах.

КЛЮЧЕВАЯ СУТЬ
Явное указание в промпте на необходимость критического анализа активирует у LLM скрытую способность оценивать осмысленность самого запроса, а не только слепо его выполнять.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование показывает, что даже лучшие LLM часто не могут распознать нелогичные или нерешаемые условия в задаче и вместо этого либо дают уверенный, но неверный ответ, либо впадают в бесконечный цикл бессмысленных рассуждений ("overthinking"). Авторы доказывают, что простая инструкция в промпте, призывающая модель "мыслить критически", значительно улучшает её способность выявлять такие ошибки в запросе.

Ключевой результат: Явное указание в промпте на необходимость критического анализа активирует у LLM скрытую способность оценивать осмысленность самого запроса, а не только слепо его выполнять.

🔬

2. Объяснение всей сути метода:

Суть метода заключается в переключении режима работы LLM с "исполнителя" на "аналитика-скептика" с помощью специальной инструкции в промпте. Исследование выявило, что по умолчанию LLM стремится во что бы то ни стало дать ответ на поставленный вопрос, даже если его условия абсурдны (например, "из 4 кусков торта съели 5"). Это приводит к двум типам ошибок:

  1. "Уверенная неправота": Модель игнорирует нелогичность и выдает математически или логически неверный результат (например, "-1 кусок торта").
  2. "Overthinking" (Переосмысление/Зацикливание): Модель замечает противоречие, но вместо того, чтобы указать на него, впадает в бесконечный цикл самокоррекции ("Ой, ошибка... давайте пересчитаем... нет, стоп, я ошибся... попробуем снова..."), генерируя тысячи токенов бессмысленного текста.

Предложенный метод — "промптинг с критическим мышлением" — решает эту проблему. Добавляя в запрос фразу вроде "Пожалуйста, реши эту задачу с критикой" или "Проанализируй запрос на предмет логических ошибок, прежде чем дать ответ", мы даем модели явное разрешение и указание сначала проверить исходные данные.

Это активирует её "здравый смысл" и способность к оценке. Модель перестает быть просто послушным инструментом и превращается в ассистента, который может сказать: "В вашем запросе содержится ошибка, поэтому решить его невозможно. Вот в чем проблема...". Это кардинально повышает надежность и полезность взаимодействия.

📌

3. Анализ практической применимости:

*Прямая применимость:Метод можно использовать немедленно. Когда вы даете LLM задачу, основанную на сложных данных, предположениях или цифрах (например, анализ бюджета, планирование проекта, составление маршрута), добавьте в промпт инструкцию проявить критический подход. Например:Проверь этот план на реалистичность и укажи на слабые меставместо простоДоработай этот план.

  • Концептуальная ценность: Главный вывод для пользователя — LLM не обладает критическим мышлением по умолчанию. Она оптимизирована для выполнения инструкций. Чтобы получить критический анализ, об этом нужно попросить прямо. Это помогает понять, почему модель иногда генерирует абсурдные ответы: она не "глупая", а просто "слишком послушная". Понимание феномена "overthinking" также помогает диагностировать, когда модель "зависла" из-за противоречия в промпте.

  • Потенциал для адаптации: Принцип легко адаптируется для любой задачи. Вместо общей фразы "с критикой", можно давать более конкретные указания, основанные на этом же принципе.

    • Бизнес: Проанализируй эту бизнес-идею с точки зрения пессимиста. Какие три главных риска ты видишь?
    • Текст: Вычитай этот текст и найди не только орфографические ошибки, но и логические несостыковки в аргументации.
    • Планирование: Я хочу посетить 5 европейских столиц за 3 дня с бюджетом $200. Составь план и укажи, почему он может быть нереалистичным.

🚀

4. Практически пример применения:

Ты — опытный маркетолог-скептик с 15-летним опытом запуска продуктов. Твоя сильная сторона — видеть риски и нереалистичные ожидания.
**Контекст:**
Я планирую открыть маленькую кофейню "у дома" в спальном районе. Бюджет на маркетинг на первые 3 месяца — 15 000 рублей.

**План:**
1. Запустить таргетированную рекламу в соцсетях, чтобы охватить весь город.
2. Нанять популярного блогера-миллионника для рекламы в день открытия.
3. Ожидаемый результат: 500 постоянных клиентов к концу первого месяца.

**Твоя задача:**
Проанализируй этот план с КРИТИЧЕСКОЙ точки зрения. Не предлагай улучшения, а сначала четко и по пунктам укажи на все слабые места, нереалистичные допущения и логические противоречия между целями и ресурсами. Объясни, почему эти пункты плана, скорее всего, не сработают.

🧠

5. Почему это работает:

Этот промпт эффективен, потому что он напрямую использует выводы исследования, заставляя модель не просто следовать плану, а оценивать его.

  • Роль-инструкция: Ты — опытный маркетолог-скептик. Это задает нужный тон и активирует соответствующие знания модели.
  • Явный призыв к критике: Фраза Проанализируй этот план с КРИТИЧЕСКОЙ точки зрения является прямой реализацией метода из исследования. Она переключает модель из режима "помощника" в режим "аудитора".
  • Фокус на недостатках: Инструкция укажи на все слабые места, нереалистичные допущения не дает модели "соскочить" на предложение альтернатив, а заставляет ее сначала выполнить главную задачу — критический анализ.
  • Создание "неразумного" сценария: В промпте намеренно создано противоречие, как в исследовании: крошечный бюджет (15 000 руб.) противопоставлен гигантским целям (реклама на весь город, блогер-миллионник, 500 клиентов за месяц). Без критической инструкции модель попыталась бы "впихнуть" эти цели в бюджет, что привело бы к абсурдному ответу. С этой инструкцией она укажет на невозможность выполнения плана.

📌

6. Другой пример практического применения

Ты — опытный турагент и логист. Твоя задача — создавать реалистичные и комфортные планы путешествий.
**Контекст:**
Я лечу в отпуск в Италию. У меня есть полных 2 дня (суббота и воскресенье). Я прилетаю в Рим утром в субботу и улетаю из Рима вечером в воскресенье.

**Мои пожелания:**
Я хочу за эти 2 дня:
1. Посетить Колизей и Ватикан в Риме.
2. Съездить на один день во Флоренцию и посмотреть Галерею Уффици.
3. Съездить на полдня в Венецию, чтобы покататься на гондоле.

**Твоя задача:**
Пожалуйста, отнесись к моим пожеланиям с критикой.
Прежде чем составлять какой-либо план, оцени реалистичность этого запроса. Укажи на все логистические и временные проблемы, с которыми я столкнусь. Объясни, почему совместить все эти пункты за 2 дня практически невозможно, и предоставь примерный расчет времени на дорогу между городами.

🧠

7. Объяснение механизма почему этот пример работает.

Этот промпт работает, потому что он ставит модель в позицию эксперта, которому дано право оспаривать запрос клиента.

  • Запрос на оценку реалистичности: Фраза отнесись к моим пожеланиям с критикой и оцени реалистичность этого запроса — это прямая адаптация исследуемого метода. Модель получает сигнал, что ее основная задача не слепое планирование, а проверка исходных данных на адекватность.
  • Предотвращение "галлюцинации": Без этой инструкции модель, скорее всего, попыталась бы составить невыполнимый план (например, "08:00 - Колизей, 10:00 - поезд во Флоренцию, 15:00 - поезд в Венецию"), который выглядит красиво, но абсолютно нереалистичен.
  • Фокус на проблеме: Просьба Объясни, почему совместить... невозможно заставляет модель сфокусироваться на анализе узких мест (время на дорогу, очереди в музеи), что делает ее ответ гораздо более ценным для пользователя, чем поверхностный план. Модель не просто отказывается, а обосновывает свой отказ, что и является целью критического анализа.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование предлагает конкретную фразу-инструкцию ("solve with criticism") для добавления в промпт.
  • B. Улучшение качества диалоговых ответов: Да, метод значительно повышает надежность ответов, заставляя модель не генерировать уверенную ложь на основе некорректных данных, а указывать на ошибки в самом запросе.
  • C. Прямая практическая применимость: Абсолютно. Пользователю достаточно добавить одну фразу в свой промпт без каких-либо технических знаний, кода или специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование вводит и объясняет феномен "overthinking" (зацикленное самокопание), показывает разницу в поведении "общих" и "специализированных" моделей и доказывает, что у LLM есть скрытая способность к критическому анализу, которую нужно активировать явной инструкцией.
  • E. Новая полезная практика (кластеризация):
    • Кластер 1 (Техники формулирования): Явно предлагает новую технику — "промптинг с критическим мышлением".
    • Кластер 2 (Поведенческие закономерности): Детально описывает и измеряет "overthinking" и "лексический коллапс" (повторы, снижение разнообразия слов) как специфические реакции на некорректные промпты.
    • Кластер 7 (Надежность и стабильность): Метод напрямую направлен на снижение генерации ответов, основанных на ложных предпосылках, что повышает общую надежность LLM.
  • Чек-лист практичности (+15 баллов): Да, исследование дает готовую конструкцию для промпта, раскрывает неочевидные особенности поведения LLM (overthinking) и предлагает способ улучшить точность ответов, заставляя модель проверять исходные данные.
📌

2 Цифровая оценка полезности

Оценка 92/100 обусловлена тем, что исследование предоставляет чрезвычайно ценный и легко применимый на практике инструмент, а также глубокое концептуальное понимание поведения LLM. Это не просто академический вывод, а готовая инструкция для пользователя.

Аргументы в пользу оценки:

* Прямое действие: Инструкция please solve the problems with criticism (решай задачи с критикой) — это готовый к использованию паттерн, который любой пользователь может немедленно встроить в свои промпты.
* Объяснение "Почему": Исследование не просто говорит "делайте так", а наглядно показывает, что без этой инструкции даже самые продвинутые модели (GPT-4o) слепо следуют некорректным условиям. Оно объясняет механизм "overthinking", когда модель впадает в бесконечный цикл самоисправлений, не в силах признать исходную задачу нерешаемой.
* Универсальность принципа: Хотя тесты проводились на математических задачах, сам принцип "запроса на критику" универсален и применим к любой сфере: от анализа бизнес-планов до планирования путешествий.

Контраргументы (почему оценка могла быть ниже/выше):

* Почему не 100? Основной фокус исследования — математические задачи. Хотя принцип универсален, его эффективность в других, более субъективных областях (например, креативное письмо), не измерялась. Пользователю придется самостоятельно адаптировать формулировку под свою задачу.
* Почему не 80? Потому что работа дает не просто идею, а конкретный, проверенный и измеренный метод (critical thinking prompt), который легко переносится в повседневное использование и решает реальную проблему "уверенной неправоты" LLM. Это ставит исследование на уровень выше просто "интересных наблюдений".

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с