3,583 papers
arXiv:2503.05516 93 1 мар. 2025 г. FREE

Обнаружение когнитивных искажений с использованием продвинутой инженерии подсказок

КЛЮЧЕВАЯ СУТЬ
Продуманная структура промпта оказалась важнее, чем размер и мощность самой языковой модели, увеличив точность распознавания искажений с 50-60% до почти 100%.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследователи проверяли, можно ли с помощью специальных, детально структурированных промптов научить LLM точнее находить логические ошибки и когнитивные искажения (такие как "подмена тезиса" или "ложная причина") в обычном тексте. Они сравнили точность модели, которой давали такой структурированный промпт, с моделями (включая более крупную), которым давали простое общее задание.

Ключевой результат: Продуманная структура промпта оказалась важнее, чем размер и мощность самой языковой модели, увеличив точность распознавания искажений с 50-60% до почти 100%.

🔬

2. Объяснение всей сути метода:

Суть метода заключается в переходе от простого "вопроса" к LLM к формулированию полноценного "технического задания" (ТЗ) внутри одного промпта. Вместо того чтобы просить модель "проанализируй текст на наличие ошибок", пользователь должен сначала дать ей четкие и явные инструкции, которые действуют как фильтр или набор правил для анализа.

Практически это выглядит так: промпт делится на две части: 1. Блок Директив (Инструкций): Здесь вы подробно описываете, что именно нужно найти, по каким критериям это оценивать, и в каком виде предоставить результат. Для задачи из исследования это были определения каждого когнитивного искажения, на которые модель должна была "охотиться" в тексте. 2. Блок Данных: Здесь вы подаете сам текст, который нужно проанализировать.

Этот подход заставляет LLM не гадать, что вы имели в виду, а следовать четкому алгоритму. Модель сначала "усваивает" правила игры из блока директив, а затем применяет их к блоку данных. Исследование доказывает, что такой структурированный подход позволяет даже менее крупной модели (Mixtral 8x7B) работать значительно точнее, чем более крупной и мощной модели (Llama 3 70B), которой дали простой, неструктурированный запрос.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь может немедленно начать применять этот метод. Для любой сложной задачи нужно просто перед основным запросом или текстом добавить блок с четкими инструкциями, правилами, критериями и желаемым форматом ответа. Например: "Сначала изучи эти правила [правила], а затем примени их к этому тексту [текст]".

  • Концептуальная ценность: Главная идея для пользователя — LLM не читает ваши мысли, но отлично следует инструкциям. Это исследование наглядно доказывает, что время, потраченное на создание хорошего "ТЗ" в промпте, окупается многократно в виде качества результата. Оно смещает фокус пользователя с "какой моделью пользоваться" на "как правильно ставить задачу".

  • Потенциал для адаптации: Метод универсален. Вместо поиска когнитивных искажений, вы можете дать модели директивы для:

    • Анализа отзывов: Определить критерии "позитива", "негатива", "конструктивного предложения".
    • Создания контент-плана: Задать рубрики, форматы, целевую аудиторию и KPI.
    • Суммаризации новостей: Указать, какие аспекты нужно извлечь (ключевые лица, цифры, последствия, первоисточник).

Механизм адаптации прост: определите компоненты вашей сложной задачи и опишите их в виде четких правил и определений в начале промпта.


🚀

4. Практически пример применения:

Ты — опытный SMM-специалист. Твоя задача — проанализировать отзывы клиентов о новом мобильном приложении и подготовить краткую сводку для команды разработки.
<ИНСТРУКЦИИ>
1. **Цель анализа:** Выявить сильные и слабые стороны приложения, а также найти идеи для улучшения на основе реальных отзывов.
2. **Категории для анализа:** Внимательно прочитай каждый отзыв и классифицируй его ключевые мысли по следующим категориям:
- **Позитив:** Что пользователям нравится? (удобство, дизайн, скорость, конкретные функции).
- **Негатив:** С какими проблемами сталкиваются? (баги, зависания, непонятный интерфейс, отсутствие функций).
- **Предложения:** Какие конкретные идеи по улучшению или добавлению новых функций предлагают пользователи?
3. **Формат вывода:** Представь результат в виде маркированного списка. Для каждой категории приведи 2-3 самых ярких и часто встречающихся цитаты из отзывов. Не делай общих выводов, только структурированные данные из текста.
ИНСТРУКЦИИ

<ОТЗЫВЫ_ДЛЯ_АНАЛИЗА>
"В целом, приложение неплохое, дизайн современный. Но почему оно постоянно вылетает на моем Android? Уже три раза за день. И еще, было бы круто, если бы можно было добавлять виджет на главный экран.
...
Обожаю новую функцию для сканирования документов! Работает как часы, очень быстро. Но вот найти, где хранятся старые сканы, — это целый квест. Запрятано куда-то вглубь настроек.
...
Приложение очень красивое, но тормозит ужасно. Каждое нажатие — секунда ожидания. Пользоваться невозможно. Удаляю.
...
Спасибо за темную тему! Глаза отдыхают. Хотелось бы еще иметь возможность менять размер шрифта, а то для меня мелковато."
ОТЗЫВЫ_ДЛЯ_АНАЛИЗА

🧠

5. Почему это работает:

Этот промпт работает, потому что он в точности реализует методологию из исследования, но для другой задачи:

  1. Структурированный шаблон: Промпт четко разделен на роль, инструкции (<ИНСТРУКЦИИ>) и данные (<ОТЗЫВЫ_ДЛЯ_АНАЛИЗА>). Модель точно знает, где правила, а где материал для работы.
  2. Явные директивы: Вместо "проанализируй отзывы", мы даем модели четкую "логическую структуру" для анализа. Категории "Позитив", "Негатив", "Предложения" — это аналоги "когнитивных искажений" из исследования. Мы даем определения того, что нужно искать.
  3. Ограничение "пространства вывода": Требование формата ("маркированный список", "2-3 цитаты") снижает вероятность того, что модель начнет "галлюцинировать", писать общие рассуждения или проигнорирует часть запроса. Она вынуждена следовать заданному шаблону, что повышает точность и релевантность ответа.

📌

6. Другой пример практического применения

Ты — персональный ассистент по здоровому питанию. Твоя задача — составить план питания на 3 дня для занятого офисного работника.
<ИНСТРУКЦИИ_И_КРИТЕРИИ>
1. **Главная цель:** Сбалансированное питание без сложных рецептов.
2. **Ключевые ограничения:**
- **Время приготовления:** Не более 20 минут на один прием пищи.
- **Доступность продуктов:** Использовать только простые продукты, которые можно купить в любом супермаркете (курица, гречка, овощи, творог, яйца, и т.д.). Никаких экзотических ингредиентов.
- **Калорийность:** Примерно 1800-2000 ккал в день.
3. **Структура плана:**
- План должен быть разбит по дням: "День 1", "День 2", "День 3".
- Каждый день должен включать: "Завтрак", "Обед", "Ужин" и "Один перекус".
- Для каждого блюда кратко укажи основные ингредиенты и 1-2 шага приготовления.
4. **Дополнительное требование:** После плана питания добавь короткий список покупок на 3 дня.
ИНСТРУКЦИИ_И_КРИТЕРИИ

<ИСХОДНЫЕ_ДАННЫЕ_ПОЛЬЗОВАТЕЛЯ>
Цель: немного похудеть, больше энергии.
Предпочтения: люблю курицу и рыбу, не люблю каши на молоке.
Аллергии: нет.
ИСХОДНЫЕ_ДАННЫЕ_ПОЛЬЗОВАТЕЛЯ

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример работает по тому же доказанному в исследовании принципу — управление поведением LLM через строгие директивы.

  1. Создание "логической последовательности": Вместо абстрактной просьбы "сделай план питания", промпт задает четкую структуру и набор правил, которым модель должна следовать. Критерии (время готовки, продукты, калории) — это "логическая рамка", аналогичная определениям когнитивных искажений в статье. Модель не придумывает план из головы, а конструирует его, постоянно сверяясь с заданными правилами.
  2. Повышение релевантности: Явные директивы заставляют модель сфокусироваться на самых важных для пользователя аспектах (быстро, просто, доступно). Это устраняет риск получения рецептов высокой кухни или планов, требующих нескольких часов у плиты, то есть повышает точность ответа относительно реальных нужд пользователя.
  3. Предсказуемый результат: Заданная структура вывода ("День 1", "Завтрак", "Обед" и т.д.) гарантирует, что ответ будет полным, хорошо организованным и легким для восприятия. Это прямое следствие "смещения вероятностного распределения" в сторону желаемого формата, о котором говорится в исследовании.

📌

Основные критерии оценки

  • A. Релевантность техникам промптинга: Да, исследование напрямую посвящено созданию структурированных промптов и доказывает их эффективность.
  • B. Улучшение качества ответов: Да, продемонстрирован колоссальный прирост точности (с ~50% до ~99%) в задаче детекции когнитивных искажений.
  • C. Прямая практическая применимость: Абсолютно. Основной вывод может быть применен любым пользователем в любом чат-интерфейсе без использования кода.
  • D. Концептуальная ценность: Очень высокая. Исследование предоставляет фундаментальное понимание: структура промпта может быть важнее размера и мощности модели. Это ключевой инсайт для любого пользователя.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • #1 (Техники формулирования): Явно предлагает метод структурированных директив.
    • #3 (Оптимизация структуры): Демонстрирует важность разделения инструкций и анализируемого текста.
    • #7 (Надежность и стабильность): Основная цель — повысить точность и снизить ошибки классификации.
  • Чек-лист практичности (+15 баллов):
    • Дает готовые конструкции для промптов? Да, принцип "директивы + входные данные".
    • Показывает, как структурировать сложные запросы? Да, это суть исследования.
    • Раскрывает неочевидные особенности поведения LLM? Да, что грамотный промпт для Mixtral 8x7B эффективнее простого промпта для Llama 3 70B.
    • Предлагает способы улучшить consistency/точность ответов? Да, это главный результат.
    • Итог: Бонус в +15 баллов полностью оправдан.
📌

2 Цифровая оценка полезности

Аргументы в пользу высокой оценки (93/100): Основной вывод исследования — «хорошо продуманная структура промпта важнее, чем размер и мощность самой языковой модели» — является одним из самых ценных и практически применимых инсайтов для обычного пользователя. Он напрямую показывает, как получить более качественные результаты от бесплатных или менее мощных моделей, просто изменив подход к написанию запроса. Исследование доказывает, что переход от простого вопроса к структурированному "техническому заданию" кардинально меняет качество ответа. Это фундаментальный принцип, который применим к 99% задач.

Контраргументы (почему оценка не 100):

* Исследование сфокусировано на узкой задаче анализа — поиске когнитивных искажений. Пользователю нужно самостоятельно адаптировать этот принцип для своих творческих, генеративных или других задач.
* В статье не приводится точный текст "идеального промпта" с директивами, который можно было бы скопировать. Вместо этого дается описание методологии, которое требует от пользователя осмысления и самостоятельного конструирования промпта.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с