1. Ключевые аспекты исследования:
Это исследование систематически доказывает, что даже самые продвинутые LLM (включая GPT-4) крайне плохо справляются с базовыми задачами, связанными с числами: простой арифметикой, сравнением, поиском значений в списках и логическими выводами. Точность резко падает, когда в промпт добавляется длинный контекст или нерелевантная информация ("шум"), что имитирует реальные рабочие сценарии.
Ключевой результат: Фундаментальная слабость LLM в работе с числами вызвана тем, что они обрабатывают числа не как математические величины, а как обычные слова (токены), из-за чего их производительность в числовых задачах ненадёжна и деградирует в сложных условиях.
2. Объяснение всей сути метода:
Суть исследования — показать слабости LLM в их "родной стихии" (обработке текста), как только в этом тексте появляются числа и требуется логика. Методология заключается в том, чтобы "атаковать" LLM сериями тестов, которые для человека элементарны, но для машины, мыслящей вероятностями следующего слова, — нет.
Главные выводы для пользователя и методика промптинга, вытекающая из них:
-
Проблема "Токенизации": LLM видит число
12345не как единое целое, а как набор токенов, например,12и345. Это ломает математический смысл числа.- Методика: По возможности, не заставляйте модель работать с длинными числами. Если вам нужно сравнить
12345и12350, модель может легко ошибиться.
- Методика: По возможности, не заставляйте модель работать с длинными числами. Если вам нужно сравнить
-
Проблема "Шума": Точность модели резко падает, если в контекст, помимо нужных данных, добавить нерелевантную информацию. Модель "отвлекается" на ненужные числа и текстовые фрагменты.
- Методика: Перед тем как задать вопрос, максимально очистите контекст. Если вы анализируете отчет о продажах, уберите из текста все лишние абзацы, сноски, даты и цифры, не относящиеся к вашему вопросу. Подавайте только релевантную информацию.
-
Проблема "Длины контекста": Чем длиннее список чисел или документ, тем выше вероятность, что LLM "потеряет" или неверно интерпретирует нужную информацию (эффект "потерянного в середине").
- Методика: Если нужно работать с большим документом, не подавайте его целиком. Сначала попросите модель извлечь только нужный фрагмент (например, "извлеки таблицу с продажами за второй квартал"), а уже в следующем промпте работайте с этим коротким, очищенным фрагментом.
-
Проблема "Логики вычислений": LLM генерирует ответ слева направо (например, при умножении
16 * 56 = 896он сначала предскажет8, потом9, потом6). Это противоречит человеческой логике расчетов (справа налево, с запоминанием переносов).- Методика: Никогда не доверяйте LLM для математических расчетов, даже простых. Используйте его для извлечения данных, а считайте с помощью калькулятора или просите модель написать код для расчета.
Итоговая методика: "Упрощай, изолируй и проверяй". Относитесь к LLM как к гениальному гуманитарию, которого попросили помочь с математикой: дайте ему только самые нужные цифры, сформулируйте задачу предельно просто и всегда перепроверяйте результат.
3. Анализ практической применимости:
*Прямая применимость:Очень высокая. Пользователь может немедленно улучшить свои промпты для анализа любых данных с числами.
* **Как именно:** Перед тем как вставить в чат-бот фрагмент отчета, статьи или лога, пользователь должен вручную удалить из него "шум" — нерелевантные абзацы, цифры, имена. Вместо одного сложного запроса ("проанализируй отчет и скажи, в каком месяце была самая высокая маржинальность с учетом расходов на логистику") нужно разбить его на простые: 1) "Извлеки из отчета данные по доходам и расходам на логистику за каждый месяц в формате таблицы." 2) "На основе этой таблицы для каждого месяца рассчитай маржинальность по формуле (доход-расход)/доход". И даже в этом случае результат второго шага лучше проверить.
-
Концептуальная ценность: Огромная. Исследование формирует ключевое понимание: LLM — это не база знаний и не калькулятор, а симулятор текста. Эта концепция помогает пользователю перестать воспринимать модель как всезнающего оракула и начать использовать ее как мощный, но требующий контроля инструмент для обработки текста.
-
Потенциал для адаптации: Максимальный. Принципы, выявленные на финансовых и погодных данных, универсальны. Их можно и нужно применять в любой сфере:
- Маркетинг: Анализируя эффективность рекламных кампаний, подавайте в промпт только таблицу с нужными метриками (CTR, CPC, конверсии), а не весь экспорт из рекламного кабинета.
- HR: При анализе резюме для поиска кандидата с "опытом работы от 5 лет", не стоит полагаться на то, что модель сама правильно посчитает стаж по датам из нескольких мест работы. Лучше попросить ее извлечь даты, а посчитать самому.
- Личные финансы: Вместо того чтобы вставлять всю выписку с карты и спрашивать "на что я много трачу?", лучше предварительно сгруппировать траты по категориям и уже потом задавать вопросы по конкретной категории.
4. Практически пример применения:
Представим, что пользователь хочет проанализировать свои расходы за неделю, скопировав историю операций из банковского приложения.
# РОЛЬ
Ты — мой личный финансовый ассистент. Твоя задача — помочь мне проанализировать мои расходы.
# КОНТЕКСТ
Вот очищенный список моих расходов за последнюю неделю. Я убрал из него всю лишнюю информацию (баланс, бонусы, время операции) и оставил только категорию, сумму и название магазина.
- Продукты: 540, "Пятерочка"
- Транспорт: 62, "Метро"
- Кофе: 250, "Cofix"
- Обед: 480, "Столовая №1"
- Продукты: 1100, "Перекресток"
- Книги: 850, "Читай-город"
- Транспорт: 62, "Метро"
- Продукты: 350, "ВкусВилл"
- Развлечения: 1200, "Кинотеатр Октябрь"
# ЗАДАЧА
Проанализируй данные из контекста и ответь на следующие вопросы:
1. Найди **единственную самую крупную покупку** в категории "Продукты".
2. Посчитай, сколько **всего** было потрачено на "Транспорт".
# ФОРМАТ ОТВЕТА
Дай ответ строго по пунктам, без лишних рассуждений.
1. Самая крупная покупка в категории "Продукты": [сумма], "[название магазина]"
2. Всего потрачено на "Транспорт": [сумма]
5. Почему это работает:
Этот промпт напрямую использует выводы исследования для повышения точности ответа:
- Устранен "шум" (Noisy Context): В секции
#КОНТЕКСТпользователь явно указывает, что данные очищены. Вместо messy-текста из SMS или выписки, подается структурированный список. Это снижает вероятность того, что модель "запутается" в нерелевантных цифрах. - Сокращен контекст (Context Length): Предоставлен только минимально необходимый срез данных за неделю, а не вся выписка за месяц. Это облегчает модели поиск и обработку.
- Задача разделена на простые операции: Вместо общего вопроса "проанализируй мои траты", промпт ставит две конкретные, изолированные задачи: найти максимум в подмножестве и посчитать сумму в другом подмножестве. Это снижает когнитивную нагрузку на модель и вероятность ошибки в многошаговых рассуждениях.
- Четкая структура и формат: Использование Markdown-заголовков (
# РОЛЬ,# КОНТЕКСТ,# ЗАДАЧА) и явное указание формата ответа помогает модели лучше понять структуру запроса и выдать предсказуемый, точный результат.
6. Другой пример практического применения
Пользователь — SMM-менеджер, который хочет быстро проанализировать вовлеченность постов за неделю.
# РОЛЬ
Ты — ассистент SMM-аналитика. Твоя задача — анализировать сырые данные по эффективности постов и находить ключевые показатели.
# КОНТЕКСТ
Ниже приведены данные по 5 последним постам. Данные представлены в формате: "Тема поста / Лайки / Комментарии / Репосты". Я убрал всю лишнюю информацию.
- Новый продукт / 256 / 34 / 15
- Закулисье компании / 480 / 89 / 41
- Отзыв клиента / 310 / 55 / 22
- Опрос для подписчиков / 198 / 150 / 8
- Полезная инструкция / 512 / 110 / 65
# ЗАДАЧА
Твоя задача — внимательно изучить данные из контекста и выполнить два действия:
1. **Найти пост с наибольшим количеством лайков.**
2. **Найти пост с наибольшим количеством комментариев.**
Обрати внимание, это могут быть разные посты.
# ФОРМАТ ОТВЕТА
Предоставь ответ в виде списка, где каждый пункт отвечает на один вопрос.
- Пост с макс. лайками: "[Тема поста]", [количество лайков]
- Пост с макс. комментариями: "[Тема поста]", [количество комментариев]
7. Объяснение механизма почему этот пример работает.
Этот промпт эффективен, потому что он следует принципам, вскрытым в исследовании:
- Изоляция числовых данных: Пользователь не просто копирует отчет из соцсети, а предоставляет "очищенные" строки, где числовые показатели четко отделены от текста и друг от друга. Это помогает модели не путать числа между собой.
- Предельное упрощение задачи: Запрос не просит рассчитать сложный
Engagement Rateпо формуле, что потребовало бы от LLM нескольких математических операций и увеличило бы риск ошибки. Вместо этого он просит выполнить простейшую операцию — сравнение и поиск максимума — по каждому показателю отдельно. - Явная инструкция для избегания путаницы: Фраза "Обрати внимание, это могут быть разные посты" является дополнительным предохранителем. Она заставляет модель обработать каждый запрос (поиск макс. лайков и макс. комментариев) как независимую задачу, что снижает вероятность "смешивания" результатов и выбора одного "в среднем" лучшего поста.
- Структурирование контекста: Формат "Тема / Число / Число / Число" повторяется для каждой строки. Такая предсказуемая структура помогает LLM правильно сопоставить числа с их значением (лайки, комментарии, репосты) и уменьшает ошибки при извлечении.
Основные критерии оценки
- A. Релевантность техникам промптинга: Высокая. Исследование не дает готовых фраз, но раскрывает фундаментальные принципы, как нужно (и как не нужно) подавать числовые данные в промпте.
- B. Улучшение качества диалоговых ответов: Очень высокое. Понимание вскрытых проблем напрямую позволяет пользователю формулировать запросы так, чтобы получать более точные числовые и логические ответы.
- C. Прямая практическая применимость: Высокая. Выводы можно применять немедленно, без кода и спец. инструментов. Пользователь может вручную очистить контекст от "шума", упростить числовую задачу или разбить ее на шаги.
- D. Концептуальная ценность: Исключительно высокая. Работа блестяще объясняет, почему LLM ошибаются в числах, формируя у пользователя правильную "ментальную модель" LLM — не как калькулятора, а как текстового процессора, для которого числа — это просто строки символов.
- E. Новая полезная практика (кластеризация):
- Кластер 2 (Поведенческие закономерности LLM): Основной фокус работы. Демонстрирует, как LLM ведут себя с числами, длинным и "шумным" контекстом.
- Кластер 6 (Контекст и память): Наглядно показывает деградацию качества ответов при увеличении длины контекста и добавлении нерелевантной информации.
- Кластер 7 (Надежность и стабильность): Раскрывает причины низкой надежности LLM в числовых задачах и, как следствие, подсказывает пути ее повышения через упрощение промптов.
- Чек-лист практичности (+15 баллов): Да. Работа объясняет, как структурировать сложные запросы (упрощать и очищать), раскрывает неочевидные особенности поведения LLM (проблемы с токенизацией, логикой вычислений) и предлагает способы улучшить точность (через подготовку данных в промпте).
2 Цифровая оценка полезности
Аргументы в пользу оценки 85: Эта работа — одна из самых полезных для формирования у пользователя правильных ожиданий и навыков при работе с числовыми данными. Она не дает волшебной фразы, но вооружает концептуальным пониманием, которое гораздо ценнее. Пользователь, прочитавший это исследование, перестанет слепо доверять расчетам LLM и научится формулировать промпты так, чтобы минимизировать ошибки: очищать данные от "шума", упрощать вопросы и проверять результаты. Ценность в том, что она объясняет "ПОЧЕМУ" LLM ошибаются, а не просто констатирует "ЧТО" они ошибаются.
Контраргументы:
