Выявление пробелов в математической грамотности Бенчмарк для оценки фундаментальных числовых способностей в больших языковых моделях

📌

1. Ключевые аспекты исследования:

Это исследование систематически доказывает, что даже самые продвинутые LLM (включая GPT-4) крайне плохо справляются с базовыми задачами, связанными с числами: простой арифметикой, сравнением, поиском значений в списках и логическими выводами. Точность резко падает, когда в промпт добавляется длинный контекст или нерелевантная информация ("шум"), что имитирует реальные рабочие сценарии.

Ключевой результат: Фундаментальная слабость LLM в работе с числами вызвана тем, что они обрабатывают числа не как математические величины, а как обычные слова (токены), из-за чего их производительность в числовых задачах ненадёжна и деградирует в сложных условиях.

🔬

2. Объяснение всей сути метода:

Суть исследования — показать слабости LLM в их "родной стихии" (обработке текста), как только в этом тексте появляются числа и требуется логика. Методология заключается в том, чтобы "атаковать" LLM сериями тестов, которые для человека элементарны, но для машины, мыслящей вероятностями следующего слова, — нет.

Главные выводы для пользователя и методика промптинга, вытекающая из них:

Проблема "Токенизации": LLM видит число 12345 не как единое целое, а как набор токенов, например, 12 и 345. Это ломает математический смысл числа.
- Методика: По возможности, не заставляйте модель работать с длинными числами. Если вам нужно сравнить 12345 и 12350, модель может легко ошибиться.
Проблема "Шума": Точность модели резко падает, если в контекст, помимо нужных данных, добавить нерелевантную информацию. Модель "отвлекается" на ненужные числа и текстовые фрагменты.
- Методика: Перед тем как задать вопрос, максимально очистите контекст. Если вы анализируете отчет о продажах, уберите из текста все лишние абзацы, сноски, даты и цифры, не относящиеся к вашему вопросу. Подавайте только релевантную информацию.
Проблема "Длины контекста": Чем длиннее список чисел или документ, тем выше вероятность, что LLM "потеряет" или неверно интерпретирует нужную информацию (эффект "потерянного в середине").
- Методика: Если нужно работать с большим документом, не подавайте его целиком. Сначала попросите модель извлечь только нужный фрагмент (например, "извлеки таблицу с продажами за второй квартал"), а уже в следующем промпте работайте с этим коротким, очищенным фрагментом.
Проблема "Логики вычислений": LLM генерирует ответ слева направо (например, при умножении 16 * 56 = 896 он сначала предскажет 8, потом 9, потом 6). Это противоречит человеческой логике расчетов (справа налево, с запоминанием переносов).
- Методика: Никогда не доверяйте LLM для математических расчетов, даже простых. Используйте его для извлечения данных, а считайте с помощью калькулятора или просите модель написать код для расчета.

Итоговая методика: "Упрощай, изолируй и проверяй". Относитесь к LLM как к гениальному гуманитарию, которого попросили помочь с математикой: дайте ему только самые нужные цифры, сформулируйте задачу предельно просто и всегда перепроверяйте результат.

📌

3. Анализ практической применимости:

*Прямая применимость:Очень высокая. Пользователь может немедленно улучшить свои промпты для анализа любых данных с числами.

* **Как именно:** Перед тем как вставить в чат-бот фрагмент отчета, статьи или лога, пользователь должен вручную удалить из него "шум" — нерелевантные абзацы, цифры, имена. Вместо одного сложного запроса ("проанализируй отчет и скажи, в каком месяце была самая высокая маржинальность с учетом расходов на логистику") нужно разбить его на простые: 1) "Извлеки из отчета данные по доходам и расходам на логистику за каждый месяц в формате таблицы." 2) "На основе этой таблицы для каждого месяца рассчитай маржинальность по формуле (доход-расход)/доход". И даже в этом случае результат второго шага лучше проверить.

Концептуальная ценность: Огромная. Исследование формирует ключевое понимание: LLM — это не база знаний и не калькулятор, а симулятор текста. Эта концепция помогает пользователю перестать воспринимать модель как всезнающего оракула и начать использовать ее как мощный, но требующий контроля инструмент для обработки текста.
Потенциал для адаптации: Максимальный. Принципы, выявленные на финансовых и погодных данных, универсальны. Их можно и нужно применять в любой сфере:
- Маркетинг: Анализируя эффективность рекламных кампаний, подавайте в промпт только таблицу с нужными метриками (CTR, CPC, конверсии), а не весь экспорт из рекламного кабинета.
- HR: При анализе резюме для поиска кандидата с "опытом работы от 5 лет", не стоит полагаться на то, что модель сама правильно посчитает стаж по датам из нескольких мест работы. Лучше попросить ее извлечь даты, а посчитать самому.
- Личные финансы: Вместо того чтобы вставлять всю выписку с карты и спрашивать "на что я много трачу?", лучше предварительно сгруппировать траты по категориям и уже потом задавать вопросы по конкретной категории.

🚀

4. Практически пример применения:

Представим, что пользователь хочет проанализировать свои расходы за неделю, скопировав историю операций из банковского приложения.

# РОЛЬ

Ты — мой личный финансовый ассистент. Твоя задача — помочь мне проанализировать мои расходы.

# КОНТЕКСТ

Вот очищенный список моих расходов за последнюю неделю. Я убрал из него всю лишнюю информацию (баланс, бонусы, время операции) и оставил только категорию, сумму и название магазина.

- Продукты: 540, "Пятерочка"
- Транспорт: 62, "Метро"
- Кофе: 250, "Cofix"
- Обед: 480, "Столовая №1"
- Продукты: 1100, "Перекресток"
- Книги: 850, "Читай-город"
- Транспорт: 62, "Метро"
- Продукты: 350, "ВкусВилл"
- Развлечения: 1200, "Кинотеатр Октябрь"

# ЗАДАЧА

Проанализируй данные из контекста и ответь на следующие вопросы:
1. Найди **единственную самую крупную покупку** в категории "Продукты".
2. Посчитай, сколько **всего** было потрачено на "Транспорт".

# ФОРМАТ ОТВЕТА

Дай ответ строго по пунктам, без лишних рассуждений.
1. Самая крупная покупка в категории "Продукты": [сумма], "[название магазина]"
2. Всего потрачено на "Транспорт": [сумма]

🧠

5. Почему это работает:

Этот промпт напрямую использует выводы исследования для повышения точности ответа:

Устранен "шум" (Noisy Context): В секции #КОНТЕКСТ пользователь явно указывает, что данные очищены. Вместо messy-текста из SMS или выписки, подается структурированный список. Это снижает вероятность того, что модель "запутается" в нерелевантных цифрах.
Сокращен контекст (Context Length): Предоставлен только минимально необходимый срез данных за неделю, а не вся выписка за месяц. Это облегчает модели поиск и обработку.
Задача разделена на простые операции: Вместо общего вопроса "проанализируй мои траты", промпт ставит две конкретные, изолированные задачи: найти максимум в подмножестве и посчитать сумму в другом подмножестве. Это снижает когнитивную нагрузку на модель и вероятность ошибки в многошаговых рассуждениях.
Четкая структура и формат: Использование Markdown-заголовков (# РОЛЬ, # КОНТЕКСТ, # ЗАДАЧА) и явное указание формата ответа помогает модели лучше понять структуру запроса и выдать предсказуемый, точный результат.

📌

6. Другой пример практического применения

Пользователь — SMM-менеджер, который хочет быстро проанализировать вовлеченность постов за неделю.

# РОЛЬ

Ты — ассистент SMM-аналитика. Твоя задача — анализировать сырые данные по эффективности постов и находить ключевые показатели.

# КОНТЕКСТ

Ниже приведены данные по 5 последним постам. Данные представлены в формате: "Тема поста / Лайки / Комментарии / Репосты". Я убрал всю лишнюю информацию.

- Новый продукт / 256 / 34 / 15
- Закулисье компании / 480 / 89 / 41
- Отзыв клиента / 310 / 55 / 22
- Опрос для подписчиков / 198 / 150 / 8
- Полезная инструкция / 512 / 110 / 65

# ЗАДАЧА

Твоя задача — внимательно изучить данные из контекста и выполнить два действия:
1. **Найти пост с наибольшим количеством лайков.**
2. **Найти пост с наибольшим количеством комментариев.**

Обрати внимание, это могут быть разные посты.

# ФОРМАТ ОТВЕТА

Предоставь ответ в виде списка, где каждый пункт отвечает на один вопрос.
- Пост с макс. лайками: "[Тема поста]", [количество лайков]
- Пост с макс. комментариями: "[Тема поста]", [количество комментариев]

🧠

7. Объяснение механизма почему этот пример работает.

Этот промпт эффективен, потому что он следует принципам, вскрытым в исследовании:

Изоляция числовых данных: Пользователь не просто копирует отчет из соцсети, а предоставляет "очищенные" строки, где числовые показатели четко отделены от текста и друг от друга. Это помогает модели не путать числа между собой.
Предельное упрощение задачи: Запрос не просит рассчитать сложный Engagement Rate по формуле, что потребовало бы от LLM нескольких математических операций и увеличило бы риск ошибки. Вместо этого он просит выполнить простейшую операцию — сравнение и поиск максимума — по каждому показателю отдельно.
Явная инструкция для избегания путаницы: Фраза "Обрати внимание, это могут быть разные посты" является дополнительным предохранителем. Она заставляет модель обработать каждый запрос (поиск макс. лайков и макс. комментариев) как независимую задачу, что снижает вероятность "смешивания" результатов и выбора одного "в среднем" лучшего поста.
Структурирование контекста: Формат "Тема / Число / Число / Число" повторяется для каждой строки. Такая предсказуемая структура помогает LLM правильно сопоставить числа с их значением (лайки, комментарии, репосты) и уменьшает ошибки при извлечении.

📌

Основные критерии оценки

A. Релевантность техникам промптинга: Высокая. Исследование не дает готовых фраз, но раскрывает фундаментальные принципы, как нужно (и как не нужно) подавать числовые данные в промпте.
B. Улучшение качества диалоговых ответов: Очень высокое. Понимание вскрытых проблем напрямую позволяет пользователю формулировать запросы так, чтобы получать более точные числовые и логические ответы.
C. Прямая практическая применимость: Высокая. Выводы можно применять немедленно, без кода и спец. инструментов. Пользователь может вручную очистить контекст от "шума", упростить числовую задачу или разбить ее на шаги.
D. Концептуальная ценность: Исключительно высокая. Работа блестяще объясняет, почему LLM ошибаются в числах, формируя у пользователя правильную "ментальную модель" LLM — не как калькулятора, а как текстового процессора, для которого числа — это просто строки символов.
E. Новая полезная практика (кластеризация):
- Кластер 2 (Поведенческие закономерности LLM): Основной фокус работы. Демонстрирует, как LLM ведут себя с числами, длинным и "шумным" контекстом.
- Кластер 6 (Контекст и память): Наглядно показывает деградацию качества ответов при увеличении длины контекста и добавлении нерелевантной информации.
- Кластер 7 (Надежность и стабильность): Раскрывает причины низкой надежности LLM в числовых задачах и, как следствие, подсказывает пути ее повышения через упрощение промптов.
Чек-лист практичности (+15 баллов): Да. Работа объясняет, как структурировать сложные запросы (упрощать и очищать), раскрывает неочевидные особенности поведения LLM (проблемы с токенизацией, логикой вычислений) и предлагает способы улучшить точность (через подготовку данных в промпте).

📌

2 Цифровая оценка полезности

Аргументы в пользу оценки 85: Эта работа — одна из самых полезных для формирования у пользователя правильных ожиданий и навыков при работе с числовыми данными. Она не дает волшебной фразы, но вооружает концептуальным пониманием, которое гораздо ценнее. Пользователь, прочитавший это исследование, перестанет слепо доверять расчетам LLM и научится формулировать промпты так, чтобы минимизировать ошибки: очищать данные от "шума", упрощать вопросы и проверять результаты. Ценность в том, что она объясняет "ПОЧЕМУ" LLM ошибаются, а не просто констатирует "ЧТО" они ошибаются.

Контраргументы:

* Почему оценка могла быть выше (90+)? Понимание фундаментальных ограничений LLM, таких как проблемы с токенизацией чисел и логикой вычислений, является краеугольным камнем продвинутого промпт-инжиниринга. Эти знания универсальны и не устареют с выходом новой модели, в отличие от конкретных промпт-формул. Это почти обязательное чтение для любого, кто серьезно работает с LLM.

* Почему оценка могла быть ниже (около 70)? Исследование фокусируется на диагностике проблемы, а не на предложении готовых, легко копируемых решений в виде шаблонов промптов. Пользователю нужно самому осмыслить выводы и адаптировать свой подход, что требует некоторых усилий. Основной вывод — "LLM плохо считают, особенно в сложных условиях" — может показаться очевидным, хотя работа и подводит под это солидную базу.

Меню