3,583 papers
arXiv:2504.00042 85 1 апр. 2025 г. FREE

За пределами установленного предела: где большие языковые модели уступают в финансовых знаниях.

КЛЮЧЕВАЯ СУТЬ
LLM демонстрируют РЕТРОГРАДНЫЙ БИАС (хуже знают прошлое) и РАЗМЕРНЫЙ БИАС (лучше знают популярные объекты). Парадоксально галлюцинируют чаще именно в областях, где у них больше знаний. Понимание этих паттернов позволяет структурировать промпты так, чтобы компенсировать предсказуемые слабости модели.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование анализирует более 197 тысяч вопросов к LLM о финансовых данных американских компаний за 43 года, выявляя систематические пробелы в знаниях моделей. Обнаружено два ключевых биаса: ретроградный (модели хуже отвечают на вопросы о прошлом) и размерный (лучше знают крупные популярные компании). Парадоксально, модели чаще галлюцинируют именно по тем темам, о которых у них больше знаний.

Ключевой результат: LLM демонстрируют системный паттерн деградации знаний о прошлом и биас в сторону более "популярных" объектов запроса.

🔬

2. Объяснение всей сути метода:

Исследователи создали масштабный датасет вопросов-ответов о выручке компаний и протестировали несколько LLM (GPT-4, Llama, Gemini) простыми запросами вида"Какова была выручка [компания] в [год]?".

Ключевые открытия:

  • Ретроградный биас: Модели значительно хуже отвечают на вопросы о данных из прошлого. Например, Llama-3-70B точно отвечает на 54% вопросов о 2017 годе, но только на 6% вопросов о 1995 годе.

  • Биас популярности: Модели демонстрируют лучшую точность для крупных компаний с высокой капитализацией. Увеличение капитализации в 10 раз повышает вероятность правильного ответа в 1.009 раза.

  • Парадокс галлюцинаций: Модели чаще галлюцинируют именно по тем компаниям и периодам, о которых у них больше знаний.

Методика выявления паттернов: 1. Классификация ответов: правильный (ошибка <10%), галлюцинация (ошибка >10%), отсутствие ответа 2. Временной анализ: измерение точности по годам 3. Кросс-секционный анализ: корреляция точности с характеристиками компаний 4. Логистическая регрессия для выявления статистически значимых закономерностей

📌

3. Анализ практической применимости:

Прямая применимость:

Пользователи могут немедленно применить выводы при структурировании запросов о фактической информации. Понимание временного и размерного биаса позволяет корректировать ожидания и стратегию промптинга.

Концептуальная ценность: Исследование раскрывает фундаментальные принципы работы памяти LLM: - Эффект новизны: модели лучше "помнят" более свежую информацию из обучающих данных - Эффект популярности: часто упоминаемые объекты представлены лучше в знаниях модели - Парадокс уверенности: модели более склонны к галлюцинациям в областях, где у них больше знаний

Потенциал адаптации: Выявленные паттерны универсальны и применимы к любым фактическим запросам (исторические события, научные факты, статистика). Механизм адаптации: при формулировании запросов о фактах учитывать временную дистанцию и "популярность" объекта, соответственно корректируя промпт для компенсации предсказуемых слабостей модели.


🚀

4. Практически пример применения:

Запрос о малоизвестной исторической информации
Мне нужна информация о количестве студентов в Московском университете в 1950-х годах.
Контекст для более точного ответа:
- Я понимаю, что данные о менее известных исторических фактах могут быть неточными
- Если точная информация недоступна, укажите это прямо
- Предоставьте диапазон значений или приблизительные данные, если точные цифры неизвестны
- Укажите источники или периоды, для которых данные более надежны
Дополнительно:
- Сравните с данными о более крупных/известных университетах того же периода
- Укажите, насколько эти данные могут отличаться от современной статистики
Если информация ограничена, сфокусируйтесь на общих тенденциях высшего образования в СССР 1950-х годов.

🧠

5. Почему это работает:

Этот промпт компенсирует выявленные в исследовании биасы через несколько механизмов:

Компенсация ретроградного биаса: - Прямое указание на понимание ограниченности исторических данных - Запрос диапазонов вместо точных цифр снижает вероятность галлюцинаций - Просьба указать периоды с более надежными данными

Компенсация биаса популярности: - Запрос сравнения с более известными университетами использует преимущества модели - Переключение фокуса на общие тенденции, если конкретных данных нет

Снижение риска галлюцинаций: - Явная просьба указать на неточность данных - Структурирование ответа с указанием уровня уверенности


📌

6. Другой пример практического применения

Анализ эффективности стартапа
Проанализируй успешность компании [название небольшого стартапа] за последние 3 года.
Учет ограничений доступной информации:
- Начни с анализа публично доступной информации о компании
- Если данных о конкретной компании недостаточно, сначала укажи это
- Сравни доступную информацию с общими трендами в отрасли [отрасль]
- Сфокусируйся на наиболее документированных аспектах: публичные объявления, пресс-релизы, участие в конференциях
Структура анализа:
1. Уровень доступной информации (высокий/средний/низкий)
2. Конкретные факты с указанием источников
3. Контекст отрасли для восполнения пробелов
4. Ограничения анализа и рекомендации по дополнительному исследованию
Если информации мало:
переключись на анализ сегмента рынка и типичных показателей для похожих компаний.

🧠

7. Объяснение механизма почему этот пример работает.

Данный промпт эффективно использует понимание биасов LLM для получения более надежной информации:

Работа с биасом популярности: - Прямое признание того, что о малых компаниях данных может быть мало - Использование стратегии "отката" к более общей информации об отрасли - Сравнительный анализ помогает использовать знания модели о более крупных игроках

Управление галлюцинациями: - Требование указывать уровень доступной информации создает "проверку реальности" - Структурированный подход с указанием источников снижает вероятность выдумывания фактов - Явное разделение фактов и контекстного анализа

Максимизация полезности ответа: - Даже при недостатке конкретных данных промпт направляет на получение ценной отраслевой информации - Рекомендации по дополнительному исследованию помогают пользователю продолжить работу

📌

Основные критерии оценки

Релевантность: Исследование напрямую касается качества ответов LLM, хотя фокусируется на финансовой области.

Улучшение диалоговых ответов: Выявляет системные паттерны того, как LLM работают с фактической информацией в зависимости от временных рамок и характеристик объектов запроса.

Прямая применимость: Высокая - выводы можно сразу использовать при формулировании промптов.

Концептуальная ценность: Очень высокая - раскрывает фундаментальные закономерности работы с памятью LLM.

Кластер: Попадает в кластер 6 (поведенческие закономерности LLM) - исследует как временные характеристики данных и "популярность" объектов влияют на качество ответов.

📌

2 Цифровая оценка полезности

Аргументы за высокую оценку: Исследование выявляет четкие паттерны ретроградного знания (хуже отвечает на вопросы о прошлом) и размерного биаса (лучше знает крупные компании). Выводы применимы к любым фактическим запросам.

Контраргументы: Могла бы быть выше (90+), если бы давала готовые шаблоны промптов. Могла бы быть ниже (60-70), так как фокусируется только на финансовой сфере, но паттерны универсальны.

Обоснование 85 баллов: Исследование из кластера 6 с четкими выводами для промптинга получает не менее 75. Добавочные баллы за универсальность выводов и прямую применимость к структурированию промптов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с