arXiv:2602.07096 74 6 фев. 2026 г. FREE

RealFin: модели домысливают недостающие условия вместо отказа от ответа

КЛЮЧЕВАЯ СУТЬ

Парадокс: специализированные финансовые модели показывают <20% точности, а общие модели (GPT, Claude) справляются лучше. Причина — видят знакомые термины типа 'налог на потребление' и запускают расчёты на автомате даже когда не хватает критических данных (процентная ставка, метод расчёта, стандарт учёта). Исследование RealFin показывает как заставить модель проверять условия перед ответом — важно для задач где цена ошибки высока (инвестиции, налоги, юридические выводы). Фишка: явная инструкция 'сначала чек-лист всех условий' прерывает триггер 'начать считать'. Модель переключается из режима pattern matching (узнал паттерн → применил формулу) в режим logical decomposition (что нужно → что есть → что отсутствует). Точность проверки +65% у reasoning-моделей.

Адаптировать под запрос

⚡

TL;DR

RealFin — исследование того, как LLM ведут себя когда в вопросе не хватает критически важной информации для однозначного ответа. Исследователи создали парные задачи: оригинальные (все условия есть) и ревизированные (убрали ключевое условие, но вопрос выглядит осмысленным). Протестировали 10 моделей на 2020 финансовых задачах на английском и китайском.

Модели не умеют говорить "недостаточно данных". Когда из финансового вопроса убирают важное условие (процентную ставку, метод расчёта, стандарт учёта), модели всё равно выдают уверенный ответ — домысливают недостающее на основе паттернов из обучающих данных. Общие модели (GPT, Claude, Gemini) гадают и подставляют "типичный кейс". Финансовые специализированные модели (DISC-FinLLM, FinGPT) видят знакомые термины типа "налог на потребление" и срабатывают на автомате — запускают расчёты даже когда не все данные есть, показывая <20% точности.

Исследование выявило парадокс языка: на английских вопросах точность моделей растёт на +8-12% когда условия убирают (модель случайно угадывает правильное допущение), а на китайских падает на -12% (многозначность слов вводит в заблуждение). Reasoning-модели типа Fin-R1 показывают скачок точности до +65% на недоопределённых задачах — умеют отказываться отвечать, но иногда переусложняют: находят правильный принцип, затем продолжают рассматривать редкие граничные случаи которых в вопросе не было.

📌

Извлекаемые принципы для работы в чате

Хотя это исследование, а не готовая техника, оно показывает как заставить модель проверять условия перед ответом. Три принципа применимы в любом чате сразу:

📌

Принцип 1: Явная проверка условий

Суть: Перед решением задачи попроси модель составить чек-лист необходимых данных.

ПЕРЕД тем как ответить:
1. Перечисли ВСЕ условия, необходимые для решения
2. Отметь какие ЕСТЬ в вопросе, какие ОТСУТСТВУЮТ
3. Если чего-то не хватает — скажи "недостаточно данных" и укажи что именно нужно

[Твоя задача]

📌

Принцип 2: Критика неявных допущений

Суть: Модели домысливают молча. Заставь озвучить что она додумала.

Реши задачу, но ПЕРЕД финальным ответом:
- Перечисли все НЕЯВНЫЕ допущения, которые ты сделал
- Объясни почему выбрал именно эти допущения  
- Скажи насколько ответ изменится при других допущениях

[Задача]

📌

Принцип 3: Опция отказа

Суть: Для важных решений добавь вариант "недостаточно информации".

Варианты ответа:
А. [вариант 1]
Б. [вариант 2]  
В. [вариант 3]
Г. **Недостаточно информации для ответа**

Выбирай Г если для обоснованного выбора А/Б/В не хватает данных.
Сначала объясни ПОЧЕМУ данных не хватает, потом выбери.

🚀

Пример применения

Задача: Разбираешь варианты инвестиций. В каком-то чате нашёл старую переписку: "ОФЗ с доходностью 12% принесут через год...". Хочешь понять сколько заработаешь на 500 тысячах рублей.

Промпт:

ПЕРЕД тем как посчитать доход:
1. Перечисли ВСЕ условия необходимые для расчёта дохода по ОФЗ
2. Отметь какие ЕСТЬ в сообщении, какие ОТСУТСТВУЮТ  
3. Если чего-то не хватает — скажи что именно нужно уточнить

Сообщение: "ОФЗ с доходностью 12% принесут через год..."
Сумма вложений: 500 000 рублей

Результат: Модель укажет что не хватает критичных данных: это купонная доходность или к погашению, как часто выплачиваются купоны (раз в полгода обычно, но не всегда), какая цена покупки относительно номинала (с премией или дисконтом), нужно ли учитывать налог 13% на купоны (да для резидентов). Вместо быстрого "60 тысяч" получишь список из 4-5 пунктов что уточнить до расчёта.

🧠

Почему это работает

Слабость LLM: Модели обучены завершать запросы, а не проверять решаемость. Когда видят знакомый паттерн ("доходность 12%", "через год"), активируется цепочка "вопрос → расчёт → ответ". Проверки "а все ли данные есть?" в этой цепочке нет — модель натренирована считать каждый prompt решаемым.

Механика домысливания: Модель заменяет недостающее условие на "типичный кейс" из обучающих данных. Для ОФЗ это "купон выплачивается раз в полгода, покупка по номиналу". Для налоговых расчётов это "ИП без работников, платит взносы за себя". Ответ получается внутренне связным и звучит убедительно, но не обоснован конкретными условиями задачи.

Финансовые модели хуже общих: Специализация работает против них — видят термин "налог на потребление" и запускают агрессивный retrieval знаний. Чем больше знают формул и правил, тем сильнее триггер "начать считать прямо сейчас". DISC-FinLLM и FinGPT показали точность ниже 20% именно из-за этого — перегруз знаниями блокирует способность сказать "стоп, данных мало".

Как проверка условий ломает автоматизм: Явная инструкция "сначала чек-лист всех условий" прерывает триггер. Модель переключается из режима "отвечать" в режим "анализировать структуру задачи" — это другая цепочка рассуждений. Вместо pattern matching (узнал паттерн → применил формулу) включается logical decomposition (что нужно → что есть → что отсутствует).

Рычаги управления:

Строгость чек-листа — укажи "ПЕРЕД решением" vs "проверь если сомневаешься" → первое даёт полную проверку, второе экономит время на очевидных задачах
Формат вывода — потребуй таблицу "условие | статус | где в тексте" → модель будет сканировать текст вопроса тщательнее
Порог отказа — "откажись если хоть одно условие неясно" vs "откажись если критичное условие отсутствует" → первое безопаснее, второе практичнее

📋

Шаблон промпта

Ты — аналитик, который **не даёт ответы без достаточных данных**.

Алгоритм работы:

ШАГ 1: Перечисли ВСЕ условия необходимые для решения {задачи}

ШАГ 2: Проверь статус каждого условия
  ✅ ЕСТЬ в вопросе: [процитируй где именно]
  ❌ ОТСУТСТВУЕТ: [укажи что нужно узнать]  
  ⚠️ НЕЯВНОЕ ДОПУЩЕНИЕ: [какое допущение делаешь и почему]

ШАГ 3: Вердикт
  • Если ВСЕ условия на месте → реши задачу
  • Если что-то отсутствует → "Недостаточно информации. Нужно уточнить: [список]"
  • Если делаешь допущения → реши, но укажи "Ответ верен при условии: [допущения]. При других условиях результат может измениться на [примерный диапазон]"

ЗАДАЧА:
{твоя_задача}

Что подставлять: - {задачи} — тип задачи одним словом (расчёт налога, оценка доходности, выбор тарифа) - {твоя_задача} — полный текст вопроса или проблемы

🚀 Быстрый старт — вставь в чат:

Вот шаблон проверки условий перед решением задач с высокой ценой ошибки.
Адаптируй под мою задачу: [опиши свою ситуацию].
Задавай вопросы чтобы понять какие условия критичны для моего случая.

[вставить шаблон выше]

LLM спросит специфику твоей области (финансы, право, медицина, техника) — чтобы понять какие условия обычно критичны и какие типичные допущения делают люди. Она возьмёт трёхшаговую структуру и подстроит чек-лист под твой контекст.

⚠️

Ограничения

⚠️ Переобдумывание: Reasoning-модели (типа Fin-R1) правильно находят ответ, но продолжают искать граничные случаи которых в вопросе нет. Научились отказываться когда надо, но не научились останавливаться когда достаточно. Ответ получается размытым от избытка осторожности.

⚠️ Многозначность языка: Принцип работает по-разному на разных языках. В русском многозначные слова ("уйти", "снять", "провести") могут сбить модель с толку даже когда все условия на месте — она начнёт искать недостающий контекст где его нет.

⚠️ Overhead на простых задачах: Если вопрос тривиален ("сколько 6% от 100 тысяч?"), трёхшаговая проверка создаёт лишний текст и медленнее. Применяй когда цена ошибки высока или когда задача сложная и многоступенчатая.

⚠️ Ложные отказы: Модель может счесть условие "отсутствующим" если оно выражено косвенно в другой части текста. Например, стандарт учёта не назван явно, но упоминается "по требованиям ЦБ РФ" — модель может не связать это с конкретным стандартом.

🔍

Как исследовали

Команда взяла 2020 реальных финансовых вопросов профессионального уровня: 1062 из подготовительных материалов CFA (английский) и 959 из учебных материалов CPA (китайский) — не настоящие экзамены, а открытые тренировочные задачи. Отбирали сложные кейсы: многоступенчатые расчёты, интеграция информации из нескольких источников, применение теории к практике — то есть задачи где одного pattern matching недостаточно.

Для каждого вопроса создали "испорченную" версию: удалили одно критичное условие, но сохранили грамматическую и смысловую связность. Например, из вопроса про доходность облигации убрали величину изменения процентной ставки (было "25 базисных пунктов", стало "ожидается снижение") — вопрос читается нормально, но однозначно решить его уже нельзя, нужно уточнение.

Что конкретно удаляли: (1) Макроэкономические предпосылки — режим процентных ставок, инфляционные ожидания, действует ли принцип непрерывности бизнеса; (2) Методы связывания — какую модель оценки применять (CAPM или DCF), как рассчитывается мультипликатор, логика хеджирования, метод амортизации; (3) Граничные условия контрактов — финансовые ковенанты, есть ли залог и регресс, связанные стороны; (4) Стандарты учёта — МСФО или US GAAP, регуляторный режим, момент признания выручки, правила расчёта налоговых разниц.

Два аннотатора (PhD и студент бакалавриата, оба с финансовым бэкграундом) независимо создавали ревизированные версии, затем кросс-проверяли: (1) остался ли вопрос осмысленным в финансовом контексте, (2) действительно ли теперь нет однозначного ответа. Расхождения решали обсуждением.

Протестировали 10 моделей в трёх режимах: (1) Original — оригинальный вопрос со всеми условиями, есть правильный ответ; (2) Revised — испорченный вопрос, нужно распознать недостаток информации; (3) None-of-the-above — правильный вариант заменён на "ни один из перечисленных", модель должна выбрать его вместо угадывания среди неверных.

Что удивило: На английских вопросах общие модели (GPT, Claude, DeepSeek) стали точнее на +8-12% когда убрали условия. Почему? Потому что случайно угадали типичное допущение которое совпало с эталонным ответом. Модель домыслила "стандартный кейс" из обучающих данных, и он оказался тем самым который имели в виду составители вопроса. На китайском же точность упала на -12% — контекстная многозначность слов сбила модель. Одно и то же слово может означать разное в зависимости от окружения, и когда убрали ключевое условие, оставшиеся слова стали двусмысленными.

Парадокс: Модель систематически неправа когда пытается интерпретировать неоднозначный текст, и случайно права когда просто подставляет частотный паттерн. Это показывает что высокая точность ≠ понимание — модель может быть права по неправильной причине.

Инсайт для практики: Если модель даёт уверенный ответ на финансовый (или любой важный) вопрос — это не гарантия что она поняла задачу. Она могла просто подставить "стандартное" допущение из обучающих данных, которое типично встречается с похожими формулировками. Поэтому критически важно просить модель явно назвать все допущения которые она сделала — это единственный способ проверить обоснованность ответа.

💡

Адаптации и экстраполяции

📌

🔧 Техника: Режим "красных флагов" для критичных решений

Усиль проверку для задач где цена ошибки особенно высока — добавь лингвистический слой перед логической проверкой:

Это решение с высокой ценой ошибки. Работай в режиме КРАСНЫХ ФЛАГОВ.

🚩 СТОП-СИГНАЛЫ (если хоть один обнаружен — откажись отвечать):
  • Неоднозначные термины без уточняющего контекста
  • Числа упомянуты без единиц измерения или временного периода  
  • Не указан применимый стандарт/регламент/закон/ГОСТ
  • Условия выражены как "обычно", "как правило", "в типичном случае"
  • Есть отсылка к "текущей ситуации" без указания даты

Алгоритм:
ШАГ 1: Сканируй текст задачи на стоп-сигналы → если нашёл, составь список что уточнить + ОТКАЗ от ответа
ШАГ 2: Если стоп-сигналов нет → проверь логическую полноту условий (основной алгоритм)
ШАГ 3: Реши только если прошли ОБА фильтра

ЗАДАЧА:
{высокорисковая_задача}

Зачем два слоя: Текстовые стоп-сигналы ловят неявную неопределённость которую логический анализ может пропустить. "Обычно выплачивается раз в полгода" звучит как условие, но это не факт а предположение. Лингвистический фильтр ловит такие формулировки до того как модель начнёт рассуждать логически.

📌

🔧 Техника: Версионирование допущений

Для сложных кейсов где невозможно избежать допущений, покажи как ответ меняется в зависимости от их выбора:

Задача содержит неизбежные допущения. Дай ТРИ версии ответа:

📊 ВЕРСИЯ А (оптимистичная):
  Допущения: [самые благоприятные для желаемого результата]
  Расчёт: [краткая формула]
  Ответ: [результат]

📊 ВЕРСИЯ Б (базовая):  
  Допущения: [стандартные/средние для отрасли или практики]
  Расчёт: [краткая формула]
  Ответ: [результат]

📊 ВЕРСИЯ В (консервативная):
  Допущения: [наиболее строгие/пессимистичные]
  Расчёт: [краткая формула]  
  Ответ: [результат]

Для каждой версии оцени ВЕРОЯТНОСТЬ что именно эти допущения соответствуют реальности.
Укажи какие данные нужны чтобы выбрать между версиями обоснованно.

ЗАДАЧА:
{задача_с_неизбежной_неопределённостью}

Эффект: Вместо одного "уверенного" ответа получаешь диапазон сценариев. Видишь насколько чувствителен результат к выбору допущений. Это ручной Monte Carlo — модель симулирует разные предположения и показывает разброс исходов. Если все три версии дают похожий ответ — допущения некритичны, решение robust. Если версии сильно расходятся — надо срочно уточнять реальные условия, риск ошибки высок.

📌

🔧 Техника: Обратная проверка через "могло бы быть иначе?"

Проверь чувствительность вывода к конкретным значениям условий:

Реши задачу по стандартному алгоритму.

ЗАТЕМ обратная проверка:
1. Для каждого числового условия (ставка, срок, сумма) — измени его на ±20%
2. Пересчитай ответ с новым значением  
3. Если ответ изменился НЕЗНАЧИТЕЛЬНО (<5%) — условие некритично
4. Если ответ изменился СИЛЬНО (>20%) — это критичное условие, отметь ⚠️

Покажи:
• Какие условия КРИТИЧНЫЕ (⚠️) — их надо проверить особенно тщательно
• Какие условия некритичные — ошибка в них не фатальна

ЗАДАЧА:
{задача_с_числовыми_условиями}

Применение: Выявляешь хрупкие места решения. Если всё упирается в одну процентную ставку — лучше перепроверить её три раза. Если разброс ±20% в сроке даёт всего ±3% в результате — можно работать с приблизительным сроком.

🔗

Ресурсы

RealFin: How Well Do LLMs Reason About Finance When Users Leave Things Unsaid?

Yuyang Dai (INSAIT), Yan Lin (INSAIT, Newcastle University), Zhuohan Xie (MBZUAI), Yuxia Wang (INSAIT)

Данные построены на основе CFA preparatory materials (английский) и CPA instructional materials (китайский) — публично доступные учебные материалы, не реальные экзамены.

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не делай: Реши задачу по ОФЗ с доходностью 12% — модель домыслит что купон раз в полгода, покупка по номиналу, налог 13%. Выдаст уверенный ответ даже когда половина условий не названа. Делай:

ПЕРЕД решением: (1) перечисли ВСЕ условия необходимые для расчёта → (2) отметь какие ЕСТЬ в вопросе, какие ОТСУТСТВУЮТ → (3) если чего-то не хватает скажи 'недостаточно данных'

Триггер 'начать считать' срабатывает когда модель видит знакомый паттерн. Чек-лист условий переключает режим рассуждений — из 'отвечать' в 'анализировать структуру задачи'. Это другая цепочка мышления.

Почему работает

Слабость LLM: обучены завершать запросы, а не проверять решаемость. Когда видят знакомый паттерн ('доходность 12%', 'через год'), активируется цепочка 'вопрос → расчёт → ответ'. Проверки 'а все ли данные есть?' в этой цепочке нет — модель натренирована считать каждый промпт решаемым. Жесть — финансовые модели хуже общих: специализация работает против них. DISC-FinLLM и FinGPT видят термин 'налог на потребление' и запускают агрессивный поиск знаний. Чем больше знают формул, тем сильнее триггер 'считать прямо сейчас'. Результат — точность <20% именно из-за перегруза знаниями. Рычаг управления: reasoning-модели типа Fin-R1 показывают +65% точности на недоопределённых задачах — умеют отказываться отвечать. Но цена — иногда переусложняют: находят правильный принцип, затем продолжают искать редкие граничные случаи которых в вопросе не было. Парадокс языка: на английском убрали условия → точность +8-12% (модель случайно угадывает правильное допущение), на китайском -12% (многозначность слов вводит в заблуждение).

Когда применять

Задачи с высокой ценой ошибки → конкретно для расчётов инвестиций, налогов, технических спецификаций, юридических выводов, медицинских рекомендаций, особенно когда информация неполная или из разных источников (старая переписка, фрагменты документов, устные пересказы, записи из блокнота). НЕ подходит для тривиальных вопросов типа 'сколько 6% от 100 тысяч?' — трёхшаговая проверка создаёт лишний текст и замедляет ответ. Применяй когда задача сложная и многоступенчатая.

Мини-рецепт

1. Задай алгоритм проверки:

ПЕРЕД решением: перечисли ВСЕ условия необходимые для [тип задачи] → отметь какие ЕСТЬ в вопросе, какие ОТСУТСТВУЮТ

2. Добавь опцию отказа:

Если хоть одно критичное условие отсутствует — скажи 'Недостаточно информации. Нужно уточнить: [список]'

3. Заставь озвучить допущения:

Если делаешь неявные допущения — перечисли их, объясни почему выбрал именно эти, покажи как ответ изменится при других допущениях

4. Укажи формат вывода: Потребуй таблицу 'условие | статус (есть/нет) | где в тексте' — модель будет сканировать текст вопроса тщательнее

Примеры

[ПЛОХО] :

Посчитай доход по ОФЗ с доходностью 12% за год если вложу 500 тысяч рублей

Модель домыслит: купон раз в полгода, покупка по номиналу, налог 13%. Выдаст '60 тысяч' не указав что это при конкретных допущениях.

[ХОРОШО] :

ПЕРЕД тем как посчитать доход: 1) Перечисли ВСЕ условия необходимые для расчёта дохода по ОФЗ 2) Отметь какие ЕСТЬ в сообщении ['ОФЗ с доходностью 12% через год'], какие ОТСУТСТВУЮТ 3) Если чего-то не хватает — скажи что именно нужно уточнить. Данные: сумма вложений 500 000 рублей

Результат: модель укажет что не хватает критичных данных — это купонная доходность или к погашению, как часто выплачиваются купоны, какая цена покупки относительно номинала, нужно ли учитывать налог. Вместо быстрого '60 тысяч' получишь список из 4-5 пунктов что уточнить до расчёта.

Источник: RealFin: How Well Do LLMs Reason About Finance When Users Leave Things Unsaid?

ArXiv ID: 2602.07096 | Сгенерировано: 2026-02-10 05:34

Проблемы LLM

Проблема	Суть	Как обойти
Модель домысливает недостающие условия молча	Убираешь из задачи критичное условие (процент, метод расчёта, стандарт). Модель всё равно даёт уверенный ответ. Подставляет "типичный кейс" из обучающих данных вместо пропущенного. Не говорит что додумала. Ответ звучит убедительно — но не обоснован твоими условиями. Особенно опасно в финансах, праве, медицине, технических расчётах	Добавь явную проверку ПЕРЕД решением: "Перечисли ВСЕ условия нужные для ответа. Отметь какие ЕСТЬ в вопросе, какие ОТСУТСТВУЮТ. Если чего-то не хватает — скажи 'недостаточно данных' и укажи что именно нужно"

Методы

Метод	Суть
Трёхшаговая проверка условий	Шаг 1: Модель перечисляет ВСЕ условия нужные для решения. Шаг 2: Проверяет статус каждого: ЕСТЬ (цитирует где), ОТСУТСТВУЕТ (говорит что узнать), НЕЯВНОЕ ДОПУЩЕНИЕ (какое и почему). Шаг 3: Вердикт: всё есть → решает, что-то отсутствует → "недостаточно информации", делает допущения → указывает их явно. Почему работает: Прерывает автоматический триггер "узнал паттерн → применил формулу". Модель переключается в режим анализа структуры задачи вместо pattern matching. Применяй: Задачи с высокой ценой ошибки (финансы, право, медицина), многоступенчатые расчёты, выбор при неполных данных. Не подходит: Тривиальные вопросы где все условия очевидны — создаёт лишний текст

Метод

Суть

Трёхшаговая проверка условий

Шаг 1: Модель перечисляет ВСЕ условия нужные для решения. Шаг 2: Проверяет статус каждого: ЕСТЬ (цитирует где), ОТСУТСТВУЕТ (говорит что узнать), НЕЯВНОЕ ДОПУЩЕНИЕ (какое и почему). Шаг 3: Вердикт: всё есть → решает, что-то отсутствует → "недостаточно информации", делает допущения → указывает их явно. Почему работает: Прерывает автоматический триггер "узнал паттерн → применил формулу". Модель переключается в режим анализа структуры задачи вместо pattern matching. Применяй: Задачи с высокой ценой ошибки (финансы, право, медицина), многоступенчатые расчёты, выбор при неполных данных. Не подходит: Тривиальные вопросы где все условия очевидны — создаёт лишний текст

Тезисы

Тезис	Комментарий
Специализация может снижать осторожность модели	Финансовые модели хуже общих когда данных недостаточно. Видят знакомый термин ("налог на потребление", "купонная доходность") — запускают агрессивный поиск знаний и расчёты. Чем больше знают формул, тем сильнее триггер "начать считать сейчас". Перегруз знаниями блокирует способность сказать "стоп, данных мало". Общие модели не знают специфики — меньше триггеров, больше осторожности. Применяй: Для специализированных моделей усиливай инструкции проверки условий — они склонны игнорировать
Явная инструкция "ПЕРЕД решением" переключает режим рассуждений	Без инструкции: узнал паттерн → применил формулу (pattern matching). С инструкцией "составь чек-лист условий": что нужно → что есть → что отсутствует (логическая декомпозиция). Это разные цепочки. Первая работает автоматически, вторая требует анализа структуры. Применяй: Слово "ПЕРЕД" критично — ставь в начало промпта. Вместо "проверь если сомневаешься" пиши "ПЕРЕД решением перечисли условия" — полная проверка vs опциональная

Тезис

Комментарий

Специализация может снижать осторожность модели

Финансовые модели хуже общих когда данных недостаточно. Видят знакомый термин ("налог на потребление", "купонная доходность") — запускают агрессивный поиск знаний и расчёты. Чем больше знают формул, тем сильнее триггер "начать считать сейчас". Перегруз знаниями блокирует способность сказать "стоп, данных мало". Общие модели не знают специфики — меньше триггеров, больше осторожности. Применяй: Для специализированных моделей усиливай инструкции проверки условий — они склонны игнорировать

Явная инструкция "ПЕРЕД решением" переключает режим рассуждений

Без инструкции: узнал паттерн → применил формулу (pattern matching). С инструкцией "составь чек-лист условий": что нужно → что есть → что отсутствует (логическая декомпозиция). Это разные цепочки. Первая работает автоматически, вторая требует анализа структуры. Применяй: Слово "ПЕРЕД" критично — ставь в начало промпта. Вместо "проверь если сомневаешься" пиши "ПЕРЕД решением перечисли условия" — полная проверка vs опциональная

📖 Простыми словами

RealFin: How Well DoLLMsReason About Finance When Users Leave Things Unsaid?

arXiv: 2602.07096

AI-ассистенты в финансовых вопросах работают не как дотошные бухгалтеры, а как самоуверенные имитаторы. Корень проблемы в том, что LLM натасканы выдавать ответ любой ценой, даже если задача — полная лажа. Когда ты задаешь вопрос, модель не анализирует, хватает ли ей данных для вердикта, она просто активирует паттерн завершения текста. Если она видит слова «доходность» и «срок», у нее в голове щелкает тумблер «надо посчитать», и она выдает цифру, игнорируя тот факт, что без ключевых переменных уравнение не имеет смысла.

Это как если бы ты пришел к врачу и сказал: «У меня болит, дайте таблетку», а он, вместо того чтобы спросить, где именно болит, сразу выписал бы рецепт на случайное лекарство. Формально он помог, но по факту это гадание на кофейной гуще. Модели ведут себя как отличники-зубрилы, которые боятся признаться, что в условии задачи опечатка, и начинают высасывать решение из пальца, лишь бы не расстроить учителя молчанием.

Исследование RealFin наглядно показало этот провал на 2020 задачах: когда из финансового кейса убирали критическое условие, модели продолжали бодро считать. Они используют галлюцинаторную логику, подставляя средние значения из обучающей выборки или просто игнорируя «дыры» в данных. Вместо того чтобы сказать: «Эй, тут не хватает налоговой ставки или типа капитализации», модель просто выдает красивое число, которое выглядит убедительно, но является абсолютным мусором.

Хотя тест проводили на финансах, этот принцип универсален для любой сложной области. Будь то юридический совет, расчет дозировки удобрений или настройка рекламного кабинета — если в твоем промпте есть недосказанность, AI не станет уточнять детали. Он просто додумает за тебя, причем сделает это так уверенно, что ты даже не заподозришь подвох. Доверие к LLM без верификации данных — это прямой путь к финансовым и операционным потерям.

Короче: современные модели тотально лажают в проверке решаемости задач. Главный вывод — никогда не кидай в чат обрывки мыслей, ожидая точного расчета. Если ты не указал все вводные, AI не включит режим «критического мышления», а просто наврет с умным видом. Либо прописывай каждый чих в условиях, либо готовься к тому, что полученная цифра не имеет ничего общего с реальностью.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню