3,583 papers
arXiv:2507.17927 75 23 июля 2025 г. FREE

LLM галлюцинирует на точных расчётах — не потому что глупая, а потому что её учили на текстах, а не на математике.

КЛЮЧЕВАЯ СУТЬ
LLM галлюцинирует на точных расчётах — не потому что глупая, а потому что её учили на текстах, а не на математике. Заставлять её считать производственные планы — всё равно что просить переводчика сделать МРТ. Метод SmartAPS позволяет использовать модель там, где она реально сильна: понять запрос, выбрать нужный инструмент и перевести технический ответ на человеческий. Фишка: LLM не вычисляет — она диспетчер. Получает запрос, определяет намерение, выбирает метод, заполняет параметры, возвращает результат. Запрос по структуре Намерение → Инструмент → Параметры → Формат — и вместо расплывчатой просьбы получается чёткое техническое задание, которое не оставляет модели пространства для выдумок.
Адаптировать под запрос

Исследование представляет систему SmartAPS — чат-бота, который позволяет специалистам по планированию общаться со сложной системой управления (APS) на естественном языке. Вместо того чтобы LLM пыталась сама всё рассчитать, она выступает в роли "умного диспетчера": определяет, что хочет пользователь, находит подходящий программный инструмент для анализа или расчета, запускает его с нужными данными и затем переводит технический результат обратно на понятный человеку язык.

Ключевой результат: LLM можно эффективно использовать не как всезнающего оракула, а как интуитивный интерфейс к другим, более точным и надежным программам и базам данных.

Суть метода — в разделении труда. LLM отлично справляется с пониманием человеческого языка, но плохо — с точными расчетами и работой с актуальными данными. Поэтому вместо того, чтобы заставлять модель делать то, что она не умеет, авторы создали систему, где LLM выполняет роль переводчика и координатора.

Практическая методология, которую можно извлечь из этого исследования, заключается в том, чтобы структурировать свой промпт по логике работы системы SmartAPS. Вместо того чтобы писать "проанализируй рынок для моего продукта", нужно разбить запрос на логические блоки, как это делает машина:

  1. Определение Намерения (Intent): Четко сформулируйте конечную цель. Пример: "Я хочу оценить перспективы запуска нового продукта".
  2. Выбор Инструмента (Tool Selection): Укажите модели, какую методологию или фреймворк использовать. Это аналог выбора "API" в системе. Пример: "Используй для этого SWOT-анализ".
  3. Извлечение Параметров (Parameter Extraction): Предоставьте все необходимые входные данные в структурированном виде. Это аналог заполнения полей для функции. Пример: "Продукт: ..., Целевая аудитория: ..., Конкуренты: ...".
  4. Формирование Ответа (Response Refining): Укажите, в каком виде вы хотите получить результат. Пример: "Представь результат в виде таблицы, а затем дай краткое резюме по каждому пункту".

Такой подход превращает ваш промпт из нечеткой просьбы в четкое техническое задание для модели, что кардинально повышает качество и предсказуемость результата. Вы, по сути, вручную эмулируете работу LLM-агента.

  • Прямая применимость: Пользователь может напрямую применять логику "Намерение -> Инструмент -> Параметры -> Формат" для структурирования своих сложных запросов в любом чат-боте. Это не требует кода или специальных инструментов, только изменения подхода к написанию промпта.
  • Концептуальная ценность: Ключевая идея — LLM не как база знаний, а как процессор естественного языка. Модель не должна "знать" ответ, она должна "понять" задачу и "применить" предоставленный ей метод к предоставленным данным. Это помогает пользователю перестать задавать вопросы "из вакуума" и начать предоставлять модели все необходимое для качественной работы.
  • Потенциал для адаптации: Метод легко адаптируется для любой задачи. Планирование путешествия, написание маркетинговой стратегии, создание контент-плана, анализ документа — все эти задачи можно разложить по описанной выше структуре. Механизм адаптации — это осознанное разделение в промпте роли, цели, методологии, входных данных и желаемого формата вывода.
Ты — опытный маркетолог-аналитик. Твоя задача — помочь мне с запуском нового продукта, используя стандартные аналитические фреймворки.

**1. Роль и Цель (Intent):**
Я хочу получить предварительный анализ сильных и слабых сторон, возможностей и угроз для моего нового продукта, чтобы принять решение о дальнейших инвестициях.

**2. Инструмент и Методология (Tool):**
Проведи анализ по методологии **SWOT** (Strengths, Weaknesses, Opportunities, Threats).

**3. Входные данные (Parameters):**
*   **Продукт:** "Энергия Города" — готовые кофейные напитки в банках с добавлением адаптогенов (родиола розовая, ашваганда).
*   **Целевая аудитория:** Офисные работники и студенты 20-35 лет в крупных городах, которые ищут здоровую альтернативу обычным энергетикам.
*   **Рынок:** Высококонкурентный рынок готовых кофейных напитков и энергетиков.
*   **Уникальное торговое предложение (УТП):** Натуральный состав, отсутствие сахара, польза адаптогенов для снижения стресса и улучшения концентрации.
*   **Слабое место:** Более высокая цена по сравнению с обычным кофе и популярными энергетиками.

**4. Формат вывода (Response Refinement):**
*   Представь результат в виде таблицы с четырьмя квадрантами: Сильные стороны, Слабые стороны, Возможности, Угрозы.
*   В каждой ячейке таблицы должно быть не менее 3-х тезисов.
*   После таблицы напиши краткое резюме (2-3 предложения) с твоей главной рекомендацией: стоит ли продолжать развивать проект или риски слишком высоки.

Этот промпт работает, потому что он имитирует логику системы SmartAPS, превращая расплывчатый запрос в четкую инструкцию:

  • Снижение когнитивной нагрузки на LLM: Модели не нужно угадывать, что вы имеете в виду под "проанализируй". Вы даете ей конкретный "инструмент" — SWOT-анализ.
  • Четкое определение входных данных: Вместо того чтобы заставлять модель выдумывать детали, вы предоставляете ей все "параметры" (продукт, аудитория, УТП). Это заземляет ответ на реальных фактах.
  • Структурирование вывода: Требование к формату (таблица + резюме) гарантирует, что ответ будет не просто потоком текста, а структурированным и удобным для использования документом.
  • Эмуляция "API вызова": По сути, промпт становится похож на вызов функции в программировании: SWOT_Analysis(product, audience, market, UTP). Это язык, на котором LLM "думает" гораздо эффективнее.
Ты — опытный HR-специалист и рекрутер. Твоя задача — помочь мне подготовиться к собеседованию.

**1. Роль и Цель (Intent):**
Я хочу подготовиться к поведенческому собеседованию на позицию менеджера проектов. Мне нужно отрепетировать ответы на возможные вопросы.

**2. Инструмент и Методология (Tool):**
Мы будем использовать технику **STAR** (Situation, Task, Action, Result) для формулирования ответов. Ты будешь задавать мне типичные поведенческие вопросы, а я буду на них отвечать. Твоя задача — оценить мой ответ по методу STAR и дать рекомендации по улучшению.

**3. Входные данные (Parameters):**
*   **Моя роль:** Я претендую на позицию "Менеджер IT-проектов".
*   **Мой опыт (контекст для ответов):** Я 3 года работал в компании "ТехноСофт", руководил командой из 5 разработчиков, успешно запустил 2 крупных проекта. Один из проектов был на грани срыва сроков, но я смог его спасти.
*   **Начнем с первого вопроса:** "Расскажите о ситуации, когда вам пришлось столкнуться с серьезным конфликтом в команде и как вы его разрешили".

**4. Формат вывода (Response Refinement):**
После того как я дам свой ответ на твой вопрос, ты должен:
1.  Кратко оценить, все ли компоненты STAR (Ситуация, Задача, Действие, Результат) присутствуют в моем ответе.
2.  Дать 1-2 конкретных совета, как можно было бы улучшить мой ответ, чтобы он звучал убедительнее.
3.  Задать следующий вопрос.

Этот пример работает по тому же принципу, что и предыдущий, но в интерактивном, диалоговом режиме.

  • Задание четкого фреймворка: Вместо абстрактной просьбы "потренируй меня к собеседованию", пользователь задает конкретную методологию — STAR. Это превращает LLM из простого собеседника в тренера, который оценивает ответы по известным критериям.
  • Предоставление контекста: Информация о роли и опыте — это "параметры", которые помогают LLM задавать релевантные вопросы и понимать контекст ответов пользователя.
  • Управление диалогом: Промпт задает четкий цикл взаимодействия: "Вопрос от LLM -> Ответ от пользователя -> Оценка по STAR от LLM -> Следующий вопрос". Это имитирует работу "Conversation Manager" из исследования, который управляет состоянием диалога и последовательностью шагов.
  • Надежность и фокус: Такой подход не дает модели "уплыть" в общие рассуждения о карьере. Он заставляет ее строго следовать заданной роли и методологии, что делает сессию подготовки максимально сфокусированной и полезной.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Косвенная. Исследование не дает готовых фраз, но описывает архитектуру системы (агента), которая разбирает запрос пользователя на части: намерение, выбор инструмента, извлечение параметров. Это продвинутая концептуальная модель для построения сложных промптов.
  • B. Улучшение качества диалоговых ответов: Да. Вся суть системы — повысить точность и релевантность ответов в узкоспециализированной области (управление операциями), подключая LLM к внешним инструментам и данным.
  • C. Прямая практическая применимость: Низкая. Пользователь не может самостоятельно собрать такую систему без навыков программирования, работы с базами данных (ChromaDB) и развертывания моделей. Выводы нельзя применить "в лоб".
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще иллюстрирует парадигму "LLM как оркестратор" или "агент". Оно объясняет, как преодолеть ограничения LLM (галлюцинации, неспособность к точным расчетам) путем их интеграции с внешними, надежными инструментами. Это помогает понять, как строить сложные запросы, имитируя логику работы такого агента.
  • E. Новая полезная практика (кластеры): Работа попадает сразу в несколько кластеров:
    • Кластер 1 (Техники формулирования): Концептуально, через идею разбора запроса на намерение и параметры.
    • Кластер 5 (Извлечение и структурирование): Явно описывается модуль извлечения параметров из запроса пользователя для вызова нужного инструмента.
    • Кластер 6 (Контекст и память): Система использует историю диалога для уточнения запросов и формирования ответов.
    • Кластер 7 (Надежность и стабильность): Основная цель исследования — повысить надежность ответов, заземляя их на внешние инструменты (tool-augmented LLM), что является ключевым методом борьбы с галлюцинациями.
  • Чек-лист практичности (+15 баллов): Да, исследование показывает, как структурировать сложные запросы и предлагает способы улучшить точность ответов, что дает +15 баллов к базовой оценке.
📌

Цифровая оценка полезности

Исследование получает 75 баллов. Это не 90+, потому что оно не дает готовых "копипаст" техник для обычного пользователя. Однако его концептуальная ценность огромна. Оно предоставляет "ментальную модель" для взаимодействия с LLM в сложных задачах, которую можно адаптировать для написания мощных промптов.

Аргументы за оценку: * Высокая концептуальная ценность: Статья идеально объясняет, как работают LLM-агенты, использующие инструменты (tools). Понимание этой логики (намерение -> выбор инструмента -> извлечение параметров -> выполнение -> формирование ответа) позволяет пользователю писать гораздо более структурированные и эффективные промпты, даже не имея такого агента. * Объяснение ограничений LLM: Наглядно демонстрирует, почему LLM сама по себе не может решать сложные задачи, требующие точных данных или вычислений, и как "обернуть" ее в систему, которая это может. * Адаптируемость подхода: Логику системы можно эмулировать в одном промпте, явно указывая модели роль, задачу, методологию (инструмент) и входные данные.

Контраргументы (почему оценка могла быть ниже): * Высокий порог входа: Статья очень техническая. Обычному пользователю будет сложно продраться через термины вроде "ChromaDB", "embedding vectors", "API contract". Прямая польза без адаптации и объяснения близка к нулю. * Узкая предметная область: Пример с управлением цепочками поставок (Operations Management) может отпугнуть пользователей из других сфер, хотя лежащие в основе принципы универсальны.


📋 Дайджест исследования

Ключевая суть

LLM галлюцинирует на точных расчётах — не потому что глупая, а потому что её учили на текстах, а не на математике. Заставлять её считать производственные планы — всё равно что просить переводчика сделать МРТ. Метод SmartAPS позволяет использовать модель там, где она реально сильна: понять запрос, выбрать нужный инструмент и перевести технический ответ на человеческий. Фишка: LLM не вычисляет — она диспетчер. Получает запрос, определяет намерение, выбирает метод, заполняет параметры, возвращает результат. Запрос по структуре Намерение → Инструмент → Параметры → Формат — и вместо расплывчатой просьбы получается чёткое техническое задание, которое не оставляет модели пространства для выдумок.

Принцип работы

Разделение труда — суть метода. LLM отлично разбирает язык, плохо считает. Специализированные инструменты считают точно, но не понимают человека. Вместо того чтобы тянуть одеяло в одну сторону — дай каждому делать своё. Процесс выглядит так: Намерение (зачем) → Инструмент (как) → Параметры (с чем) → Формат (что получить) Каждый блок — отдельная инструкция. Модель не гадает, не додумывает. Она следует чёткому маршруту: понять цель, выбрать метод, получить данные, оформить вывод. Это не промпт — это вызов функции на человеческом языке.

Почему работает

Модель обучена предсказывать следующий токен. Когда запрос размытый — она предсказывает что-то правдоподобное, но не обязательно правильное. Это и есть галлюцинация: ответ который звучит убедительно, но взят из воздуха. Структурированный промпт закрывает этот люк. Когда методология указана явно (SWOT, STAR, любой другой фреймворк) — модель не выдумывает подход, а применяет конкретный инструмент к конкретным данным. Входные данные заземляют ответ на реальных фактах вместо обобщений. Формат вывода не даёт растечься в поток сознания. По сути — это эмуляция вызова API: SWOT_Analysis(product, audience, market). LLM понимает такой язык гораздо лучше, чем 'ну расскажи мне что-нибудь про мой продукт'.

Когда применять

Аналитические задачи с чётким методом — SWOT, STAR, Porter's Five Forces, любой фреймворк, где есть известная методология. Особенно полезно когда нужен структурированный результат, а не поток текста. Также для подготовки к собеседованиям, написания стратегий, разбора документов, создания контент-планов. НЕ подходит для творческих задач без структуры — там излишняя жёсткость только мешает. И не нужно усложнять простые запросы: если просишь написать письмо, четыре блока — перебор.

Мини-рецепт

1. Сформулируй намерение (зачем): Одно предложение с конечной целью. Не 'проанализируй', а 'я хочу принять решение о том, стоит ли запускать продукт X'.

2. Выбери инструмент (как): Укажи методологию явно. Не жди, что модель сама выберет метод — скажи ей: 'Используй SWOT' или 'Применяй технику STAR'.

3. Предоставь параметры (с чем): Все входные данные структурированным списком. Продукт, аудитория, конкуренты, ограничения — всё что знаешь. Чем меньше додумывает модель, тем точнее результат.

4. Задай формат вывода (что получить): Таблица? Список? Резюме в двух предложениях? Укажи явно. Добавь требование к детализации: 'не менее 3 тезисов в каждом пункте' или 'итоговая рекомендация в одной строке'.

Примеры

[ПЛОХО] : Проанализируй рынок для моего продукта — готовые кофейные напитки с адаптогенами
[ХОРОШО] : Ты — опытный маркетолог-аналитик. 1. Намерение: хочу оценить, стоит ли продолжать развивать проект и привлекать инвестиции. 2. Инструмент: проведи SWOT-анализ. 3. Параметры: — Продукт: кофейные напитки в банках с адаптогенами (родиола, ашваганда) — Аудитория: офисные работники и студенты 20-35 лет в крупных городах — Главное преимущество: натуральный состав, без сахара, снижает стресс — Слабое место: цена выше, чем у обычных энергетиков 4. Формат: таблица с четырьмя квадрантами, по 3+ тезиса в каждом. После — резюме в 2-3 предложениях с рекомендацией: продолжать или риски слишком высоки.
Источник: SMARTAPS: Tool-augmented LLMs for Operations Management
ArXiv ID: 2507.17927 | Сгенерировано: 2026-03-02 16:56

Проблемы LLM

ПроблемаСутьКак обойти
Размытый запрос — непредсказуемый результатПишешь "проанализируй это". Модель одновременно угадывает: чего ты хочешь, какой метод применить, какие данные важны, в каком виде отвечать. Четыре неизвестных сразу — модель выдаёт что-то усреднённое и предсказуемо неточное. Работает для любой сложной задачиРазбей запрос на 4 блока. Каждый блок снимает одну неизвестную. Модели остаётся только выполнить — не угадывать

Методы

МетодСуть
Четырёхблочная структура запросаРазбей запрос на 4 части. Цель — что хочешь получить на выходе. Инструмент — какой метод или фреймворк применить (SWOT, STAR, таблица рисков). Данные — все факты, которые нужны для работы. Формат — как выглядит результат (таблица, список, резюме). Цель: ... Инструмент: ... Данные: ... Формат: ... Почему работает: Модель не тратит ресурс на угадывание. Ты снял все неизвестные. Она выполняет чёткое задание — как вызов функции с заполненными аргументами. Когда применять: любая сложная задача с несколькими шагами. Когда излишне: простой вопрос с очевидным контекстом
📖 Простыми словами

SMARTAPS: Инструментально-дополненные LLM для управления операциями

arXiv: 2507.17927

Современные нейронки круто пишут стихи, но когда дело доходит до управления заводом или складом, они начинают нещадно тупить. Проблема в том, что Operations Management требует не фантазии, а жесткой математики и учета кучи ограничений: графиков смен, остатков на складе и логистики. Обычная LLM пытается угадать ответ на основе вероятностей, но в планировании производства «примерно» — это гарантированный простой или убытки. Система SmartAPS меняет саму механику: она не дает модели решать задачу в уме, а заставляет её использовать внешние инструменты и алгоритмы как калькулятор.

Это как если бы ты нанял на должность логиста гениального гуманитария. Он красиво говорит и знает теорию, но постоянно косячит в расчетах, потому что считает в столбик на салфетке. SmartAPS — это когда ты даешь этому гуманитарию продвинутый софт и заставляешь сначала нажать на кнопки, получить точные цифры, а уже потом упаковывать их в понятный отчет. Формально модель всё еще говорит с тобой, но за её словами стоит жесткая логика внешних солверов, а не просто предсказание следующего слова.

В основе лежат инструментально-дополненные LLM, которые работают через цепочку действий. Сначала модель делает декомпозицию задачи (разбивает сложный запрос на мелкие шаги), затем обращается к внешним API или скриптам для оптимизации, и только в конце выдает результат. Главная фишка здесь — двусторонняя связь: если внешний алгоритм говорит, что план невыполним, модель не галлюцинирует, а переделывает запрос, пока математика не сойдется. Это превращает «болталку» в реальный центр управления операциями, который не ошибается в цифрах.

Хотя систему тестировали на задачах управления производством, этот подход — универсальный паттерн для любого сложного бизнеса. Его можно внедрить в управление цепочками поставок, распределение курьеров или даже в планирование рекламных бюджетов. Везде, где есть переменные данные и правила, обычный ChatGPT бесполезен, а SmartAPS-подобные структуры становятся мозгом системы. LLM без инструментов — это просто теоретик, а с ними — эффективный менеджер, который видит всю картину целиком.

Короче, эра простых промптов в бизнесе закончилась, наступает время агентских систем. Если ты просишь нейронку составить график смен просто текстом — это пустая трата времени. Нужно строить связку, где модель только переводит человеческий язык в понятные для алгоритмов инструкции и обратно. SmartAPS доказывает: будущее за гибридами, где креативность AI подперта костылем из суровых математических вычислений. Кто не научит свои модели пользоваться «инструментами», тот так и будет получать красивые, но бесполезные галлюцинации.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с