3,583 papers
arXiv:2508.01432 74 2 авг. 2025 г. FREE

TripTailor: почему LLM плохо планируют путешествия и что с этим делать

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM точно следуют ограничениям («бюджет до 50,000₽», «отель 4★»), но планы всё равно плохие — только 7.5% дотягивают до человеческого уровня. Проблема не в правилах, а в трёх провалах: галлюцинации мест (только 78% планов без выдумок у o1-mini), маршруты в 3 раза длиннее оптимальных, игнорируют 65% нюансов запроса («люблю горы» → получаешь типовой план «всё популярное»). Метод позволяет получать качественные туристические планы — с реальными местами, оптимальными маршрутами и учётом всех предпочтений. Фишка: разбей «спланируй поездку» на 6 последовательных шагов — найти транспорт, ранжировать места по критериям, выбрать топ-N, найти рестораны рядом, выбрать отель, собрать финальный план. Каждый шаг решает одну простую задачу. Результат: 63.7% качественных планов против 7.5% у GPT-4o в режиме «один промпт» — почти в 9 раз лучше.
Адаптировать под запрос

TL;DR

TripTailor — бенчмарк для проверки способности LLM планировать реальные туристические маршруты. Исследователи собрали 500,000+ реальных мест (достопримечательности, отели, рестораны) в 40 китайских городах и почти 4,000 реальных туристических планов. Проверили топовые модели (GPT-4o, DeepSeek-V3, o1-mini) — только 7.5% их планов дотягивают до человеческого уровня по качеству.

Главная находка: соблюдение ограничений ≠ качественный план. LLM умеют следовать правилам ("бюджет до 50,000₽", "отель 4★"), но проваливаются на трёх уровнях. Осуществимость — выдумывают места или путают отель с достопримечательностью (у o1-mini только 78% планов без галлюцинаций). Рациональность — строят маршруты с трёхкратно большими расстояниями чем у людей, потому что не понимают географию. Персонализация — игнорируют 65% нюансов запроса ("люблю горы и аутентичную кухню" → получаешь типовой план "всё самое популярное").

Решение — пошаговая декомпозиция (workflow decomposition). Вместо "спланируй поездку целиком" разбивай на шаги: 1) найди транспорт между городами, 2) ранжируй места по твоим критериям, 3) выбери топ-N, 4) найди рестораны рядом, 5) найди центральный отель, 6) собери финальный план. Baseline-метод с этим подходом показал 63.7% качественных планов против 7.5% у GPT-4o в режиме "Direct" — почти в 9 раз лучше.


🔬

Схема метода (Workflow Decomposition)

ШАГ 1: Найти транспорт → список рейсов/поездов между городами

ШАГ 2: Ранжировать места по критериям пользователя → топ-список

ШАГ 3: Выбрать топ-N мест для каждого дня → черновик маршрута

ШАГ 4: Найти рестораны рядом с местами → список опций

ШАГ 5: Найти центральный отель → адрес отеля

ШАГ 6: Собрать финальный план с деталями → готовый маршрут

Каждый шаг — отдельный запрос к LLM. Результат одного шага → вход для следующего.


🚀

Пример применения

Задача: Спланировать 3-дневную поездку из Москвы в Санкт-Петербург. Бюджет 30,000₽. Интересуют дворцы, музеи, хочу гулять пешком, предпочитаю грузинскую кухню. Хочу остановиться в районе Невского.

Промпт (ШАГ 1):

Найди варианты поездов и самолётов из Москвы в Санкт-Петербург на 15 марта (туда) 
и 17 марта (обратно). Перечисли все варианты с временем отправления, прибытия и ценой.

Промпт (ШАГ 2):

Вот список из 50 достопримечательностей Санкт-Петербурга: [список].
Ранжируй их по соответствию моим критериям: дворцы, музеи, можно обойти пешком.
Выдай топ-15.

Промпт (ШАГ 3):

Из этих 15 мест создай черновик маршрута на 2 полных дня (16 и 17 марта).
Учти часы работы и время на осмотр. Группируй места рядом друг с другом.

Промпт (ШАГ 4):

Для каждого места в маршруте найди 2-3 грузинских ресторана в радиусе 1км.
Укажи цену среднего чека.

Промпт (ШАГ 5):

Найди отель в районе Невского проспекта, ценой до 5,000₽/ночь, 
рядом с местами из маршрута. Рассчитай среднее расстояние до всех мест.

Промпт (ШАГ 6):

Собери финальный план: поминутное расписание на 15-17 марта, 
с транспортом, отелем, маршрутом, ресторанами. Проверь бюджет.

Результат: Модель выдаст детальный план с конкретными поездами, отелем, достопримечательностями и ресторанами. Маршрут будет географически оптимизирован (места рядом друг с другом в один день), с учётом бюджета и предпочтений. Каждый шаг можно проверить и скорректировать отдельно — если не нравится отель, переделываешь только ШАГ 5.


🧠

Почему это работает

Слабость LLM: Когнитивная перегрузка при многофакторной оптимизации. Когда просишь "спланируй поездку", модель должна одновременно думать о транспорте, бюджете, географии, времени, предпочтениях — слишком много переменных в уме. Результат: забывает про бюджет или строит маршрут "север-юг-север-юг" вместо последовательного обхода.

Сильная сторона LLM: Ранжирование и фильтрация по критериям. Если дать список из 50 мест и попросить "выбери топ-10 по моим интересам" — справится отлично. Если дать 5 ресторанов и попросить "выбери ближайший к музею" — тоже норм.

Как метод использует сильную сторону: Разбивает одну сложную задачу на серию простых. Каждый шаг решает одну проблему: найти транспорт, ранжировать места, оптимизировать географию. На выходе каждого шага — структурированные данные для следующего. Модель больше не жонглирует всеми факторами сразу, а последовательно обрабатывает по одному.

Рычаги управления:

  • Количество мест в топе (Шаг 2) → 10-15 для насыщенного плана, 5-7 для расслабленного
  • Радиус поиска ресторанов (Шаг 4) → 500м для пешей доступности, 2км если готов ездить
  • Критерий выбора отеля (Шаг 5) → "минимальное среднее расстояние" или "максимум в центре"
  • Детализация шага 6 → "только маршрут" или "с описанием каждого места"

📋

Шаблон промпта

ШАГ 1 — ТРАНСПОРТ:
Найди варианты {транспорт: поезда/самолёты} из {город_A} в {город_B} 
на {дата_туда} (туда) и {дата_обратно} (обратно). 
Перечисли варианты с временем и ценой.

ШАГ 2 — РАНЖИРОВАНИЕ:
Вот список из {N} мест в {город}: {список_мест}.
Ранжируй их по соответствию критериям: {критерии_пользователя}.
Выдай топ-{M}.

ШАГ 3 — ЧЕРНОВИК МАРШРУТА:
Из этих {M} мест создай черновик маршрута на {количество_дней}.
Учти часы работы и время на осмотр. Группируй места рядом друг с другом.

ШАГ 4 — РЕСТОРАНЫ:
Для каждого места в маршруте найди {X} ресторанов {тип_кухни} 
в радиусе {радиус}км. Укажи цену.

ШАГ 5 — ОТЕЛЬ:
Найди отель в районе {район}, ценой до {цена_за_ночь}/ночь,
рядом с местами из маршрута. Рассчитай среднее расстояние.

ШАГ 6 — ФИНАЛЬНЫЙ ПЛАН:
Собери финальный план: поминутное расписание на {даты},
с транспортом, отелем, маршрутом, ресторанами. Проверь бюджет {бюджет}.

Что подставлять:

  • {транспорт} — поезда / самолёты / автобусы
  • {критерии_пользователя} — "дворцы, музеи, пешая доступность" или "природа, активный отдых"
  • {M} — 10-15 для насыщенного плана, 5-7 для расслабленного
  • {X} — 2-3 ресторана на точку
  • {радиус} — 0.5-1км для пешей доступности, 2км с транспортом

🚀 Быстрый старт — вставь в чат:

Вот шаблон пошагового планирования путешествий. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит откуда-куда, даты, бюджет, предпочтения — это нужно для заполнения плейсхолдеров в каждом шаге. Она возьмёт паттерн из шаблона и создаст пошаговый план под твою поездку.


⚠️

Ограничения

⚠️ Требует многошаговости: Метод не работает "в один промпт" — нужно делать 5-6 последовательных запросов и передавать данные между ними. В веб-чате без API это ручная работа: копировать результат шага 1 → вставлять в шаг 2.

⚠️ Не решает слабость в географии: Даже с явной просьбой "группируй места рядом", LLM строит маршруты в 2-3 раза длиннее оптимальных. Модель не видит карту — она оценивает расстояния абстрактно по координатам.

⚠️ Зависит от качества данных: Если на шаге 2 в списке мест нет того, что нужно пользователю, финальный план будет слабым. Метод не заменяет поиск информации — он структурирует работу с уже найденными данными.

⚠️ Высокая цена токенов: 6 запросов вместо одного → в 6 раз больше токенов. Для длинных поездок (7 дней, 50+ мест в списке) может выйти дорого на o1/GPT-4o.


🔍

Как исследовали

Команда собрала реальный датасет из 40 городов Китая: 500,000+ POI (достопримечательности, отели, рестораны) с оценками, ценами, координатами, часами работы. Собрали 4,000 настоящих туристических планов с сайтов туристических агентств — с подробными маршрутами, отелями, ресторанами по дням. Для каждого плана сгенерировали пользовательский запрос типа "хочу 3 дня, горы, локальная кухня, бюджет 50,000₽".

Протестировали 6 моделей (GPT-4o, o1-mini, DeepSeek-V3, Qwen2.5) с 4 подходами: Direct (планируй сразу), Chain-of-Thought, ReAct, Reflexion. Сравнивали по трём измерениям:

  • Feasibility (осуществимость) — нет галлюцинаций, есть вся информация (отель, транспорт)
  • Rationality (рациональность) — не повторяются места, бюджет соблюдён, время на осмотр адекватное
  • Personalization (персонализация) — как близко к предпочтениям пользователя

Почему результаты такие: Direct-подход показал 6.7% success rate (GPT-4o) — модель пытается всё сделать сразу и теряется. ReAct и Reflexion не помогли — iterative рассуждения не компенсируют слабость в spatial reasoning. o1-mini показал лучше на коротких поездках (2-3 дня), но на длинных (4-7 дней) проваливался из-за галлюцинаций (78% feasibility vs 96.6% у GPT-4o) — reasoning усиливает выдумывание.

Инсайт для практики: Workflow decomposition (базовый подход) дал 63.7% success rate — в 9 раз лучше Direct. Почему? Разбивка на шаги снижает когнитивную нагрузку на модель. Но даже workflow не решает проблему географии — LLM строят маршруты в 3 раза длиннее человеческих (17км vs 7км между точками). Spatial reasoning — фундаментальная слабость: модели плохо понимают "близко-далеко" по координатам, не могут "представить карту".

Удивительно: строгие constraints ≠ качество. План может соблюдать все правила (бюджет, рейтинг отеля, тип мест), но быть хуже человеческого по маршруту, балансу активностей, глубине опыта. Personalization — самый сложный критерий: только 22.5% LLM-планов лучше человеческих по соответствию нюансам запроса.


🔗

Ресурсы

TripTailor: A Real-World Benchmark for Personalized Travel Planning Код и датасет Yuanzhe Shen, Kaimin Wang, Changze Lv, Xiaoqing Zheng, Xuanjing Huang School of Computer Science, Fudan University, Shanghai, China


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM точно следуют ограничениям («бюджет до 50,000₽», «отель 4★»), но планы всё равно плохие — только 7.5% дотягивают до человеческого уровня. Проблема не в правилах, а в трёх провалах: галлюцинации мест (только 78% планов без выдумок у o1-mini), маршруты в 3 раза длиннее оптимальных, игнорируют 65% нюансов запроса («люблю горы» → получаешь типовой план «всё популярное»). Метод позволяет получать качественные туристические планы — с реальными местами, оптимальными маршрутами и учётом всех предпочтений. Фишка: разбей «спланируй поездку» на 6 последовательных шагов — найти транспорт, ранжировать места по критериям, выбрать топ-N, найти рестораны рядом, выбрать отель, собрать финальный план. Каждый шаг решает одну простую задачу. Результат: 63.7% качественных планов против 7.5% у GPT-4o в режиме «один промпт» — почти в 9 раз лучше.

Принцип работы

Вместо «держи всё в голове» — делай по одной задаче за раз. Каждый шаг решает один фактор: Шаг 1 — транспорт, Шаг 2 — ранжирование мест, Шаг 3 — черновик маршрута, Шаг 4 — рестораны, Шаг 5 — отель, Шаг 6 — финальный план. Результат одного шага становится входом для следующего. Модель больше не жонглирует транспортом + бюджетом + географией + временем + предпочтениями одновременно. Она последовательно обрабатывает по одному фактору — сначала транспорт, потом места, потом географию.

Почему работает

LLM проваливается на многофакторной оптимизации. Когда просишь «спланируй поездку», модель должна одновременно думать о 5+ переменных — слишком много для удержания в контексте. Результат: забывает про бюджет (выходит за рамки), строит маршрут «север-юг-север-юг» вместо последовательного обхода (в 3 раза длиннее оптимального), игнорирует 65% нюансов запроса. Сильная сторона LLM — ранжирование и фильтрация по критериям. Дай список из 50 мест и попроси «выбери топ-10 по моим интересам» — справится отлично. Дай 5 ресторанов и попроси «выбери ближайший к музею» — тоже норм. Декомпозиция превращает одну сложную задачу в серию простых, где модель использует свою сильную сторону на каждом шаге.

Когда применять

Туристическое планирование → конкретно для сложных поездок (несколько городов, жёсткий бюджет, много персональных предпочтений), особенно когда промпт «в один заход» даёт маршрут с выдуманными местами или нелогичной географией. НЕ подходит: для простых задач (один город, один день, без ограничений) — там декомпозиция избыточна, достаточно обычного промпта.

Мини-рецепт

1. Транспорт: Найди варианты {поезда/самолёты} из {город_A} в {город_B} на {дата_туда} (туда) и {дата_обратно} (обратно). Перечисли с временем и ценой.

2. Ранжирование: Вот список из {N} мест в {город}: {список}. Ранжируй по критериям: {твои_предпочтения}. Выдай топ-{M}. (M = 10-15 для насыщенного плана, 5-7 для расслабленного)

3. Черновик маршрута: Из этих {M} мест создай маршрут на {количество_дней}. Учти часы работы, группируй места рядом друг с другом.

4. Рестораны: Для каждого места найди {X} ресторанов {тип_кухни} в радиусе {радиус}км. Укажи цену. (радиус 0.5-1км для пешей доступности)

5. Отель: Найди отель в районе {район}, до {цена}/ночь, рядом с местами из маршрута. Рассчитай среднее расстояние.

6. Финальный план: Собери план: расписание на {даты}, с транспортом, отелем, маршрутом, ресторанами. Проверь бюджет {бюджет}.

Быстрый старт: Вставь шаблон в чат и попроси Адаптируй под мою задачу: {описание_поездки}. Задавай вопросы для заполнения полей. — LLM заполнит плейсхолдеры и проведёт через все шаги.

Примеры

[ПЛОХО] : Спланируй 3-дневную поездку из Москвы в Санкт-Петербург, бюджет 30,000₽, интересуют дворцы и музеи, люблю грузинскую кухню, хочу гулять пешком, отель в районе Невского. (Модель выдаст план с: выдуманными музеями которых нет в СПб, маршрутом «Эрмитаж → Петергоф → снова центр» (geography провал), отелем за 8,000₽/ночь (бюджет слетел), итальянским рестораном вместо грузинского (игнорирует предпочтения))
[ХОРОШО] : Разбиваешь на 6 промптов по шаблону: Шаг 1: Найди поезда Москва → СПб на 15 марта (туда) и 17 марта (обратно). Время и цена. Шаг 2: Вот 50 достопримечательностей СПб: [список]. Ранжируй по: дворцы, музеи, пешая доступность. Топ-15. Шаг 3: Из этих 15 создай маршрут на 2 дня (16-17 марта). Часы работы, группируй рядом. Шаг 4: Для каждого места — 2-3 грузинских ресторана в радиусе 1км, с ценой. Шаг 5: Отель на Невском, до 5,000₽/ночь, рядом с маршрутом. Среднее расстояние до мест. Шаг 6: Собери план: расписание 15-17 марта, с транспортом, отелем, маршрутом, ресторанами. Бюджет 30,000₽. (Результат: конкретные поезда «Сапсан 10:00-14:30», реальные музеи и дворцы, маршрут без хаотичных перемещений, грузинские рестораны рядом с местами, отель в бюджете с оптимальным расположением)
Источник: TripTailor: A Real-World Benchmark for Personalized Travel Planning
ArXiv ID: 2508.01432 | Сгенерировано: 2026-01-12 03:00

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с