3,583 papers
arXiv:2506.11812 95 1 июня 2025 г. FREE

О производительности больших языковых моделей (LLMs) в оценке недвижимости

КЛЮЧЕВАЯ СУТЬ
Добавление в промпт 10 релевантных примеров (схожих по характеристикам и географически близких) значительно повышает точность предсказаний LLM, приближая их к специализированным ML-моделям.
Адаптировать под запрос
🔬

1. Несмотря на это, фундаментальная польза от описанной методики промптинга перевешивает эти недостатки.

📌

2. Ключевые аспекты исследования:

Это исследование изучает, как с помощью промпт-инжиниринга заставить языковые модели (LLM) точно оценивать стоимость недвижимости. Авторы сравнивают разные подходы и выясняют, что LLM показывает наилучшие результаты, когда в промпт добавляют около десяти примеров других объектов недвижимости, похожих как по характеристикам (площадь, число комнат), так и по расположению. При этом, хотя LLM хорошо понимают текстовые описания, они плохо справляются с "сырыми" данными вроде географических координат и склонны давать слишком самоуверенные прогнозы.

📌

3. Ключевой результат:

Добавление в промпт 10 релевантных примеров (схожих по характеристикам и географически близких) значительно повышает точность предсказаний LLM, приближая их к специализированным ML-моделям.


🔬

4. Объяснение всей сути метода:

Суть метода, который доказал свою эффективность в исследовании, — этопродвинутое обучение в контексте (Advanced In-Context Learning, ICL). Вместо того чтобы задавать LLM вопрос "в лоб" (zero-shot), пользователь сначала "обучает" модель прямо в окне чата, предоставляя ей несколько высококачественных примеров решения аналогичной задачи.

Методика для практического применения:

  1. Сформулируйте роль и задачу. Четко укажите, кем должна стать LLM (например, "опытный маркетолог") и что ей нужно сделать (например, "оценить потенциальный успех продукта").
  2. Подготовьте "обучающую выборку". Найдите 5-10 релевантных примеров из прошлого. "Релевантность", как показало исследование, должна быть двойной:
    • Сходство по характеристикам (hedonic similarity): Примеры должны быть похожи на ваш целевой объект по ключевым параметрам. Если вы оцениваете книгу, примеры должны быть того же жанра, с похожим объемом и т.д.
    • Сходство по контексту (geographic similarity): Примеры должны разделять с целевым объектом некий общий контекст. В исследовании это была география, но в других задачах это может быть временной период, целевая аудитория, рыночный сегмент и т.д.
  3. Структурируйте примеры. Опишите каждый пример в одинаковом, понятном формате, явно указывая входные данные (характеристики) и правильный ответ (результат).
  4. Добавьте внешний контекст (опционально). Если на результат влияют внешние тренды (как рыночные отчеты в исследовании), предоставьте краткую сводку этой информации перед примерами.
  5. Сделайте запрос. После всех примеров и контекста четко сформулируйте свой финальный вопрос по вашему целевому объекту, используя тот же формат, что и в примерах.
📌

5. Этот подход превращает LLM из "угадывателя" в аналитический инструмент, который делает вывод на основе предоставленных данных, а не только на своих общих знаниях.

📌

6. Анализ практической применимости:

*Прямая применимость:Метод можно использовать немедленно и без каких-либо технических навыков. Любой пользователь может открыть ChatGPT, собрать 5-10 примеров, касающихся его задачи, вставить их в промпт и получить более точный ответ. Это применимо для оценки резюме, выбора маркетинговой стратегии, анализа отзывов и сотен других задач, где есть структурированные данные.

  • Концептуальная ценность: Исследование дает пользователю три ключевых инсайта:
    1. LLM — это не "черный ящик" с готовыми ответами, а скорее очень способный "ученик", который лучше всего работает, когда ему показывают, как решать задачу.
    2. Качество важнее количества: несколько релевантных примеров в промпте полезнее, чем огромный, но нерелевантный контекст.
    3. У LLM есть "слепые зоны" (например, точные координаты, даты), и их нужно "объяснять" более понятным для модели языком (полные адреса, описания временных трендов).
📌

7. *Потенциал для адаптации:

Метод универсален. "Географическая близость" из исследования легко адаптируется под любую другую контекстную близость. Например, при анализе вакансий это может быть "близость по отрасли", при выборе фильма — "близость по режиссеру", при анализе научных статей — "близость по научной области". Механизм адаптации прост: определите 2-3 ключевые характеристики вашего объекта и 1-2 главных контекстных фактора, а затем подберите примеры, которые соответствуют этим критериям.

🚀

8. Практически пример применения:


Вот несколько примеров успешных кампаний, чтобы ты понял(а) логику:
Пример 1:
* Продукт: Онлайн-курс по программированию на Python для начинающих.
* Целевая аудитория: Студенты и молодые специалисты 18-25 лет, ищущие первую работу в IT.
* Успешная платформа: Telegram. (Причина: возможность создавать образовательные каналы, ботов для тестов, прямая коммуникация с аудиторией, популярность в IT-сообществе).
Пример 2:
* Продукт: Лимитированная коллекция дизайнерских украшений ручной работы.
* Целевая аудитория: Женщины 25-45 лет, с доходом выше среднего, ценящие эстетику и уникальность.
* Успешная платформа: Instagram*. (Причина: визуальный фокус, возможность демонстрации продукта через качественные фото и Reels, работа с лидерами мнений).
Пример 3:
* Продукт: B2B-платформа для автоматизации бухгалтерского учета.
* Целевая аудитория: Финансовые директора и владельцы малого/среднего бизнеса, 35-55 лет.
* Успешная платформа: LinkedIn. (Причина: профессиональная аудитория, возможность таргетинга по должности и отрасли, публикация экспертных статей).

МОЯ ЗАДАЧА:
Теперь, пожалуйста, дай свою рекомендацию для следующего продукта:

Продукт: Мобильное приложение для медитаций и ментального здоровья с короткими 5-минутными сессиями.
Целевая аудитория: Миллениалы и зумеры (18-35 лет), живущие в крупных городах, испытывающие стресс и интересующиеся саморазвитием.

Какую социальную сеть ты порекомендуешь и почему?
*принадлежит Meta, признанной в РФ экстремистской организацией.
5.2 Почему это работает:
Этот промпт эффективен, потому что он в точности реализует выводы исследования:

In-Context Learning (ICL): Вместо того чтобы полагаться на общие знания LLM о маркетинге, мы предоставляем ей мини-базу данных из трех успешных кейсов. Модель "обучается" на этих примерах в реальном времени.
Аналог "гедонистического" и "географического" сходства:
Характеристики продукта и ЦА (Продукт, Целевая аудитория) — это аналог "гедонистических" (hedonic) характеристик недвижимости. Модель учится сопоставлять тип продукта и аудиторию с платформой.
Сфера применения (образование, люкс, B2B) — это аналог "географического" контекста. Модель видит, что для разных сегментов рынка подходят разные площадки.

Структурированный запрос: Примеры и финальная задача имеют одинаковую, четкую структуру (Продукт, Целевая аудитория). Это помогает модели понять паттерн и применить его к новой задаче, а не галлюцинировать.

6.1 Другой пример практического применения
</code></pre>
</div>
<p>Вот несколько примеров карьерных треков, чтобы ты понял(а) логику:</p>
<p><strong>Пример 1:</strong>
* <strong>Навыки:</strong> Уверенное знание Python, основы статистики, любит работать с данными и находить закономерности.
* <strong>Интересы:</strong> Аналитика, машинное обучение.
* <strong>Успешное направление:</strong> Data Science. (Причина: сильная база в Python, прямой интерес к данным, высокий спрос на рынке).</p>
<p><strong>Пример 2:</strong>
* <strong>Навыки:</strong> Знание JavaScript (React), хороший визуальный вкус, нравится создавать красивые и удобные интерфейсы.
* <strong>Интересы:</strong> Веб-дизайн, пользовательский опыт (UX).
* <strong>Успешное направление:</strong> Frontend-разработка. (Причина: сочетание технических навыков в JS и креативных интересов, фокус на видимой части продукта).</p>
<p><strong>Пример 3:</strong>
* <strong>Навыки:</strong> Основы Java и SQL, сильные логические способности, интерес к сложным системам и архитектуре.
* <strong>Интересы:</strong> Производительность, надежность систем, работа с базами данных.
* <strong>Успешное направление:</strong> Backend-разработка. (Причина: подходящий стек технологий, склад ума, ориентированный на серверную логику и инфраструктуру).</p>
<hr/>
<p><strong>МОЯ ЗАДАЧА:</strong></p>
<p>Теперь, пожалуйста, дай свою рекомендацию для следующего специалиста:</p>
<ul>
<li><strong>Навыки:</strong> Знание Python и SQL, прошел курсы по Docker и основам облачных вычислений (AWS).</li>
<li><strong>Интересы:</strong> Автоматизация рутинных задач, развертывание приложений, обеспечение стабильной работы сервисов.</li>
</ul>
<p>Какое направление для развития ты порекомендуешь и почему?
`
🧠

9. Объяснение механизма почему этот пример работает.

Этот промпт работает по той же доказанной в исследовании механике, адаптированной под новую сферу:

  1. Обучение на примерах (ICL): LLM не просто дает общий совет, а строит свою рекомендацию на основе предоставленных "историй успеха". Она улавливает связь между набором навыков/интересов и подходящей IT-специализацией.
  2. Двойная релевантность:
    • "Гедонистическое" сходство: Навыки и Интересы выступают в роли ключевых характеристик, как площадь и количество комнат у дома.
    • "Географическое" сходство: Общий контекст здесь — это тип решаемых задач (работа с данными, с интерфейсом, с серверной логикой). Модель учится классифицировать кандидатов по этому неявному признаку.
  3. Фокус на паттерне: Промпт заставляет LLM не просто сопоставить ключевые слова (например, "Python" -> "Data Science"), а проанализировать комбинацию навыков и интересов. В целевой задаче есть Python, но интерес к автоматизации и развертыванию, а не к аналитике, направит модель к более релевантному ответу (например, DevOps или SRE), основываясь на логике из примеров.

📌

Основные критерии оценки

  • A. Релевантность техникам промптинга: Максимальная. Исследование целиком посвящено сравнению и оптимизации техник промптинга (zero-shot, few-shot, добавление контекста).
  • B. Улучшение качества диалоговых ответов: Высокая. Демонстрирует значительное снижение ошибки предсказания (MAPE) при использовании правильных промптов.
  • C. Прямая практическая применимость: Очень высокая. Методика добавления примеров (In-Context Learning) не требует кода или специальных инструментов и может быть немедленно применена в любом чат-боте.
  • D. Концептуальная ценность: Очень высокая. Раскрывает, что LLM могут эффективно решать задачи на структурированных данных, если их правильно "научить" примерами прямо в промпте. Объясняет ограничения LLM (слабое пространственное и временное мышление) и как их можно частично компенсировать.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • №1 (Техники формулирования): Является хрестоматийным примером эффективности few-shot ICL.
    • №2 (Поведенческие закономерности): Выявляет слабость LLM в обработке координат и дат, а также их склонность к чрезмерной уверенности.
    • №6 (Контекст и память): Демонстрирует, как добавление внешнего контекста (рыночных отчетов) и релевантных примеров улучшает качество вывода.
  • Чек-лист практичности (+15 баллов): Да, работа дает готовые конструкции, показывает как структурировать сложные запросы и раскрывает неочевидные особенности поведения LLM.
📌

2 Цифровая оценка полезности

Оценка 95 из 100 обусловлена исключительной практической ценностью исследования для любого пользователя, который хочет использовать LLM для задач, выходящих за рамки простого общения. Работа предоставляет четкий, воспроизводимый и универсальный метод улучшения качества ответов для задач, связанных с анализом и предсказанием на основе структурированных данных.

Аргументы в пользу оценки:

* Универсальность метода: Хотя исследование сфокусировано на недвижимости, его главный вывод — "предоставление 5-10 релевантных примеров в промпте кардинально улучшает результат" — применим к любой сфере: от маркетинга и HR до личной продуктивности.
* Четкая методология: Исследование не просто говорит "добавляйте примеры", а показывает, какие именно примеры работают лучше всего (смесь похожих по характеристикам и по "географии"/контексту).
* Концептуальные прорывы для пользователя: Объясняет, почему LLM иногда "не понимает" цифры (координаты) и как важно давать ей контекст (адреса, отчеты). Это формирует правильную "ментальную модель" взаимодействия с LLM.

Контраргументы (почему оценка могла быть ниже):

* Академичность: Статья написана сложным научным языком, что затрудняет ее понимание обычным пользователем без "перевода". Однако моя задача как эксперта — именно этот перевод и сделать.
* Узкая тема: Фокус на недвижимости может отпугнуть читателя, который ошибочно решит, что выводы применимы только к этой сфере.
* Ограниченность выводов по надежности: Работа выявляет проблему (сверхуверенность в прогнозах), но не дает простого решения для пользователя, как ее исправить.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с