3,583 papers
arXiv:2507.07251 92 9 июля 2025 г. FREE

LLM плохо отвечает на вопрос «что посоветуешь?».

КЛЮЧЕВАЯ СУТЬ
LLM плохо отвечает на вопрос «что посоветуешь?». Зато отлично справляется с другим: «вот конкретный вариант — оцени его от -1 до 1». Это не мелкая разница в формулировке, это смена задачи. Метод позволяет точно ранжировать список готовых вариантов — лучше, чем стандартные алгоритмы рекомендаций и лучше, чем обычный запрос в ChatGPT. Фишка: ты не просишь модель придумывать — ты заставляешь её оценивать. Подаёшь кандидата, детальный профиль предпочтений и пару примеров с уже известными оценками. Модель перестаёт выдумывать и начинает работать с твоими данными.
Адаптировать под запрос

Исследование предлагает гибридный метод для улучшения систем рекомендаций (например, фильмов). Вместо того чтобы LLM сама придумывала рекомендации, она используется как "умный фильтр" для переранжирования списка кандидатов, сгенерированного традиционным алгоритмом. Для этого создается очень подробный промпт, который включает текстовые предпочтения пользователя, примеры его любимых фильмов, а также метаданные (предпочтения по рейтингу, популярности, году выпуска), и LLM оценивает каждый фильм-кандидат по шкале от -1 до 1.

Ключевой результат: Такой подход, где LLM не генерирует, а оценивает по четким критериям, многократно превосходит по качеству как традиционные алгоритмы, так и простые запросы к LLM.

Суть метода заключается в том, чтобы превратить LLM из "советчика" в "оценщика". Вместо того чтобы просить модель "посоветуй мне что-нибудь", мы заставляем ее выполнить более строгую и полезную задачу: "Вот мой детальный профиль, а вот конкретный фильм. Оцени, насколько он мне подходит".

Это достигается с помощью сложного, многокомпонентного промпта, который является сердцем всего исследования.

Методика для пользователя:

  1. Определите Роль и Задачу: Четко скажите LLM, кем она должна быть ("Ты — эксперт по рекомендациям") и что именно сделать ("Оцени соответствие по шкале от -1.0 до 1.0 и отвечай только числом"). Это настраивает модель на аналитический лад.

  2. Создайте "Профиль Предпочтений": Не ограничивайтесь одним предложением. Соберите богатый контекст о своих вкусах:

    • Прямой запрос: Краткое описание того, что вы ищете ("Я люблю научную фантастику с глубокими философскими темами").
    • Положительные примеры (Few-shot): Перечислите 3-5 примеров того, что вам уже нравится ("Мои любимые фильмы: 'Матрица', 'Бегущий по лезвию'"). Это самый важный элемент, который "калибрует" понимание модели.
    • Мета-предпочтения: Добавьте дополнительные правила и ограничения ("Я предпочитаю фильмы с высоким рейтингом", "Мне нравятся популярные фильмы", "Предпочитаю фильмы, снятые между 1980 и 2020").
  3. Предоставьте "Кандидата для Оценки": Четко опишите объект, который нужно оценить, используя ту же структуру (название, описание, рейтинг и т.д.).

  4. Обучите на Примерах (In-context Learning): В самом промпте покажите модели 2-3 полных примера, как вы бы сами оценили разные фильмы (и хороший, и плохой мэтч). Это учит модель логике оценки и формату ответа.

По сути, вы не просите LLM найти иголку в стоге сена. Вы даете ей иголку и магнит (ваш профиль) и просите сказать, насколько сильно они притягиваются.

  • Прямая применимость: Очень высокая. Любой пользователь может взять структуру промпта из исследования (Рис. 3) и адаптировать ее для своих нужд в любом чат-боте (ChatGPT, Claude и др.). Вместо фильмов можно подставлять книги, музыкальные группы, рецепты, туристические направления. Пользователь может сам составить список из 5-10 "кандидатов" и попросить LLM оценить каждого, а затем выбрать лучшего.

  • Концептуальная ценность: Огромная. Исследование наглядно доказывает фундаментальный принцип промпт-инжиниринга: качество контекста определяет качество результата. Пользователь учится не просто "спрашивать", а "инструктировать", предоставляя модели структурированные данные, примеры и ограничения. Это меняет парадигму взаимодействия с LLM с диалога на постановку задачи.

  • Потенциал для адаптации: Метод легко адаптируется. Нужно лишь заменить "фильмы" на любую другую сущность и определить релевантные для нее метаданные. Например, для рекомендации ресторана это будут: тип кухни, ценовой диапазон, средняя оценка, район, наличие парковки. Механизм адаптации: 1) Определить цель (например, выбрать ресторан). 2) Собрать свой "профиль предпочтений" (любимые рестораны, тип кухни, бюджет). 3) Найти 3-5 кандидатов. 4) Попросить LLM оценить каждого кандидата по шкале, предоставив ей профиль и описание кандидата.

Ты — опытный консультант по выбору настольных игр. Твоя задача — оценить, насколько конкретная игра соответствует предпочтениям пользователя.

Всегда отвечай только числом от -1.0 до 1.0, где:
-1.0: совершенно не подходит.
0.0: нейтрально или недостаточно информации.
1.0: идеальное совпадение.

---
**ПРИМЕР 1:**
**Профиль пользователя:**
*   **Запрос:** "Мы ищем игру для компании из 4-5 человек. Любим кооперативные игры, где нужно вместе решать проблемы. Не любим игры, где кто-то один выбывает и ждет конца партии".
*   **Любимые игры:** "Пандемия", "Запретный остров".
*   **Предпочтения:** Короткие партии (до 60 минут), простые правила.

**Игра для оценки:**
*   **Название:** "Мафия"
*   **Описание:** Командная психологическая пошаговая ролевая игра с детективным сюжетом, моделирующая борьбу информированных друг о друге членов организованного меньшинства с неорганизованным большинством. Игроки выбывают по ходу игры.

**Твоя оценка:**
-0.8

---
**ПРИМЕР 2:**
**Профиль пользователя:**
*   **Запрос:** "Ищу глубокую стратегическую игру для двоих. Люблю строить свою цивилизацию или экономику. Готов разбираться в сложных правилах".
*   **Любимые игры:** "7 Чудес: Дуэль", "Серп".
*   **Предпочтения:** Высокая реиграбельность, минимум случайности.

**Игра для оценки:**
*   **Название:** "Катан (Колонизаторы)"
*   **Описание:** Игрокам предстоит выступить в роли мирных поселенцев, которые осваивают остров Катан. Нужно добывать ресурсы, строить поселения и города. Победа сильно зависит от бросков кубиков.

**Твоя оценка:**
0.2

---
**ТЕПЕРЬ ТВОЯ ЗАДАЧА:**

**Профиль пользователя:**
*   **Запрос:** "Нужна веселая и быстрая игра для вечеринок, чтобы можно было играть большой компанией (6+ человек). Главное — смех и общение, а не сложная стратегия".
*   **Любимые игры:** "Кодовые имена", "Элиас", "Диксит".
*   **Предпочтения:** Простые правила, которые можно объяснить за 5 минут, активное взаимодействие между игроками.

**Игра для оценки:**
*   **Название:** "Взрывные котята"
*   **Описание:** Это высокостратегическая, кошачья версия русской рулетки. Игроки тянут карты, пока кто-то не вытащит Взрывного Котенка, после чего он взрывается, выбывает из игры, и проигрывает. Можно использовать другие карты, чтобы заглянуть в колоду, заставить соперника взять несколько карт или перемешать колоду.

**Оцени, насколько эта игра соответствует интересам пользователя (ответь только числом в диапазоне [-1.0, 1.0]):**

Этот промпт эффективен, потому что он не просит LLM дать расплывчатый совет, а заставляет ее провести структурированный анализ по аналогии:

  1. Роль и формат вывода: Инструкция "Ты — опытный консультант" и "отвечай только числом" переключает модель из режима чат-бота в режим аналитического инструмента.
  2. Обучение на примерах (Few-shot): Примеры с "Мафией" и "Катаном" не просто показывают формат ответа. Они "калибруют" модель: она видит, что выбывание игроков — это негативный фактор для первого пользователя (оценка -0.8), а высокая случайность — негативный для второго (оценка 0.2).
  3. Декомпозиция предпочтений: Профиль пользователя разбит на три части: общий запрос, конкретные примеры ("Любимые игры") и явные ограничения ("простые правила"). Это дает модели богатый, многогранный контекст, позволяя ей понять "дух" предпочтений, а не только ключевые слова.
  4. Сфокусированная задача: Вместо открытого вопроса "что посоветуешь?", мы ставим закрытый вопрос "оцени вот это". Это снижает вероятность галлюцинаций и заставляет модель работать с предоставленными данными, а не со своими общими знаниями.
Ты — ИИ-помощник для выбора онлайн-курсов. Твоя задача — оценить, насколько конкретный курс подходит под цели и предпочтения пользователя.

Всегда отвечай только числом от -1.0 до 1.0, где:
-1.0: совершенно не подходит.
0.0: нейтрально или недостаточно информации.
1.0: идеальное совпадение.

---
**ПРИМЕР 1:**
**Профиль пользователя:**
*   **Цель:** "Я — начинающий маркетолог, хочу получить практические навыки в SMM. Мне нужна структурированная программа с домашними заданиями и обратной связью от куратора".
*   **Успешный опыт:** Проходил курс по основам дизайна на Coursera, понравилась четкая структура и сертификат.
*   **Предпочтения:** Видео-лекции, практические задания, наличие куратора, итоговый проект для портфолио.

**Курс для оценки:**
*   **Название:** "SMM-продвижение для бизнеса за 30 дней"
*   **Описание:** Интенсивный курс из 10 вебинаров в записи. Доступ в закрытый чат с другими участниками. Домашних заданий и проверки нет.

**Твоя оценка:**
-0.5

---
**ТЕПЕРЬ ТВОЯ ЗАДАЧА:**

**Профиль пользователя:**
*   **Цель:** "Я — опытный программист, хочу быстро разобраться в новой для меня технологии — Docker. Мне не нужна вода и основы, нужен концентрат информации от эксперта, чтобы сразу применять в работе".
*   **Успешный опыт:** Покупал короткие, емкие курсы на Udemy по конкретным фреймворкам.
*   **Предпочтения:** Короткие лекции (5-15 минут), фокус на практике, без домашних заданий, доступ к материалам навсегда.

**Курс для оценки:**
*   **Название:** "Docker и Kubernetes: Полное руководство для начинающих"
*   **Описание:** Комплексный курс на 40 часов. Подробно разбираются основы сетей, работа с Linux. Первые 10 часов посвящены теории для новичков. Курс включает еженедельные домашние задания с проверкой.

**Оцени, насколько этот курс соответствует интересам пользователя (ответь только числом в диапазоне [-1.0, 1.0]):**

Этот пример работает по тем же принципам, что и предыдущий, но в другой предметной области, что доказывает универсальность подхода:

  1. Контекстуализация через роль: "ИИ-помощник для выбора онлайн-курсов" сразу задает правильный фреймворк для анализа.
  2. Понимание через противопоставление: В задаче профиль "опытного программиста", которому нужен "концентрат информации", противопоставляется курсу "для начинающих" с "подробным разбором основ". Модель, обученная на первом примере, легко улавливает это несоответствие.
  3. Значимость "негативных" предпочтений: Указание "без домашних заданий" в профиле пользователя становится ключевым фактором для низкой оценки курса, где ДЗ являются частью программы. Это учит пользователя формулировать не только то, что он хочет, но и то, чего он хочет избежать.
  4. Аналогия с реальным миром: Метод имитирует то, как человек принимает решение. Мы не ищем "идеальный курс" в вакууме. Мы находим несколько вариантов и последовательно сравниваем их с нашим внутренним "чек-листом" требований. Этот промпт просто формализует данный процесс для LLM.
📌

Основные критерии оценки

  • A. Релевантность техникам промптинга: Да. Исследование представляет собой подробный чертеж для создания сложного, структурированного промпта, который заставляет LLM выполнять задачу оценки, а не просто генерации.
  • B. Улучшение качества диалоговых ответов: Да. Метод напрямую нацелен на повышение персонализации и релевантности ответов (рекомендаций), что является ключевым аспектом качества.
  • C. Прямая практическая применимость: Да. Хотя пользователь не может воссоздать всю систему (с алгоритмами SVD), он может полностью скопировать и адаптировать логику и структуру промпта для получения высококачественных рекомендаций в обычном чате с LLM.
  • D. Концептуальная ценность: Очень высокая. Исследование наглядно демонстрирует, почему предоставление богатого, структурированного контекста (предпочтения, примеры, метаданные) намного эффективнее простых запросов.
  • E. Новая полезная практика (кластеры): Работа попадает сразу в несколько ключевых кластеров:
    • №1 (Техники формулирования): Использование Few-shot примеров для обучения модели задаче "на лету".
    • №3 (Оптимизация структуры): Демонстрация высокоструктурированного промпта с четкими разделами.
    • №5 (Извлечение и структурирование): Промпт нацелен на извлечение конкретного числового значения (оценки).
    • №6 (Контекст и память): Весь метод построен на эффективной подаче контекста о предпочтениях пользователя.
  • Чек-лист практичности (+15 баллов): Да, все пункты чеклиста в той или иной мере затронуты. Работа дает готовые конструкции, показывает, как структурировать запрос и раскрывает, как заставить LLM выполнять аналитическую, а не описательную задачу.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (92/100): Эта работа — настоящий мастер-класс по созданию промптов для сложных задач суждения и оценки. Она предлагает не просто идею, а готовый, воспроизводимый шаблон (Рис. 3 в статье), который можно адаптировать для любой сферы — от выбора книг и музыки до планирования путешествий и подбора хобби. Ключевая ценность для пользователя — это демонстрация того, как перейти от простых запросов ("посоветуй фильм") к созданию детализированного "профиля предпочтений" прямо в промпте, что кардинально повышает качество ответа. Это одна из самых полезных техник для продвинутого пользователя.

Контраргументы (почему не 100): * Фокус на системе: Основной фокус статьи — на гибридной системе (SVD + LLM), а не только на промпт-инжиниринге. Неопытный пользователь может решить, что метод бесполезен без доступа к таким сложным системам, хотя на самом деле ценность заключается именно в структуре промпта, которую можно использовать с любой LLM. * Требует адаптации: Хотя шаблон универсален, его применение к другим областям требует от пользователя осмысления и адаптации — нужно самостоятельно определить, какие "метаданные" (аналоги рейтинга IMDb, популярности) важны в его задаче.


📋 Дайджест исследования

Ключевая суть

LLM плохо отвечает на вопрос «что посоветуешь?». Зато отлично справляется с другим: «вот конкретный вариант — оцени его от -1 до 1». Это не мелкая разница в формулировке, это смена задачи. Метод позволяет точно ранжировать список готовых вариантов — лучше, чем стандартные алгоритмы рекомендаций и лучше, чем обычный запрос в ChatGPT. Фишка: ты не просишь модель придумывать — ты заставляешь её оценивать. Подаёшь кандидата, детальный профиль предпочтений и пару примеров с уже известными оценками. Модель перестаёт выдумывать и начинает работать с твоими данными.

Принцип работы

Стандартный подход: «посоветуй что-нибудь похожее на 'Матрицу'». Модель что-то выдаёт — в меру правдоподобно, в меру мимо. Этот метод: сначала собираешь 5-10 кандидатов любым способом. Потом для каждого даёшь модели три вещи: профиль предпочтений (что любишь + конкретные примеры + ограничения), описание кандидата, 2-3 калибровочных примера с известными оценками. Модель отвечает числом — от -1.0 до 1.0. Больше ничего. Закрытый вопрос про конкретный объект — это принципиально другая задача для модели. Она работает с тем, что ты дал, а не лезет в собственные ассоциации. Профиль предпочтений устроен в три слоя: прямой запрос словами («ищу мрачный детектив»), любимые примеры («нравятся 'Острые козырьки', 'Настоящий детектив'»), мета-правила («только если рейтинг выше 8, не старше 2010 года»). Три слоя вместе дают модели понимание «духа» предпочтений, а не просто ключевые слова.

Почему работает

Открытый вопрос «что посоветуешь?» — это запрос на генерацию из ничего. Модель опирается на общие знания и усредняет. Результат: популярные варианты, которые ты уже знаешь, или случайные угадки. Закрытый вопрос «оцени вот это» — это аналитическая задача. Модель сравнивает конкретный объект с конкретным профилем. Гадать не нужно, есть данные для работы. Вероятность выдумывать то, чего нет, резко падает. Калибровочные примеры в промпте — ключевой элемент. Ты показываешь модели свою логику оценки на двух случаях: один очевидно подходит (оценка 0.8), другой очевидно нет (оценка -0.7). Модель улавливает, какие именно факторы для тебя важны. Без этих примеров модель угадывает твои критерии. С ними — применяет твои. Разбивка профиля на три части (запрос + примеры + ограничения) тоже не случайна. Это снижает вес одного плохо сформулированного предложения. Если запрос «размытый», примеры уточняют. Если примеры «широкие», ограничения сужают.

Когда применять

Любой выбор из списка кандидатов: фильмы, сериалы, книги, онлайн-курсы, рестораны, настольные игры, инструменты, поставщики. Особенно хорошо работает когда кандидатов 5-20 и нужно расставить их по приоритетам. Или когда ты уже знаешь несколько вариантов, но не понимаешь с чего начать. НЕ подходит: когда нет вообще никаких кандидатов и нужно открытие с нуля. Метод оценивает, а не ищет — иголку из стога сена он не достанет, зато скажет какая из трёх иголок острее.

Мини-рецепт

1. Задай роль и формат вывода: «Ты — эксперт по [область]. Оцени соответствие по шкале от -1.0 до 1.0. Отвечай только числом.» Это переключает модель из режима болтовни в режим анализа.

2. Собери профиль предпочтений в три слоя:
— Прямой запрос: «Ищу [что именно] с [ключевые характеристики]»
— Любимые примеры: 3-5 конкретных вещей, которые уже нравятся
— Мета-правила: ограничения по дате, рейтингу, формату, бюджету — всё что важно

3. Добавь 2 калибровочных примера прямо в промпт: один очевидно хороший кандидат с оценкой 0.7-0.9, один плохой с оценкой от -0.5 до -0.9. Покажи модели свою логику — не рассказывай, а демонстрируй.

4. Найди 5-10 кандидатов: через поиск, живые советы, каталоги, другой запрос к той же модели. Не обязательно идеальных — нужны варианты для сравнения.

5. Прогони каждого кандидата: вставь профиль + описание кандидата + попроси оценку. Одним запросом или по одному — без разницы.

6. Отсортируй по оценке и начни с тех, кто получил выше 0.6.

Примеры

[ПЛОХО] : Посоветуй мне сериал, я люблю детективы
[ХОРОШО] : Ты — эксперт по сериалам. Оцени от -1.0 до 1.0, насколько сериал подходит пользователю. Отвечай только числом. Профиль пользователя: — Запрос: психологические триллеры с неожиданными поворотами, атмосфера важнее экшена — Любимые: «Тёмное» (Dark), «Острые козырьки», «Настоящий детектив S1» — Ограничения: не больше 3 сезонов, рейтинг IMDb от 8.0, без откровенного насилия ради насилия ПРИМЕР 1: Сериал: «Чёрное зеркало» — антология об обществе и технологиях, психологическое напряжение, минимум насилия, IMDb 8.8 Оценка: 0.8 ПРИМЕР 2: Сериал: «Перехват» — криминальный экшен, упор на погони и перестрелки, 4 сезона, IMDb 7.1 Оценка: -0.6 ТЕПЕРЬ ОЦЕНИ: Сериал: «Задержанный» — детектив, 6 серий, медленное напряжение, флешбэки, финал неожиданный, IMDb 8.4, без экшен-сцен Оцени:
Источник: A Language-Driven Framework for Improving Personalized Recommendations: Merging LLMs with Traditional Algorithms
ArXiv ID: 2507.07251 | Сгенерировано: 2026-03-02 17:49

Проблемы LLM

ПроблемаСутьКак обойти
В режиме советчика модель игнорирует твой контекстСпрашиваешь "что посоветуешь?". Модель генерирует из своих общих знаний. Твои конкретные вкусы, примеры и ограничения — уходят на второй план. Чем открытее вопрос, тем меньше модель работает с тем, что ты дал.Переключи модель в режим оценщика. Не "придумай что-то", а "вот конкретный вариант — оцени его для меня по шкале от -1 до 1". Тогда модель анализирует то, что ты дал, а не генерирует своё.

Методы

МетодСуть
Трёхчастный профиль для точной оценкиСобери профиль предпочтений из трёх слоёв. 1. Запрос: одно предложение о цели ("хочу кооперативную игру до 60 минут"). 2. Примеры: 3–5 вещей, которые уже нравятся ("Пандемия", "Запретный остров"). 3. Ограничения: чего явно не хочешь ("без выбывания игроков", "без сложных правил"). Дай модели конкретного кандидата и попроси оценить его по шкале от -1 до 1. Добавь 1–2 примера оценки прямо в запрос: покажи хороший и плохой мэтч с готовыми числами. Почему работает: каждый слой закрывает пробел. Запрос — направление. Примеры — "дух" вкуса, который словами не передать. Ограничения — фильтрует то, что внешне похоже, но не подходит. Примеры с оценками показывают логику: модель видит, за что дали -0.8, и применяет ту же логику к новому кандидату. Когда применять: выбираешь из нескольких вариантов. Работает для любых объектов — фильмы, курсы, рестораны, книги. Не работает: когда кандидатов нет — нечего оценивать.
📖 Простыми словами

Языковой фреймворк для улучшения персонализированных рекомендаций: объединение LLM с традиционными алгоритмами

arXiv: 2507.07251

Традиционные рекомендательные системы — это тупые калькуляторы, которые смотрят на твои прошлые клики и пытаются подсунуть что-то похожее. Проблема в том, что они не понимают контекста: если ты купил дрель, тебе не нужны еще десять дрелей, тебе нужны сверла или полка. Исследование 2507.07251 предлагает скрестить эти старые алгоритмы с LLM, чтобы нейронка работала как «мозги», понимающие логику пользователя, а классический код — как «библиотекарь», который быстро ищет по базе.

Это как если бы ты пришел в огромный книжный магазин, где работает глухонемой робот и очень умный, но медленный консультант. Робот может за секунду оббежать все полки, но не понимает разницы между «хочу что-то грустное» и «хочу учебник по психологии депрессии». В этом фреймворке консультант (LLM) сначала анализирует твой сложный запрос, переводит его на понятный язык параметров, а потом дает команду роботу принести конкретные стопки книг. Формально работают оба, но результат на порядок адекватнее.

Суть метода в том, что LLM не просто гадает, а использует структурированный анализ по аналогии. Она берет твой профиль, находит в нем скрытые паттерны и формулирует гипотезу: «этому юзеру нравится не просто фантастика, а истории про выживание в космосе с упором на биологию». Затем включается традиционный алгоритм, который фильтрует миллионы товаров по этим точным критериям. Такой гибрид убирает главную проблему нейронок — их склонность к галлюцинациям и медлительность при работе с большими данными.

Хотя тестировали это на товарных рекомендациях, принцип универсален. Эту схему можно натянуть на подбор контента в соцсетях, поиск музыки или даже корпоративные базы знаний. Везде, где есть гора данных и капризный пользователь, связка «умный интерпретатор + быстрый поисковик» работает лучше, чем любая попытка заставить LLM делать всё в одиночку. SEO для товаров превращается в семантический подбор, где важно не количество ключевых слов, а то, насколько точно описание попадает в логику нейронки.

Короче, эпоха простых фильтров «по цене» и «по популярности» заканчивается. Будущее за системами, которые понимают, почему ты это ищешь, и умеют быстро достать нужное из кучи хлама. Если твой бизнес до сих пор рекомендует товары по принципу «с этим также покупают», ты уже проиграл тем, кто внедряет Language-Driven Framework. Либо ты учишь свои алгоритмы понимать человеческий язык, либо твои клиенты уйдут туда, где их понимают с полуслова.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с