arXiv:2604.14972 76 16 апр. 2026 г. FREE

SAGER: персональный «профиль мышления» — как LLM учится рекомендовать под тебя

КЛЮЧЕВАЯ СУТЬ

Чем больше рассказываешь о своих вкусах в промпте — тем хуже модель для тебя работает. Это измеренный эффект: профиль длиннее 100 токенов снижает точность рекомендаций на gpt-4o-mini. Метод SAGER позволяет строить персональный «фильтр вкуса», который работает именно потому что он короткий — 20–25 слов. Фишка: полный профиль хранишь отдельно, а в промпт каждый раз инжектируешь только суть в формате likes: [что нравится] | style: [как решаешь]. Добавляешь команду «расставь по порядку» вместо «оцени каждый» — и модель перестаёт ставить всем по 7-8 баллов и начинает делать реальные различия.

Адаптировать под запрос

⚡

TL;DR

SAGER — исследование о том, что у AI-рекомендаций есть два слоя персонализации: что знать о пользователе и как думать за него. Большинство систем обновляет только первый слой — копит факты о предпочтениях. SAGER доказывает, что второй слой столь же важен: у каждого пользователя должен быть свой «документ принципов принятия решений», который тоже эволюционирует.

Главная находка — парадокс инъекции: когда вы даёте модели больше контекста о себе, качество ответов сначала растёт, потом резко падает. Оптимальная длина профиля — около 30 токенов (~20–25 слов). Вы просите "запомни всё о моих вкусах" и пишете 300 слов — а модель начинает хуже работать, потому что внимание распыляется на общие слова и теряет фокус на вашем запросе.

Второй ключевой инсайт: modели лучше ранжируют, чем оценивают. Попросить "расставь по порядку" точнее, чем "поставь оценку каждому". При оценке модель сжимает всё в узкий диапазон и теряет различия. При ранжировании — вынуждена делать чёткие различия между вариантами.

🔬

Схема метода

ШАГ 1: ПРОФИЛЬ (полный)
  Храни: Core Preferences + Behavioral Patterns + Ranking Criteria
  Формат: структурированный документ ~1500 символов

ШАГ 2: ИНЪЕКЦИЯ (сжатая) — в одном промпте с запросом
  Извлекай из полного профиля: "likes: [тема1, тема2] | style: [паттерн]"
  Лимит: ~30 токенов / 20–25 слов

ШАГ 3: ЗАПРОС — ранжирование, не оценка
  Не: "оцени каждый вариант от 1 до 10"
  А: "расставь по убыванию предпочтительности, учитывая мой профиль"

ШАГ 4: ОБНОВЛЕНИЕ — после получения результата
  REINFORCE: что из профиля подтвердилось? → повысить уверенность
  DISCOVER: что новое проявилось? → добавить с низкой уверенностью
  WEAKEN: что противоречит профилю? → понизить, не удалять
  Формат: structured diff, не переписывать с нуля

Шаги 1–3 выполняются в одном промпте. Шаг 4 — отдельный запрос после получения результата.

🚀

Пример применения

Задача: Паша ведёт Telegram-канал о технологиях, регулярно просит ChatGPT помочь выбрать темы для постов из длинного списка идей. Раньше кидал весь список и просил оценить — получал невнятное "все хорошие". Теперь хочет сделать так, чтобы модель знала его редполитику и выбирала точнее.

Промпт:

Мой профиль редактора: likes: практические разборы, кейсы малого бизнеса, российские стартапы | style: скептик, избегает хайпа

Вот 8 идей для постов на следующую неделю:
1. Разбор как Wildberries изменил алгоритм выдачи
2. Что такое квантовые компьютеры — просто о сложном
3. Кейс: как магазин на Авито вырос x5 за 3 месяца
4. Почему AGI наступит уже через год (мнение Альтмана)
5. Как небольшая пекарня автоматизировала заказы через бот
6. Топ-10 AI-инструментов 2025
7. Подкаст Илона Маска: главные цитаты
8. Разбор провала одного российского edtech-стартапа

Расставь все 8 по убыванию — от самой подходящей для моего канала к наименее подходящей.
Поясни топ-3 выбора одной фразой каждый.

Результат: Модель выдаст строгий список от 1 до 8 — без размытых оценок. Топ-3 получат краткое обоснование, почему они попали вверх относительно профиля. Идеи с хайпом (AGI, цитаты Маска) окажутся внизу. Кейсы малого бизнеса и разборы — вверху. После выбора темы — можно отдельным запросом обновить профиль через REINFORCE/DISCOVER/WEAKEN.

🧠

Почему это работает

Слабость LLM при оценке. Попросишь поставить оценку 1–10 десяти вариантам — модель поставит всем 7–8. Это не лень, это механика: каждый вариант оценивается в изоляции, без сравнения с другими. В итоге всё сливается в один диапазон и различия теряются.

Сила LLM в сравнении. Модели легче ответить "что из этих двух лучше", чем "насколько хорошо вот это". Ранжирование заставляет делать чёткий выбор — и это то, что модель умеет хорошо. Именно поэтому замена "оцени" на "расставь по порядку" сразу даёт более острые результаты.

Парадокс инъекции — главный практический вывод. Чем длиннее ваш "профиль" в промпте, тем больше токенов модель тратит на переработку общих слов — и меньше "внимания" остаётся на сам запрос и варианты. 30 токенов (~20–25 слов) — это точка, где профиль ещё работает как фильтр, но не забивает контекст. Это не интуиция — это измеренный эффект: при 100+ токенах качество падает.

Рычаги управления: - Длина профиля → держи ~20–25 слов. Хочешь добавить нюанс — не расширяй, а заменяй менее важное - Формат профиля → likes: [что нравится] | style: [как принимаешь решения] — компактнее, чем абзацы - Количество вариантов в ранжировании → 5–10 оптимально; больше 15 — качество падает - Обновление профиля → не переписывай, а корректируй уверенность: "добавь с низким приоритетом", "повысь уверенность в пункте X"

📋

Шаблон промпта

Мой профиль: likes: {предпочтение_1}, {предпочтение_2} | style: {паттерн_принятия_решений}

Вот {число} вариантов:
{список_вариантов_с_нумерацией}

Расставь все по убыванию — от наиболее подходящего для моего профиля 
к наименее подходящему.
Поясни топ-{N} выбора одной фразой каждый.

Что подставлять: - {предпочтение_1}, {предпочтение_2} — 2–3 темы или типа контента, которые тебе важны. Конкретно: не "интересный контент", а "практические кейсы малого бизнеса" - {паттерн_принятия_решений} — одна фраза о стиле: "минимализм и практичность", "скептик, избегает хайпа", "ориентир на ROI" - {список_вариантов} — нумерованный список; 5–10 вариантов оптимально - {N} — сколько пояснений хочешь (1–3 обычно достаточно)

Шаблон обновления профиля (после выбора):

Мой текущий профиль: 
{текущий_профиль}

Я выбрал вариант: {что_выбрал}
Не выбрал: {что_отверг}

Обнови профиль по правилам:
- REINFORCE: что из профиля подтвердилось выбором? Повысь уверенность.
- DISCOVER: что новое проявилось, чего не было в профиле? Добавь с низкой уверенностью.
- WEAKEN: что явно противоречит выбору? Понижай, не удаляй — одна негативная точка не ломает паттерн.

Верни обновлённый профиль в формате: likes: ... | style: ...

🚀 Быстрый старт — вставь в чат:

Вот шаблон для персонального профиля и ранжирования вариантов. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о твоих предпочтениях и стиле решений — потому что без этого "slim profile" будет пустым, а именно он делает ранжирование персональным. Она возьмёт структуру шаблона и адаптирует под твой контекст.

⚠️

Ограничения

⚠️ Субъективные задачи без чётких критериев: Если нет ясного "профиля вкуса" — нечего сжимать в 30 токенов. Метод работает там, где предпочтения можно сформулировать.

⚠️ Первые 2–3 итерации слабее: Профиль холодный, пока нет истории выборов. Точность ранжирования растёт по мере обновлений.

⚠️ Полная система требует инфраструктуры: SAGER целиком — это пайплайн с кодом, API, графами памяти. В чате применимы принципы (slim injection, listwise ranking, contrastive update), не вся система.

⚠️ Граница в 30 токенов — не жёсткий закон: Исследование проводилось на gpt-4o-mini. Для других моделей порог может смещаться. Но принцип "короткий профиль лучше длинного" держится.

🔗

Ресурсы

SAGER: Self-Evolving User Policy Skills for Recommendation Agent — Zhen Tao, Riwei Lai, Chenyun Yu, Weixin Chen, Li Chen, Beibei Kong, Lei Cheng, Chengxiang Zhuo, Zang Li, Qingqiang Sun

Great Bay University, Hong Kong Baptist University, Sun Yat-Sen University, Tencent (Platform and Content Group)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Модель смотрит на каждый вариант отдельно, а не рядом с другими. Поэтому при запросе «оцени 1-10» всё сползает в 7-8: нет сравнения, только изоляция. Ранжирование ломает эту схему — кто-то должен стать первым, кто-то последним, выбора нет. Это как разница между «поставь оценку каждому кандидату» и «выбери лучшего из трёх» — второй вопрос вынуждает думать по-другому. С длиной профиля та же логика наоборот: внимание модели ограничено, длинный профиль «съедает» место — меньше остаётся на сам запрос и варианты.

Почему работает

LLM плохо работает с оценками в абсолютных числах. Каждый вариант оценивается в одиночку — без оглядки на соседей. Итог: математически ненулевые, но бесполезные результаты — разница между вариантами исчезает. При ранжировании у модели нет выхода: она вынуждена делать чёткий выбор. С длиной профиля работает парадокс инъекции: 30 токенов — точка баланса, где информация ещё работает как фильтр, но не забивает контекст. При 100+ токенах качество падает — модель тратит внимание на переработку общих слов вместо самого запроса. Важно: исследование проводилось на gpt-4o-mini, для других моделей порог может немного смещаться, но принцип держится.

Когда применять

Для любой задачи с регулярным выбором из вариантов: подбор тем для контента, фильтрация идей, выбор статей, товаров, решений. Особенно ценно когда работаешь с LLM постоянно — и хочешь, чтобы модель «помнила» твои предпочтения без переобъяснения каждый раз. Обновляемый профиль становится острее с каждым выбором. НЕ подходит для разовых задач без чётких предпочтений — нечего сжимать в 20 слов, если ты сам не знаешь что хочешь.

Мини-рецепт

1. Создай slim-профиль за 5 минут: напиши предпочтения максимум в 20–25 слов: likes: {тема1}, {тема2} | style: {как принимаешь решения}. Конкретно — не «интересный контент», а «практические кейсы малого бизнеса, скептик, избегает хайпа»
2. Добавляй одной строкой сверху: до описания задачи, в каждый запрос на выбор вариантов
3. Меняй «оцени» на «расставь»: не «оцени каждый вариант», а «расставь все N по убыванию, от наиболее подходящего к наименее». 5–10 вариантов — оптимум; больше 15 — точность падает
4. Обнови профиль после выбора: в отдельном промпте скажи что взял и что отверг. Попроси усилить подтверждённое, добавить новое с низкой уверенностью, не удалять противоречия — одна точка не ломает паттерн

Примеры

[ПЛОХО] :

Вот 8 идей для постов на следующую неделю. Оцени каждую по 10-балльной шкале.

[ХОРОШО] :

Мой профиль: likes: практические кейсы, российские стартапы | style: скептик, избегает хайпа

Вот 8 идей для постов:
1. Разбор как Wildberries изменил алгоритм выдачи
2. Что такое квантовые компьютеры — просто о сложном
3. Кейс: как магазин на Авито вырос x5 за 3 месяца
4. Почему AGI наступит уже через год (мнение Альтмана)
5. Как небольшая пекарня автоматизировала заказы через бот
6. Топ-10 AI-инструментов 2025
7. Подкаст Илона Маска: главные цитаты
8. Разбор провала одного российского edtech-стартапа

Расставь все 8 по убыванию — от самой подходящей для моего профиля к наименее подходящей. Поясни топ-3 одной фразой каждый.

Источник: SAGER: Self-Evolving User Policy Skills for Recommendation Agent

ArXiv ID: 2604.14972 | Сгенерировано: 2026-04-17 05:28

Проблемы LLM

Проблема	Суть	Как обойти
Длинный профиль в запросе снижает точность	Даёшь модели большой контекст о себе — 100+ слов о предпочтениях. Кажется, это поможет. На деле становится хуже. Модель тратит внимание на общие слова профиля. На сам запрос и варианты внимания остаётся меньше. Работает наоборот: чем длиннее профиль — тем слабее результат	Сжимай профиль до 20–25 слов. Формат: `likes: [тема1, тема2] \| style: [паттерн решений]`. Например: `likes: практические кейсы, малый бизнес \| style: скептик, избегает хайпа`. Хочешь добавить нюанс — не расширяй, а заменяй менее важное

Методы

Метод Суть

Ранжирование вместо оценки Просишь оценить 10 вариантов по шкале 1–10 — получаешь 7–8 для всех. Различий нет. Вместо этого проси: расставь все варианты по убыванию — от наиболее подходящего к наименее подходящему. Почему работает: при оценке каждый вариант разбирается отдельно, без сравнения с остальными. При ранжировании модель вынуждена выбирать: этот выше того. Сравнение — то, что модель делает хорошо. Оптимально: 5–10 вариантов. Больше 15 — качество падает. Добавь поясни топ-3 выбора одной фразой — получишь обоснование

Трёхступенчатое обновление хранимого контекста Когда копишь «профиль» или «память» модели через несколько сессий — не переписывай с нуля каждый раз. Используй три операции. REINFORCE: что подтвердилось выбором → повысь уверенность в этом пункте. DISCOVER: что новое проявилось, чего не было → добавь с низкой уверенностью. WEAKEN: что противоречит → понижай, не удаляй. Почему работает: одна негативная точка не ломает паттерн. Резкое удаление пункта — потеря накопленного сигнала. Постепенное изменение уверенности сохраняет информацию. Применяй: после каждого значимого выбора делай отдельный запрос: я выбрал X, не выбрал Y — обнови профиль по правилам REINFORCE/DISCOVER/WEAKEN

Метод	Суть
Ранжирование вместо оценки	Просишь оценить 10 вариантов по шкале 1–10 — получаешь 7–8 для всех. Различий нет. Вместо этого проси: `расставь все варианты по убыванию — от наиболее подходящего к наименее подходящему`. Почему работает: при оценке каждый вариант разбирается отдельно, без сравнения с остальными. При ранжировании модель вынуждена выбирать: этот выше того. Сравнение — то, что модель делает хорошо. Оптимально: 5–10 вариантов. Больше 15 — качество падает. Добавь `поясни топ-3 выбора одной фразой` — получишь обоснование
Трёхступенчатое обновление хранимого контекста	Когда копишь «профиль» или «память» модели через несколько сессий — не переписывай с нуля каждый раз. Используй три операции. `REINFORCE`: что подтвердилось выбором → повысь уверенность в этом пункте. `DISCOVER`: что новое проявилось, чего не было → добавь с низкой уверенностью. `WEAKEN`: что противоречит → понижай, не удаляй. Почему работает: одна негативная точка не ломает паттерн. Резкое удаление пункта — потеря накопленного сигнала. Постепенное изменение уверенности сохраняет информацию. Применяй: после каждого значимого выбора делай отдельный запрос: `я выбрал X, не выбрал Y — обнови профиль по правилам REINFORCE/DISCOVER/WEAKEN`

📖 Простыми словами

SAGER: Self-Evolving User Policy Skills for RecommendationAgent

arXiv: 2604.14972

Суть SAGER в том, что обычные рекомендации тупеют, потому что знают что ты любишь, но не понимают, как ты выбираешь. Большинство систем просто копят гору фактов о тебе, надеясь, что количество перейдет в качество. Но авторы исследования доказали: AI-ассистенту нужен второй слой — динамический кодекс принципов, который эволюционирует вместе с тобой. Это не просто список интересов, а инструкция по мышлению, которая объясняет модели, почему сегодня ты выбрал одно, а завтра — другое.

Это как нанять личного ассистента, который поначалу просто записывает, какой кофе ты пьешь, а со временем начинает понимать твою логику: «утром берем эспрессо, чтобы проснуться, а после пяти — только декаф, иначе не уснем». Без этого понимания ассистент — просто склад макулатуры, который в ответ на любой сложный запрос выдает невнятное мычание. Исследование показывает, что без четких правил выбора модель превращается в вежливого идиота, для которого все варианты одинаково хороши.

Главная проблема современных LLM — это размытие оценок. Если дать модели десять идей для постов и попросить оценить их по шкале от 1 до 10, она влепит всем «семерки». Модель оценивает каждый пункт в вакууме, не сравнивая их между собой, из-за чего вся конкретика тонет в сером шуме. Чтобы это исправить, SAGER внедряет самообучающиеся навыки пользователя: система анализирует твои прошлые решения и сама формулирует правила, по которым нужно фильтровать контент в будущем.

Метод тестировали на рекомендациях, но принцип универсален. Это работает везде, где есть выбор из множества вариантов: от подбора софта до составления контент-плана. Вместо того чтобы каждый раз разжевывать нейронке свои предпочтения, ты создаешь самообновляемую базу логики. Это переход от простого SEO-поиска по ключевым словам к интеллектуальному агентству, где AI знает твои внутренние фильтры лучше, чем ты сам.

Короче: хватит кормить нейронку голыми фактами, пора учить её твоей логике принятия решений. SAGER доказывает, что персонализация мышления важнее персонализации данных. Если не обновлять «документ принципов», любая умная модель рано или поздно начнет выдавать среднестатистическую фигню. Кто научит свой AI думать в своем стиле, тот получит реального цифрового двойника, а не просто продвинутый Тетрис.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню