3,583 papers
arXiv:2509.06596 65 8 сент. 2025 г. FREE

HAVE: Адаптивная к заголовкам вентиляция и калибровка значений для снижения галлюцинаций в больших языковых моделях

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM галлюцинирует не от недостатка информации, а потому что механизмы внимания отвлекаются на «мусор» — знаки препинания, форматирование, вводные слова («токены-стоки»). HAVE позволяет модели генерировать ответы на основе фактов из контекста, а не домыслов, даже когда текст длинный и зашумленный. Метод динамически калибрует, какие части текста действительно важны для ответа, а не просто привлекают внимание. Модель перестает «залипать» на форматировании и начинает фокусироваться на смысловой нагрузкеточность ответов вырастает без переобучения.
Адаптировать под запрос

Исследование показывает, что LLM часто галлюцинируют (выдумывают факты) даже тогда, когда правильный ответ есть в предоставленном тексте. Это происходит потому, что внутренние механизмы "внимания" модели несовершенны: они могут отвлекаться на неважные элементы (например, знаки препинания) и не всегда правильно оценивают, какие слова в контексте действительно влияют на ответ. Авторы предлагают алгоритм HAVE, который во время генерации ответа динамически настраивает эти механизмы, заставляя модель лучше фокусироваться на фактической информации из текста.

Ключевой результат: Предложенный метод HAVE, не требующий переобучения модели, значительно снижает количество галлюцинаций и повышает точность ответов LLM в задачах, требующих опоры на предоставленный контекст.

Представьте, что LLM — это менеджер, которому нужно подготовить отчет на основе большого документа.

Проблема, которую описывает исследование, заключается в двух вещах: 1. Все советчики равны: Менеджер слушает советы от всех своих помощников (внутренних "голов внимания" модели) примерно с одинаковым доверием, даже если по текущему вопросу компетентен только один из них. 2. "Громкий" не значит "важный": Менеджер обращает внимание на те части документа, которые выделены жирным шрифтом или стоят в начале абзаца ("внимание"), но не всегда понимает, какая из этих частей несёт реальную смысловую нагрузку для ответа ("влияние"). Он может "залипнуть" на форматировании или вводных фразах, пропустив суть.

Метод HAVE — это как нанять для менеджера очень умного ассистента, который работает в реальном времени:

  • Head-Adaptive Gating (HAG): Этот ассистент для каждой конкретной задачи определяет, какие из помощников-советников сейчас наиболее компетентны, и говорит менеджеру: "Сейчас слушай в основном вот этих двух, их мнение важнее".
  • Value Calibration (VC): Ассистент просматривает документ и говорит менеджеру: "Не обращай внимания на эту кучу знаков препинания и 'воды' — это 'токены-стоки', они отвлекают. А вот это предложение, хоть и написано просто, содержит ключевой факт — его 'ценность' для ответа максимальна".

В итоге менеджер (LLM), руководствуясь подсказками ассистента (HAVE), пишет отчет (генерирует ответ), который гораздо точнее основан на фактах из исходного документа, а не на его собственных домыслах.

  • Прямая применимость: Нулевая для обычного пользователя в чате. Метод HAVE — это алгоритмическая надстройка, которую могут внедрить только разработчики LLM-сервисов или пользователи, запускающие модели локально с возможностью модификации кода.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю две ключевые идеи:

    1. Контекст нужно очищать: Модель может отвлекаться на "мусор" в тексте — лишние знаки препинания, элементы форматирования, специальные символы. Это "токены-стоки" (sink tokens). Чем чище и лаконичнее контекст, тем меньше у модели шансов отвлечься.
    2. Структура помогает фокусироваться: Модель не воспринимает текст как человек. Четкая структура, разделители и заголовки помогают "направить" ее механизмы внимания на нужные части информации, имитируя то, что HAVE делает автоматически.
  • Потенциал для адаптации: Высокий. Хотя сам метод применить нельзя, его принципы можно эмулировать через промпт-инжиниринг. Пользователь может вручную выполнять "работу" HAVE:

    • Адаптация "Value Calibration": Перед тем как подать большой текст в LLM, его нужно предварительно обработать: убрать лишнее форматирование, рекламные блоки, "воду", оставив только ключевые факты и тезисы. Это ручная "калибровка ценности" токенов.
    • Адаптация "Head-Adaptive Gating": Использовать в промпте четкую структуру с XML-тегами или Markdown-разметкой (например, <контекст>, <задача>), чтобы явно указать модели, какая часть ввода является источником фактов, а какая — инструкцией. Это помогает "направить" внимание модели.

Представим, что пользователь хочет получить краткую сводку из новостной статьи для своего блога. Вместо того чтобы просто скопировать всю статью, он может применить принципы HAVE.

Ты — профессиональный редактор, твоя задача — извлечь ключевую информацию из предоставленного контекста и подготовить на ее основе краткий пост для Telegram-канала.

# КОНТЕКСТ
Ниже приведены основные тезисы из статьи о запуске нового социального приложения "ConnectSphere". Я уже очистил их от рекламной информации и "воды".

*   **Основная идея:** "ConnectSphere" — это приложение для поиска партнеров для хобби (спорт, настольные игры, музыка).
*   **Ключевое отличие:** Алгоритм подбирает людей не по симпатиям, а по совпадению расписания и уровня навыков.
*   **Целевая аудитория:** Жители крупных городов в возрасте от 25 до 40 лет.
*   **Монетизация:** Бесплатное использование с возможностью платно продвигать свои мероприятия.
*   **Дата запуска:** Приложение уже доступно в App Store и Google Play в России.

# ЗАДАНИЕ
На основе информации из раздела "КОНТЕКСТ", напиши короткий, энергичный анонс (3-4 предложения) для Telegram-канала.
Стиль: дружелюбный, но информативный.
Цель: заинтересовать читателей и побудить их попробовать новое приложение.
Не добавляй никакой информации, которой нет в контексте.

Этот промпт имитирует работу метода HAVE за счет следующих механик:

  1. Имитация "Value Calibration" (Калибровка ценности): Вместо целой статьи с отвлекающими деталями, мы подаем в <КОНТЕКСТ> заранее подготовленный, очищенный список ключевых фактов. Мы вручную убрали "токены-стоки" (рекламу, вводные слова, сложные обороты), оставив только информацию с высокой "ценностью" для ответа. Это снижает риск того, что модель "залипнет" на нерелевантных частях текста.

  2. Имитация "Head-Adaptive Gating" (Адаптивное управление вниманием):

    • Структурные теги: Использование заголовков # КОНТЕКСТ и # ЗАДАНИЕ четко разделяет для модели источник фактов и инструкцию. Это помогает ей "направить" свои внутренние механизмы на правильные участки промпта для каждой подзадачи.
    • Четкая инструкция: Фраза "Не добавляй никакой информации, которой нет в контексте" является прямым указанием, усиливающим необходимость опираться только на предоставленные данные, что является главной целью борьбы с галлюцинациями.

Задача: Составить сопроводительное письмо для отклика на вакансию, адаптировав его под требования.

Ты — карьерный консультант. Помоги мне составить сопроводительное письмо.

# ИСХОДНЫЕ ДАННЫЕ

<МОЙ_ОПЫТ>
*   Управлял маркетинговыми кампаниями с бюджетом >5 млн руб/год.
*   Увеличил органический трафик на 150% за 2 года через SEO и контент-маркетинг.
*   Работал с системами аналитики: Google Analytics, Яндекс.Метрика.
*   Запустил и развивал блог компании, который стал №1 в нише.


<ТРЕБОВАНИЯ_ВАКАНСИИ>
*   Опыт в digital-маркетинге от 3 лет.
*   Успешные кейсы по SEO-продвижению.
*   Умение работать с большими бюджетами.
*   Навыки контент-менеджмента.


# ЗАДАНИЕ
На основе данных из тегов <МОЙ_ОПЫТ> и <ТРЕБОВАНИЯ_ВАКАНСИИ>, напиши текст сопроводительного письма (1 абзац, 4-5 предложений).
В письме сделай акцент на том, как мои достижения напрямую соответствуют каждому требованию вакансии.
Сохраняй деловой, но уверенный тон. Не придумывай опыт, которого нет в исходных данных.

Этот промпт эффективно работает, так как пользователь вручную выполняет функции, аналогичные алгоритму HAVE:

  1. "Калибровка ценности" (аналог Value Calibration): Пользователь не вставляет в промпт всё своё резюме и полное описание вакансии. Вместо этого он извлекает самую суть: ключевые достижения (<МОЙ_ОПЫТ>) и главные требования (<ТРЕБОВАНИЯ_ВАКАНСИИ>). Это очищает входные данные от "шума" и оставляет только токены с максимальной релевантностью, что помогает модели сфокусироваться.

  2. "Направление внимания" (аналог Head-Adaptive Gating):

    • XML-теги: Теги <МОЙ_ОПЫТ> и <ТРЕБОВАНИЯ_ВАКАНСИИ> работают как мощные указатели. Они создают для модели четкие, раздельные блоки информации, позволяя ей эффективно сопоставлять факты из одного блока с требованиями из другого.
    • Прямая инструкция: Задание "сделай акцент на том, как мои достижения напрямую соответствуют каждому требованию" заставляет модель активно использовать оба предоставленных контекста и искать между ними связи, а не генерировать общий, шаблонный текст. Это имитирует процесс усиления внимания на релевантной информации.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование описывает алгоритм, работающий "под капотом" модели на уровне декодирования, а не конкретные фразы или структуры для промптов.
  • B. Улучшение качества диалоговых ответов: Высокая. Основная цель исследования — снижение галлюцинаций и повышение фактической точности ответов, особенно при работе с длинным контекстом (RAG), что напрямую улучшает качество.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может применить этот метод в веб-интерфейсе ChatGPT или Claude. Это требует доступа к процессу декодирования модели, что доступно только разработчикам, использующим API или запускающим модели локально.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще объясняет, почему LLM могут игнорировать предоставленный контекст. Оно вводит критически важные концепции: "внимание — это не то же самое, что влияние" и существование "токенов-стоков" (sink tokens), которые отвлекают модель. Это дает пользователю глубокое понимание ограничений LLM.
  • E. Новая полезная практика (кластер): Работа попадает в кластеры №7 (Надежность и стабильность), так как напрямую борется с галлюцинациями, и №2 (Поведенческие закономерности LLM), раскрывая внутренние механизмы внимания.

Чек-лист практичности (+15 баллов): * Раскрывает неочевидные особенности поведения LLM: ДА. * Предлагает способы улучшить consistency/точность ответов: ДА (хоть и на алгоритмическом уровне).

📌

Цифровая оценка полезности

Аргументы за оценку: Оценка 65 отражает баланс между очень низкой прямой применимостью для обычного пользователя и чрезвычайно высокой концептуальной ценностью. Пользователь не может "включить" HAVE в своем промпте, но понимание проблем, которые решает HAVE, может кардинально изменить его подход к подготовке контекста для LLM. Знание о "токенах-стоках" и разнице между вниманием и влиянием — это мощный инсайт для любого продвинутого пользователя.

Контраргументы: * Почему оценка могла быть ниже (30-50): Потому что исследование не дает ни одной готовой техники промптинга. Для пользователя, который ищет конкретные фразы "бери и делай", статья бесполезна. Она описывает сложный внутренний механизм, который нельзя контролировать из чата. * Почему оценка могла быть выше (70-80): Потому что концептуальные выводы настолько сильны, что они позволяют пользователю "адаптировать" свой подход. Поняв, что "мусорные" токены и сложная структура мешают модели, пользователь начнет более тщательно готовить и очищать контекст, подаваемый в промпт, что является косвенным применением идей исследования и приведет к лучшим результатам.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с