3,583 papers
arXiv:2509.11496 72 15 сент. 2025 г. FREE

Claim Normalization: очистка хаотичных постов до фактических утверждений

КЛЮЧЕВАЯ СУТЬ
Посты в соцсетях — это хаос для проверки фактов: трёхкратные повторы, случайные 'None' в конце, эмоции и хэштеги. LLM тонет в этом шуме — проверяемое теряется среди мусора. Метод Claim Normalization позволяет превращать грязные посты в чистые фактические утверждения без примеров и дообучения. Фишка: один zero-shot промпт с рамкой 'без добавления информации' заставляет модель отфильтровать эмоции, повторы, мусор — остаётся только проверяемое ядро.
Адаптировать под запрос

TL;DR

Claim normalization — задача превращения неформального поста из соцсетей в краткое фактическое утверждение, пригодное для проверки. Суть: убрать эмоции, повторы, мусор (хэштеги, эмодзи, trailing "None") и оставить только проверяемые факты. Исследователи показали, что это работает через простой zero-shot промпт на 20 языках.

Посты в соцсетях — это хаос: трёхкратные повторы одного текста, случайные "None" в конце, эмоциональные оценки ("Gostei muito!"). LLM не может эффективно проверять факты в таком шуме — слишком много лишнего, проверяемое теряется среди мусора.

Решение: zero-shot промпт, который просит модель "обобщить в чёткое утверждение без добавления информации". Работает без примеров. Исследователи заняли топ-3 в 15 из 20 языков, используя этот подход.


🔬

Схема метода

ZERO-SHOT (без примеров):

Промпт → Модель выдаёт чистое утверждение

FEW-SHOT (с примерами):

Промпт + 3-10 примеров нормализации → Модель выдаёт чистое утверждение

Промпт выполняется в одном запросе. Модель видит грязный пост → возвращает чистый claim.


🚀

Пример применения

Задача: Тебе прислали длинный эмоциональный текст в рабочем чате от клиента, который хочет пожаловаться на сервис. Тебе нужно выделить фактическую суть для передачи в техподдержку — без эмоций, без воды, только проверяемые утверждения.

Промпт:

Ты получил неформальное сообщение. Преобразуй его в чёткое и краткое утверждение, без добавления новой информации.

Сообщение:
"Вот это вообще жесть!!! Заказал доставку 3 дня назад, а она так и не пришла! Звонил вам раз пять, никто не берёт трубку. Это что вообще за сервис такой??? Я очень недоволен, честно говоря. Заказ №45678, если что. Верните деньги!!!"

Нормализованное утверждение:

Результат: Модель выдаст короткое фактическое утверждение вроде: "Заказ №45678 не был доставлен в течение 3 дней, клиент не смог дозвониться до службы поддержки."

Эмоции, повторы и требования убраны — осталось только проверяемое.


🧠

Почему это работает

LLM плохо справляются с проверкой фактов в шумных текстах. Хэштеги, эмодзи, повторы, эмоции — всё это размывает фокус модели. Она пытается обработать всё сразу и теряет главное.

Сильная сторона LLM: понимание инструкций и фильтрация по критериям. Модель умеет отличать факты от мнений, если явно попросить.

Как метод использует это: промпт задаёт чёткую рамку — "без добавления информации, только суть". Модель выбрасывает лишнее и оставляет проверяемое ядро.

Рычаги управления:

  • Уровень детализации: "кратко" vs "максимально сохрани детали"
  • Язык: переведи промпт на нужный язык
  • Критерий фильтрации: добавь "убери эмоции" или "убери субъективные оценки"

📋

Шаблон промпта

Ты получил неформальное и неструктурированное сообщение. Преобразуй его в чёткое и краткое утверждение, без добавления новой информации.

Сообщение: {текст_поста}

Нормализованное утверждение:

Что подставлять:

  • {текст_поста} — любой хаотичный текст, который нужно очистить

Варианты усиления:

  • Добавь "убери эмоции и мнения" для строгой фактологии
  • Добавь "сохрани все числа и даты" для точности

⚠️

Ограничения

⚠️ Простые посты: Если пост уже чистый и фактический, модель может переформулировать без пользы. Работает лучше для грязных текстов.

⚠️ Субъективный контент: Если весь пост — это мнение без фактов (например, "Этот фильм ужасен"), модель не сможет извлечь проверяемое утверждение.

⚠️ Контекстные отсылки: Если пост ссылается на что-то вне текста ("как я говорил вчера"), модель не восстановит контекст.


🔍

Как исследовали

Исследователи взяли 20 языков и разделили на две группы: 13 с training data (для файнтюнинга) и 7 без данных (для zero-shot). Проверили два подхода: файнтюнинг маленьких моделей (SLMs вроде T5) vs промптинг больших моделей (LLMs вроде GPT-4o).

Главная находка: для языков с данными файнтюнинг побеждает, для языков без данных zero-shot промптинг с LLM работает почти так же хорошо. Команда заняла топ-3 в 15 из 20 языков, причём 5 из 7 zero-shot языков — второе место. Это показывает, что простой промпт может конкурировать со специализированными моделями.

Почему это важно: файнтюнинг требует данных, GPU, времени. Zero-shot — просто промпт. Для быстрой адаптации к новой задаче или языку — это золото.

Неожиданность: в нескольких языках (Tamil, Thai, Punjabi) файнтюнинг маленьких моделей (220-395M параметров) обогнал большие LLM с промптами. Значит, специализация всё ещё даёт преимущество, если есть данные.


📄

Оригинал из исследования

Контекст: Исследователи использовали этот промпт для zero-shot нормализации на 7 языках без training data.

Английский промпт:

You have received an informal and disorganized social media post. Summarize this post into a clear and concise statement, without adding any new information.
Post: {original_post}
Normalized statement:

Переводы на другие языки доступны в Appendix A оригинальной работы (Czech, Greek, Dutch, Korean, Romanian, Telugu, Bengali).


💡

Адаптации и экстраполяции

💡 Адаптация для бизнес-коммуникаций: Используй для очистки хаотичных сообщений от клиентов/коллег перед передачей в CRM или задачи. Убирает эмоции, оставляет суть.

Пример промпта:

Ты получил сообщение от клиента. Преобразуй его в чёткое утверждение для передачи в техподдержку, без эмоций и повторов.

Сообщение клиента: {текст}

Суть для техподдержки:

💡 Адаптация для конспектов: Если записываешь разговор или встречу в неструктурированном виде, используй для извлечения ключевых утверждений.

Пример промпта:

Вот мои заметки с встречи. Преобразуй их в список чётких утверждений, без лишней воды.

Заметки: {текст}

Ключевые утверждения:

🔧 Техника: Добавить "сохрани все числа" → усиление точности

Если работаешь с фактами, где числа критичны (финансы, статистика), добавь инструкцию:

Ты получил неформальное сообщение. Преобразуй его в чёткое утверждение, **сохранив все числа и даты точно**.

Сообщение: {текст}

Нормализованное утверждение:

🔗

Ресурсы

AKCIT-FN at CheckThat! 2025: Switching Fine-Tuned SLMs and LLM Prompting for Multilingual Claim Normalization

GitHub: код и конфигурации

Авторы: Fabrycio Leite Nakano Almada, Kauan Divino Pouso Mariano, Maykon Adriell Dutra, Victor Emanuel da Silva Monteiro, Juliana Resplande Sant'Anna Gomes, Arlindo Rodrigues Galvão Filho, Anderson da Silva Soares

Организация: Federal University of Goiás, Brazil; Advanced Knowledge Center in Immersive Technology (AKCIT)


📋 Дайджест исследования

Ключевая суть

Посты в соцсетях — это хаос для проверки фактов: трёхкратные повторы, случайные 'None' в конце, эмоции и хэштеги. LLM тонет в этом шуме — проверяемое теряется среди мусора. Метод Claim Normalization позволяет превращать грязные посты в чистые фактические утверждения без примеров и дообучения. Фишка: один zero-shot промпт с рамкой 'без добавления информации' заставляет модель отфильтровать эмоции, повторы, мусор — остаётся только проверяемое ядро.

Принцип работы

Не давай модели обрабатывать всё подряд — задай чёткую рамку фильтрации через инструкцию. Промпт говорит: 'преобразуй в краткое утверждение, без добавления новой информации'. Модель понимает границы — выбрасывает эмоции ('Gostei muito!'), убирает повторы, оставляет факты. Работает на 20 языках из коробки.

Почему работает

LLM сильна в фильтрации по критериям, но без явной инструкции пытается обработать всё сразу. Хэштеги, эмодзи, повторы — всё это размывает фокус модели. Чёткая рамка 'без добавления информации' переключает модель из режима 'обработать всё' в режим 'выбросить лишнее'. Исследователи заняли топ-3 в 15 из 20 языков на соревновании CheckThat! 2025, используя этот подход — zero-shot обогнал fine-tuned модели.

Когда применять

Проверка фактов (fact-checking) → когда нужно вычленить проверяемые утверждения из постов соцсетей, особенно на нескольких языках. Обработка обращений клиентов → выделить суть жалобы из эмоционального текста для передачи в техподдержку. Модерация контента → отфильтровать факты от мнений. НЕ подходит для постов где весь текст — это мнение без фактов ('Этот фильм ужасен').

Мини-рецепт

1. Задай рамку фильтрации: 'Ты получил неформальное сообщение. Преобразуй его в чёткое и краткое утверждение, без добавления новой информации.'
2. Подставь грязный текст: Сообщение: {текст_поста}
3. Запроси результат: Нормализованное утверждение:
4. Усиль при необходимости: Добавь 'убери эмоции и мнения' для строгой фактологии или 'сохрани все числа и даты' для точности.

Примеры

[ПЛОХО] : Преврати этот пост в краткую версию: 'Вот это вообще жесть!!! Заказал доставку 3 дня назад, а она так и не пришла! Звонил вам раз пять, никто не берёт трубку!!!'
[ХОРОШО] : Ты получил неформальное сообщение. Преобразуй его в чёткое и краткое утверждение, без добавления новой информации. Сообщение: 'Вот это вообще жесть!!! Заказал доставку 3 дня назад, а она так и не пришла! Звонил вам раз пять, никто не берёт трубку. Это что вообще за сервис такой??? Я очень недоволен, честно говоря. Заказ №45678, если что. Верните деньги!!!' Нормализованное утверждение: Результат: 'Заказ №45678 не был доставлен в течение 3 дней, клиент не смог дозвониться до службы поддержки.' — эмоции, повторы и требования убраны, осталось только проверяемое.
Источник: AKCIT-FN at CheckThat! 2025: Switching Fine-Tuned SLMs and LLM Prompting for Multilingual Claim Normalization
ArXiv ID: 2509.11496 | Сгенерировано: 2026-01-12 05:55

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с