3,583 papers
arXiv:2601.09041 70 14 янв. 2026 г. FREE

Фигуральный язык в LLM: похожие ответы, но разная внутренняя логика

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM даёт человеческую оценку сарказму, но внутренняя логика другая. Модель может поставить правильную оценку и всё равно не "понять" так, как человек. Исследование показывает когда можно доверять LLM в анализе тона. Эмоциональный язык ('радость', 'страх') — надёжен, сарказм и идиомы — ненадёжны. Модель видит слова 'отличная работа', но пропускает подтекст. Проверили GPT-4 и три мелкие модели на 240 предложениях. Поверхностно оценки похожи на людей (корреляция 0.6-0.9). Внутри — разная структура смысла.
Адаптировать под запрос

TL;DR

Модели выдают похожие на человеческие оценки текста, но организуют смысл внутри себя по-другому — особенно когда речь об идиомах, сарказме и слэнге. Исследователи проверили как люди и четыре LLM (GPT-4, Gemma, Llama, Mistral) оценивают 240 предложений с фигуральным языком по 40 параметрам. Измеряли два уровня: поверхностное совпадение (схожи ли оценки) и репрезентационное совпадение (схожа ли внутренняя структура — как модель организует отношения между предложениями в смысловом пространстве).

На поверхности модели выглядят человечно: GPT-4 выдаёт оценки с корреляцией 0.6-0.9 с людьми, мелкие модели 0.5-0.8. Но внутри модели структурируют смысл иначе — особенно провал на идиомах ("взять быка за рога"), сарказме ("отличная работа, правда") и слэнге Gen Z ("это огонь"). Эмоциональный язык с явными словами ("радость", "грусть") обрабатывается лучше — там есть прямые лексические маркеры. Идиомы и сарказм требуют прагматического вывода из контекста — модель видит слова, но не улавливает подтекст так, как человек.

Модели ближе к людям по явным признакам, дальше — по контекстным. GPT-4 показывает самое близкое к человеку внутреннее устройство смысла, но всё равно не дотягивает до того, как люди согласуются между собой. Улучшенный промпт повышает совпадение оценок, но не меняет глубинную организацию — промпт влияет на output, но не на то, КАК модель "думает" внутри.


📌

Почему это важно

Для работы с LLM это значит: не всё, что выглядит правильно, правильно понято. Модель может дать похожую оценку сарказму или идиоме, но логика, по которой она пришла к ответу, отличается от человеческой. Это объясняет, почему иногда модель "понимает" очевидный сарказм, а в другой раз промахивается мимо.

Три практических инсайта:

1. Эмоциональный язык — сильная зона LLM Когда эмоция явно названа словами ("радость", "тревога", "восторг") — модель обрабатывает надёжно. Здесь можно доверять оценкам и анализу.

2. Идиомы, сарказм, слэнг — слабая зона Модель даст ответ, но внутренняя логика отличается от человеческой. В критичных задачах (проверка тона для публикации, анализ обратной связи клиентов) лучше перепроверить самому или дать дополнительный контекст.

3. GPT-4 vs мелкие модели Для задач с фигуральным языком GPT-4 ближе к человеческой логике, чем Gemma, Mistral или Llama. Если работаешь с сарказмом, подтекстами, культурными отсылками — выбирай GPT-4 или аналоги топового уровня.


🚀

Пример применения инсайта

📌

Ситуация 1: Проверка тона отзыва для маркетплейса

Задача: Ты модерируешь отзывы продавцов на Wildberries. Клиент написал: "Спасибо за доставку через две недели, очень оперативно!"

Риск: Если попросишь LLM оценить тон отзыва, модель может дать высокую оценку позитивности (слова "спасибо", "оперативно"), но пропустить сарказм. Внутренняя организация смысла у модели построена на явных маркерах, а сарказм требует контекста и понимания социальных норм ("две недели" = долго, не оперативно).

Как применить инсайт: - Не полагайся на LLM в автоматической оценке сарказма - Добавь контекст в промпт: "Клиент ждал заказ 14 дней при обещанных 3-5. Оцени тон отзыва с учётом этого." - Или проверяй сам все отзывы с явными позитивными словами + упоминанием сроков/проблем


📌

Ситуация 2: Адаптация текста с идиомами для аудитории

Задача: Ты пишешь контент для Telegram-канала о бизнесе. Хочешь заменить русские идиомы ("бить баклуши", "не в своей тарелке") на современный слэнг Gen Z, чтобы текст звучал свежо.

Риск: Модель даст замены, но внутренняя логика связи между идиомой и слэнгом у неё слабая. Исследование показало: идиомы и слэнг — зоны, где модель организует смысл не так, как человек. Ты получишь технически правильные слова, но они могут не попасть в тон или потерять оттенок смысла.

Как применить инсайт: - Используй LLM для генерации вариантов, но проверяй финальный выбор сам - Лучше: попроси модель объяснить связь между идиомой и слэнгом — если логика хромает, выбирай другой вариант - Для критичного контента (реклама, публичные выступления) проверяй у реальной аудитории, не полагайся только на модель


📌

Ситуация 3: Анализ эмоционального тона статьи

Задача: Ты редактор медиа. Нужно быстро оценить тональность 50 статей: какие позитивные, какие негативные, какие тревожные.

Преимущество: Эмоциональный язык с явными маркерами ("радость", "страх", "надежда") — сильная зона LLM. Модель хорошо совпадает с людьми и по оценкам, и по внутренней организации смысла.

Как применить инсайт: - Смело делегируй базовую сортировку по эмоциям LLM - Промпт: "Оцени эмоциональный тон статьи по шкале: позитивный, нейтральный, негативный, тревожный. Укажи ключевые слова, которые определяют тон." - Экономишь время: модель справится надёжно, если текст содержит явные эмоциональные слова


🧠

Как это работает

Почему модели проваливаются на сарказме и идиомах?

Модели обучаются предсказывать следующее слово на основе статистических паттернов в тексте. Эмоциональный язык часто содержит прямые маркеры: "я счастлив", "мне грустно", "это ужасно". Эти слова встречаются в текстах в явной связи с эмоциями — модель видит паттерн и воспроизводит его надёжно.

Идиомы и сарказм работают иначе. "Взять быка за рога" не про быка и не про рога — смысл не складывается из слов, его нужно знать как культурный код. Сарказм требует понимания, что говорящий имеет в виду противоположное сказанному — нужен контекст ситуации, знание норм, чувство интонации. Модель видит слова, но не достраивает прагматический вывод так, как человек.

Внутренняя структура смысла строится по-разному:

Когда человек оценивает предложения, он группирует их по смыслу: "взять быка за рога" и "засучить рукава" близки (про действие), а "взять быка за рога" и "купить молоко" далеки. Модель строит похожие группировки для эмоционального языка, но для идиом и сарказма её группировки расходятся с человеческими — модель цепляется за буквальные слова ("бык", "рога"), а не за переносный смысл ("решительность").

Почему GPT-4 лучше мелких моделей?

GPT-4 обучена на большем объёме текста и с более продвинутым выравниванием (alignment) под человеческие предпочтения. Это позволяет ей чаще угадывать правильный прагматический вывод. Но даже GPT-4 не дотягивает до того, как люди согласуются между собой — внутренняя логика всё равно опирается на статистику слов, а не на социальный опыт и культурный контекст.

Почему улучшенный промпт помогает слабо?

Промпт влияет на то, что модель выдаёт наружу (более точные оценки, структурированные ответы), но не меняет как она организует смысл внутри. Репрезентационный уровень формируется на этапе обучения — архитектура модели и данные, на которых она тренировалась. Промпт — это инструкция на этапе вывода, она не перестраивает фундамент.


⚠️

Ограничения исследования

⚠️ Контекст задачи: Участники и модели оценивали отдельные предложения без диалогового контекста. В реальности сарказм и идиомы часто понятны из беседы — здесь это не учтено.

⚠️ Культурная специфика: Исследование на английском языке с Gen Z slang из англоязычной культуры. Русские идиомы ("бить баклуши") и российский слэнг ("зашквар", "кринж") могут показывать другие паттерны — нет гарантии, что выводы переносятся напрямую.

⚠️ Только zero-shot: Модели не получали примеров правильных оценок (few-shot). С примерами результаты могли бы быть иными — но исследование этого не проверяло.

⚠️ Нет проверки на reasoning: Не анализировали, почему модели дали такие оценки. Возможно, модели "понимают" иначе, чем кажется из итоговых цифр — нужны исследования с объяснениями от моделей.


🔍

Как исследовали

Исследователи набрали 211 человека (студенты университета Техаса) и четыре LLM (GPT-4, Gemma-2-9B, Llama-3.2-3B, Mistral-7B). Все оценивали 240 предложений — половина осмысленные ("bite the bullet" = идиома), половина бессмысленные ("eat the bullet" = похоже, но не идиома). Предложения разделили на 6 категорий: обычные, идиомы, эмоциональные, смешные, саркастичные, слэнг Gen Z.

Каждое предложение оценивали по 40 вопросам ("Это саркастично?", "Это волнует?", "Это позитивно?") по шкале 1-10. Люди видели случайную выборку предложений (около 32 на человека), модели обрабатывали все 9600 пар предложение-вопрос.

Ключ дизайна — два уровня анализа:

1. Surface-level similarity (SLS): посчитали корреляцию между средними оценками людей и моделей по каждой категории. Вопрос: "Дают ли модели похожие цифры?"

2. Representational Similarity Analysis (RSA): построили матрицы расстояний между предложениями. Каждое предложение — точка в 40-мерном пространстве (40 оценок по вопросам). Посчитали попарные расстояния между всеми 240 предложениями для людей и отдельно для каждой модели. Потом сравнили эти матрицы: коррелируют ли расстояния? Вопрос: "Организуют ли модели смысл так же, как люди?"

Почему RSA важнее SLS: две модели могут дать одинаковую оценку "7" предложению, но по разным причинам. Одна увидела эмоциональные слова, другая — формальную структуру. RSA ловит эту разницу: если модель группирует предложения не так, как люди — значит, внутренняя логика отличается.

Два исследования с разными промптами: - Study 1: простой промпт как людям: "Оцени предложение по вопросу по шкале 1-10" - Study 2: улучшенный промпт с ограничениями: "Оцени 1-10, объясни одним предложением, не выходи за пределы [1, 10]"

Результаты удивили масштабом расхождения: на поверхности GPT-4 коррелирует с людьми на r = 0.6-0.9 (хорошо!), но на репрезентационном уровне для идиом и слэнга корреляция падает до r = 0.3-0.5 (слабо). Люди между собой дают r = 0.95-1.0 (почти идеально) — модели до этого далеко.

Почему это важно: показывает, что похожий output ≠ похожая логика. Модель может давать правильные оценки, но строить смысл иначе. Это объясняет хрупкость моделей на нестандартных примерах — если логика другая, она сломается в неожиданных местах.


🔗

Ресурсы

Can LLMs Interpret Figurative Language as Humans Do?: Surface-Level vs. Representational Similarity

Samhita Bollepally, Aurora Sloman-Moll, Takashi Yamauchi

Texas A&M University

Январь 2026

Исследование опирается на метод Representational Similarity Analysis (RSA) — подход из нейронауки для сравнения внутренних репрезентаций в мозге и моделях.


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM даёт человеческую оценку сарказму, но внутренняя логика другая. Модель может поставить правильную оценку и всё равно не "понять" так, как человек. Исследование показывает когда можно доверять LLM в анализе тона. Эмоциональный язык ('радость', 'страх') — надёжен, сарказм и идиомы — ненадёжны. Модель видит слова 'отличная работа', но пропускает подтекст. Проверили GPT-4 и три мелкие модели на 240 предложениях. Поверхностно оценки похожи на людей (корреляция 0.6-0.9). Внутри — разная структура смысла.

Принцип работы

Не полагайся на модель в автоматическом анализе сарказма и идиом — давай контекст явно. Модель сильна там, где эмоция названа словами: 'счастлив', 'грустно', 'тревожно'. Слабая зона — когда смысл не складывается из слов. 'Взять быка за рога' не про быка. 'Спасибо за две недели' означает недовольство, не благодарность. Для критичных задач (проверка тона отзыва, адаптация текста) добавляй контекст в промпт или проверяй сам.

Почему работает

Модель обучена предсказывать слова по статистике текста. Эмоциональный язык содержит прямые маркеры: 'я счастлив', 'мне грустно'. Слова встречаются в явной связи с эмоциями — модель видит паттерн и воспроизводит. Сарказм и идиомы требуют прагматического вывода. Нужно понимать, что говорящий имеет в виду противоположное. Нужно знать культурный код. Модель видит 'отличная работа' + 'две недели задержки'. Но не достраивает социальный контекст: нормально ждать 3 дня, 14 — долго, значит сарказм. GPT-4 угадывает чаще благодаря большему объёму данных. Но всё равно не дотягивает до согласованности людей.

Когда применять

Анализ тона текста → для отзывов, соцсетей, обратной связи клиентов. Особенно когда текст содержит явные эмоциональные слова. НЕ подходит для автоматической обработки сарказма и идиом без контекста — модель даст ответ, но логика может быть другой. Для критичного контента (модерация, публичные коммуникации) проверяй сам или давай развёрнутый контекст.

Мини-рецепт

1. Для эмоционального контента: делегируй модели сортировку по тону — 'позитивный', 'негативный', 'тревожный'. Работает надёжно.

2. Для сарказма и идиом: добавляй контекст явно. Вместо Оцени тон отзываКлиент ждал 14 дней при обещанных 3-5. Оцени тон с учётом этого.

3. Проверяй логику: попроси модель объяснить почему она дала такую оценку. Если объяснение хромает — не доверяй.

4. Выбирай модель: для подтекстов и культурных отсылок GPT-4 ближе к человеческой логике, чем Gemma или Mistral.

Примеры

[ПЛОХО] : Оцени тон отзыва: 'Спасибо за доставку через две недели, очень оперативно!'
[ХОРОШО] : Клиент заказал товар с обещанной доставкой 3-5 дней. Фактически ждал 14 дней. Оцени тон отзыва: 'Спасибо за доставку через две недели, очень оперативно!' Это сарказм или искренняя благодарность?
Источник: Can LLMs interpret figurative language as humans do?: surface-level vs representational similarity
ArXiv ID: 2601.09041 | Сгенерировано: 2026-01-15 05:30

Концепты не выделены.

📖 Простыми словами

CanLLMsinterpret figurativelanguageas humans do?: surface-level vs representational similarity

arXiv: 2601.09041

LLM сегодня — это великолепные имитаторы, которые научились идеально подделывать человеческие реакции на фигуральный язык. Когда ты кидаешь модели сарказм или идиому, она выдает оценку, почти неотличимую от человеческой, но делает это на совершенно другой «топливной смеси». Фундаментальная механика тут в том, что нейронки оценивают текст по внешним признакам, тогда как человек опирается на глубокие концептуальные связи. Модель может правильно угадать, что фраза «вешать лапшу на уши» — это обман, но внутри её «мозга» эта фраза лежит на полке рядом с кулинарными рецептами, а не с концепцией лжи.

Это как если бы инопланетянин выучил все человеческие шутки наизусть: он смеется в нужных местах, но не потому, что ему смешно, а потому что он вычислил статистическую вероятность смеха. Формально всё совпало, но внутри — пустота. Он имитирует результат, не понимая процесса, и стоит чуть-чуть изменить контекст, как вся эта конструкция рассыпается, потому что у него нет нашей «прошивки» жизненного опыта.

Исследователи прогнали GPT-4, Gemma, Llama и Mistral через адский тест из 240 предложений, где были слэнг, ирония и метафоры. Выяснилось, что поверхностное совпадение у моделей зашкаливает — они ставят те же баллы, что и люди. Но когда заглянули под капот и проверили репрезентационное совпадение (то, как смыслы группируются внутри нейронки), оказалось, что структуры вообще не похожи. Модели группируют фразы по буквальным словам, а не по скрытому смыслу, поэтому для них «острый язык» ближе к «острому ножу», чем к язвительному человеку.

Этот принцип универсален для любой работы с AI: мы часто путаем правдоподобность с пониманием. Тестировали на идиомах, но это касается и юридических текстов, и креативного копирайтинга, и даже кода. Если модель выдает адекватный результат, это не значит, что она «поняла» задачу так же, как ты. Она просто мастерски подобрала поверхностный паттерн, который в 9 из 10 случаев прокатывает за осмысленный ответ.

Главный вывод: не обольщайся «человечностью» ответов ChatGPT или Llama, когда дело касается тонких материй. Модели лажают на глубине, потому что их внутренняя карта смыслов построена на статистике символов, а не на логике реальности. Используй их для генерации, но всегда делай поправку на то, что для AI сарказм — это просто набор токенов с высокой вероятностью, а не социальный контекст. Кто забудет об этом отличии, тот рано или поздно поймает галлюцинацию там, где нужно было просто включить голову.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с