arXiv:2607.02049 72 2 июля 2026 г. FREE

SPLIT: LLM пишет по-русски — но это не значит, что он понимает по-русски

КЛЮЧЕВАЯ СУТЬ

Большинство LLM теряют культурную точность при переходе с английского на украинский (и русский). Модель продолжает генерировать связный текст — грамотный, вежливый, структурированный. Но живые выражения, характерные для языка идиомы, тональность поддержки — пропадают. Остаётся шаблонная «роботная» утешалка. Исследование SPLIT измерило этот разрыв на задачах эмоциональной поддержки: стресс, паника, одиночество, вынужденное переселение, напряжение.

Адаптировать под запрос

⚡

TL;DR

Большинство LLM теряют культурную точность при переходе с английского на украинский (и русский). Модель продолжает генерировать связный текст — грамотный, вежливый, структурированный. Но живые выражения, характерные для языка идиомы, тональность поддержки — пропадают. Остаётся шаблонная «роботная» утешалка. Исследование SPLIT измерило этот разрыв на задачах эмоциональной поддержки: стресс, паника, одиночество, вынужденное переселение, напряжение.

Главная находка: LLM-судья не видит этой потери. Если попросить другую модель оценить качество ответа на украинском — она поставит высокий балл. Потому что оценивает грамматику и связность, а не культурную аутентичность. Человек-носитель языка видит разницу сразу: нет живых оборотов, есть клише. AI-судья этого не замечает и систематически завышает оценку для не-английских ответов.

Практическое следствие: если вы просите LLM написать эмпатичный текст на русском, а потом просите другую (или ту же) модель оценить результат — оценка будет чрезмерно оптимистичной. Оценивать культурную точность в нелатинских языках может только носитель. Плюс — выбор модели критически влияет на результат: DeepSeek сохраняет качество при переходе на украинский, Gemini и LLaMA — резко деградируют.

🔬

Схема метода

Это не техника с шагами, а три практических вывода + рабочая рубрика оценки:

НАХОДКА 1: Модель ≠ язык
  Грамотный текст на языке ≠ культурно укоренённая поддержка
  → При важных задачах на русском проверяй живость языка вручную

НАХОДКА 2: AI-судья слеп к культуре
  LLM оценивает: грамматика + связность + вежливость
  Человек оценивает: аутентичные обороты + живость + отсутствие клише
  → Не доверяй LLM-самооценке для культурных задач

НАХОДКА 3: Модели не равны
  DeepSeek → стабилен/улучшается на украинском
  Gemini, LLaMA → значительное падение (до 1.76 пункта из 5)
  → Для русскоязычных эмпатичных задач: тестируй DeepSeek

ИНСТРУМЕНТ: 5-уровневая рубрика SPLIT
  Уровень 1: полностью неуместный ответ
  Уровень 2: поверхностный, роботный, клише
  Уровень 3: функциональный, но без глубины
  Уровень 4: живой, с идиомами, культурно адаптированный
  Уровень 5: человеческий поток, без клише, тонко адаптирован под человека
  → Вставляй эту шкалу в промпт — как инструкцию по качеству

🚀

Пример применения

Задача: Ты пишешь письмо команде от лица основателя стартапа — тяжёлый квартал, несколько увольнений, нужно поддержать людей по-человечески. Задача: текст должен быть живым, без корпоративного языка, на русском.

Промпт:

Напиши письмо команде от лица основателя. Ситуация: тяжёлый квартал, 
пришлось расстаться с несколькими людьми. Оставшиеся — в стрессе и 
неопределённости.

Письмо должно соответствовать уровню 5 по следующей шкале:

Уровень 1 — неуместно, нет понимания эмоции
Уровень 2 — поверхностно, клише, роботно
Уровень 3 — функционально, но без глубины и живости
Уровень 4 — живой язык, уместные обороты, культурно адаптировано
Уровень 5 — человеческий поток, без дежурных фраз, тонко подстроен 
под эмоциональное состояние. Никакого «мы как команда преодолеем», 
никаких корпоративных штампов.

Оцени свой черновик по этой шкале перед финальным ответом. Если ниже 4 
— перепиши.

Тон: честный, немного усталый, тёплый. Не пафосный.
Длина: 150–200 слов.

Результат: Модель сначала напишет черновик, оценит его по рубрике и объяснит что не так. Во второй итерации — заменит шаблонные обороты на живые, уберёт корпоративный глянец. Финальный текст будет короче и плотнее, с конкретными деталями вместо общих слов. Главное — рубрика работает как якорь: модель видит критерии качества явно и меньше съезжает в клише.

🧠

Почему это работает

LLM по умолчанию оптимизируют под «безопасный» текст. Грамматически правильный, вежливый, нейтральный — такой контент модель видела миллиарды раз и умеет воспроизводить. Живые разговорные обороты, специфичные для конкретной культуры и ситуации — встречаются реже, особенно в нелатинских языках.

Шкала SPLIT создаёт явный ориентир. Без неё модель не знает, что «роботный вежливый текст» — это плохо. Когда вы явно описываете уровень 2 и уровень 5 — это убирает двусмысленность. Модель следует описанию, а не своим дефолтным паттернам.

Рычаги управления: - Попроси модель оценить черновик перед финалом → видишь самодиагностику + качество растёт - Опиши конкретные клише, которых нужно избежать → «без "мы справимся вместе", без "в эти непростые времена"» → модель активно от них уходит - Добавь культурный маркер → «разговорный русский, не переводческий» — напрямую адресует проблему из исследования

📋

Шаблон промпта

Напиши {тип текста} на тему: {ситуация}.

Тональность: {честная/тёплая/прямая — опиши своими словами}.
Аудитория: {кто это читает, их эмоциональное состояние}.

Оцени черновик по шкале перед финальным ответом:
— Уровень 2: поверхностно, клише, роботно, дежурные фразы
— Уровень 3: функционально, но без живости и культурной точности  
— Уровень 4: живой язык, уместные обороты, адаптировано под ситуацию
— Уровень 5: человеческий поток, без штампов, тонко подстроен под 
эмоцию читателя

Избегай: {конкретные клише или обороты, которые ты не хочешь видеть}.
Целевой уровень: 5. Если черновик ниже 4 — перепиши.
Длина: {число слов}.

Плейсхолдеры: - {тип текста} — письмо, пост, скрипт разговора, сообщение - {ситуация} — конкретно и в деталях: кто, что случилось, контекст - {тональность} — опиши словами, не одним словом: «устало-честный, без пафоса» - {клише} — самое частое что раздражает тебя в AI-текстах для этой ситуации

🚀 Быстрый старт — вставь в чат:

Вот шаблон для написания эмпатичных текстов с самооценкой качества. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит об аудитории, тональности и конкретных клише, которых нужно избежать — потому что именно эти параметры отличают уровень 4 от уровня 2 по шкале SPLIT.

⚠️

Ограничения

⚠️ Один оценщик: Человеческую оценку проводил один носитель языка. Субъективность неизбежна — разные носители могут оценивать по-разному.

⚠️ Специфика кризисных тем: Шкала SPLIT создавалась для эмоциональной поддержки в кризисных ситуациях. Для делового текста или технических задач деградация может быть другой.

⚠️ Украинский ≠ русский: Исследование про украинский язык. Для русского — разрыв с английским, скорее всего, меньше (русский лучше представлен в обучающих данных), но принцип аналогичен: грамотность не равна культурной точности.

⚠️ Модели быстро обновляются: Результаты актуальны для конкретных версий. Следующие версии могут изменить картину.

🔍

Как исследовали

Исследователи создали 500 реальных запросов о психологической поддержке — по 100 на каждую тему: стресс, паника, одиночество, вынужденное переселение, напряжение. Запросы сгенерировали через GPT-4o, перевели на украинский, затем носитель языка с уровнем C2 проверил 15% выборки вручную.

Три модели — DeepSeek-V3, Gemini-2.5-Flash, LLaMA-3.3-70B-Instruct — отвечали на все 500 запросов на английском и украинском. Три другие модели (GPT-4o, Mistral Large, Claude 4.5 Sonnet) выступали судьями — оценивали ответы по трём параметрам. Затем 10% ответов оценил человек — и сравнили.

Самый неожиданный результат: AI-судьи увидели улучшение у Gemini и LLaMA при переходе на украинский, тогда как человек увидел падение почти на 1.5 пункта. Это означает, что модели измеряли разные вещи: AI смотрел на структуру и грамматику, человек — на живость и аутентичность. Именно отсюда главный практический вывод: LLM-самооценка ненадёжна для культурных задач в нелатинских языках.

💡

Адаптации и экстраполяции

🔧 Техника: явная анти-клише инструкция → живой текст на русском

Добавь в промпт конкретный список клише, которых нужно избежать:
Запрещённые фразы и обороты:
— "в эти непростые времена"
— "я слышу тебя"  
— "ты не один"
— "всё будет хорошо"
— любые обороты с "путь", "рост", "возможность"
Это прямой ответ на проблему из исследования: LLM по умолчанию съезжает к шаблонным «роботным» выражениям. Явный запрет убирает их из пространства генерации.

🔧 Техника: уровневая шкала как инструмент редактуры

Если текст уже написан — попроси модель оценить его по шкале 1–5 и назвать конкретные фразы, которые снижают уровень. Это работает как структурированная обратная связь: вместо «улучши текст» модель ищет конкретные точки деградации.
Вот текст: {текст}

Оцени по шкале:
2 — роботно, клише, без живости
5 — человеческий поток, аутентичные обороты, без штампов

Назови конкретные фразы, которые снижают уровень. 
Предложи замену для каждой.

🔗

Ресурсы

Название: SPLIT: Cross-Lingual Empathy and Cultural Grounding in English and Ukrainian LLM Responses

Датасет и материалы: github.com/Anna-a-host/SPLIT-Cross-Lingual-Empathy-and-Cultural-Grounding-in-English-and-Ukrainian-LLMs

Автор: Anna Chorna (July 2026)

Проблемы LLM

Проблема	Суть	Как обойти
LLM-оценщик не видит культурные клише	Просишь модель оценить текст на нелатинском языке. Она ставит высокий балл. Потому что видит: грамматика правильная, вежливо, связно. Не видит: живые обороты пропали, остались шаблонные утешалки. Человек-носитель сразу замечает разницу. Модель — нет. Итог: оценка систематически завышена. Это проблема везде, где нужна живость языка, а не просто грамотность	Не доверяй автооценке для задач с культурным контекстом. Носитель > LLM-судья. Для проверки вставляй явную шкалу с описанием плохого уровня — тогда хотя бы получишь самодиагностику, а не пятёрку за грамматику

Методы

Метод	Суть
Шкала с описанием плохого уровня — якорь против клише	Опиши в запросе минимум два уровня качества: плохой и хороший. Плохой: «поверхностно, клише, роботно, дежурные фразы». Хороший: «живой язык, без штампов, подстроен под эмоцию читателя». Попроси оценить черновик по шкале перед финальным ответом. Добавь конкретные запреты: «без "в эти непростые времена", без "мы справимся вместе"». Почему работает: без шкалы модель не знает, что вежливый клишированный текст — это плохо. Явные критерии перебивают её дефолт «безопасного» текста. Запрет конкретных фраз — сильнее общей просьбы «пиши живо». Когда применять: любой эмпатичный или человеческий текст: письмо команде, сообщение поддержки, пост с честной позицией. Не поможет: технические задачи, нейтральные инструкции — там клише не вредят

Метод

Суть

Шкала с описанием плохого уровня — якорь против клише

Опиши в запросе минимум два уровня качества: плохой и хороший. Плохой: «поверхностно, клише, роботно, дежурные фразы». Хороший: «живой язык, без штампов, подстроен под эмоцию читателя». Попроси оценить черновик по шкале перед финальным ответом. Добавь конкретные запреты: «без "в эти непростые времена", без "мы справимся вместе"». Почему работает: без шкалы модель не знает, что вежливый клишированный текст — это плохо. Явные критерии перебивают её дефолт «безопасного» текста. Запрет конкретных фраз — сильнее общей просьбы «пиши живо». Когда применять: любой эмпатичный или человеческий текст: письмо команде, сообщение поддержки, пост с честной позицией. Не поможет: технические задачи, нейтральные инструкции — там клише не вредят

📖 Простыми словами

SPLIT: Cross-Lingual Empathy and Cultural Grounding in English and UkrainianLLMResponses

arXiv: 2607.02049

Большинство нейросетей при переходе с английского на русский или украинский превращаются в стерильных роботов-кассиров. Проблема не в грамматике — с ней всё ок — а в том, что модель теряет культурный код и искреннюю эмпатию. Когда ты просишь AI поддержать человека в депрессии или стрессе на не-английском языке, он выдаёт правильный, вежливый, но абсолютно пластиковый текст. Исследование SPLIT доказало: LLM отлично переводят слова, но полностью проваливают эмоциональный контекст, превращая живую поддержку в набор корпоративных штампов.

Это как если бы ты пришёл к близкому другу излить душу, а он начал отвечать тебе фразами из инструкции к микроволновке. Вроде всё по делу, слова понятные, но внутри — пустота. Модель ведёт себя как иностранец, который выучил язык по учебникам 50-х годов: он формально прав, но звучит максимально странно и отчуждённо, потому что не чувствует боли и нюансов ситуации.

Главный косяк здесь в безопасной оптимизации. Нейронки натасканы быть вежливыми и нейтральными, что в английском сегменте ещё как-то работает, но в наших реалиях превращается в роботизированную утешалку. Исследователи выделили три критических зоны, где AI лажает: живые идиомы (их заменяют калькой), тональность (вместо сочувствия — сухой отчёт) и специфические триггеры вроде темы вынужденного переселения. Модель просто не понимает, что в таких темах нельзя отделываться фразой "мне жаль, что вы это чувствуете".

Этот принцип универсален для любого контента, который должен «цеплять». Будь то письмо команде об увольнениях, пост в соцсетях или сценарий для видео — если ты просто переводишь промпт с английского или просишь AI написать «вежливо», ты получаешь мертворождённый текст. Чтобы это работало, нужно заставлять модель выходить за рамки стандартной вежливости и использовать локальный контекст, иначе твой месседж будет восприниматься как спам от службы поддержки.

Короче: не надейся, что нейронка сама «поймёт» глубину момента на русском языке. Без четких указаний на культурные особенности и запрета на корпоративный булшит ты получишь текст, который выглядит как человеческий, но ощущается как холодная синтетика. Эмпатия в LLM — это не встроенная функция, а результат жесткого контроля контекста. Либо ты правишь этот «робоязык» руками, либо твои читатели почувствуют фальшь с первого предложения.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню