TL;DR
Большинство LLM теряют культурную точность при переходе с английского на украинский (и русский). Модель продолжает генерировать связный текст — грамотный, вежливый, структурированный. Но живые выражения, характерные для языка идиомы, тональность поддержки — пропадают. Остаётся шаблонная «роботная» утешалка. Исследование SPLIT измерило этот разрыв на задачах эмоциональной поддержки: стресс, паника, одиночество, вынужденное переселение, напряжение.
Главная находка: LLM-судья не видит этой потери. Если попросить другую модель оценить качество ответа на украинском — она поставит высокий балл. Потому что оценивает грамматику и связность, а не культурную аутентичность. Человек-носитель языка видит разницу сразу: нет живых оборотов, есть клише. AI-судья этого не замечает и систематически завышает оценку для не-английских ответов.
Практическое следствие: если вы просите LLM написать эмпатичный текст на русском, а потом просите другую (или ту же) модель оценить результат — оценка будет чрезмерно оптимистичной. Оценивать культурную точность в нелатинских языках может только носитель. Плюс — выбор модели критически влияет на результат: DeepSeek сохраняет качество при переходе на украинский, Gemini и LLaMA — резко деградируют.
Схема метода
Это не техника с шагами, а три практических вывода + рабочая рубрика оценки:
НАХОДКА 1: Модель ≠ язык
Грамотный текст на языке ≠ культурно укоренённая поддержка
→ При важных задачах на русском проверяй живость языка вручную
НАХОДКА 2: AI-судья слеп к культуре
LLM оценивает: грамматика + связность + вежливость
Человек оценивает: аутентичные обороты + живость + отсутствие клише
→ Не доверяй LLM-самооценке для культурных задач
НАХОДКА 3: Модели не равны
DeepSeek → стабилен/улучшается на украинском
Gemini, LLaMA → значительное падение (до 1.76 пункта из 5)
→ Для русскоязычных эмпатичных задач: тестируй DeepSeek
ИНСТРУМЕНТ: 5-уровневая рубрика SPLIT
Уровень 1: полностью неуместный ответ
Уровень 2: поверхностный, роботный, клише
Уровень 3: функциональный, но без глубины
Уровень 4: живой, с идиомами, культурно адаптированный
Уровень 5: человеческий поток, без клише, тонко адаптирован под человека
→ Вставляй эту шкалу в промпт — как инструкцию по качеству
Пример применения
Задача: Ты пишешь письмо команде от лица основателя стартапа — тяжёлый квартал, несколько увольнений, нужно поддержать людей по-человечески. Задача: текст должен быть живым, без корпоративного языка, на русском.
Промпт:
Напиши письмо команде от лица основателя. Ситуация: тяжёлый квартал,
пришлось расстаться с несколькими людьми. Оставшиеся — в стрессе и
неопределённости.
Письмо должно соответствовать уровню 5 по следующей шкале:
Уровень 1 — неуместно, нет понимания эмоции
Уровень 2 — поверхностно, клише, роботно
Уровень 3 — функционально, но без глубины и живости
Уровень 4 — живой язык, уместные обороты, культурно адаптировано
Уровень 5 — человеческий поток, без дежурных фраз, тонко подстроен
под эмоциональное состояние. Никакого «мы как команда преодолеем»,
никаких корпоративных штампов.
Оцени свой черновик по этой шкале перед финальным ответом. Если ниже 4
— перепиши.
Тон: честный, немного усталый, тёплый. Не пафосный.
Длина: 150–200 слов.
Результат: Модель сначала напишет черновик, оценит его по рубрике и объяснит что не так. Во второй итерации — заменит шаблонные обороты на живые, уберёт корпоративный глянец. Финальный текст будет короче и плотнее, с конкретными деталями вместо общих слов. Главное — рубрика работает как якорь: модель видит критерии качества явно и меньше съезжает в клише.
Почему это работает
LLM по умолчанию оптимизируют под «безопасный» текст. Грамматически правильный, вежливый, нейтральный — такой контент модель видела миллиарды раз и умеет воспроизводить. Живые разговорные обороты, специфичные для конкретной культуры и ситуации — встречаются реже, особенно в нелатинских языках.
Шкала SPLIT создаёт явный ориентир. Без неё модель не знает, что «роботный вежливый текст» — это плохо. Когда вы явно описываете уровень 2 и уровень 5 — это убирает двусмысленность. Модель следует описанию, а не своим дефолтным паттернам.
Рычаги управления: - Попроси модель оценить черновик перед финалом → видишь самодиагностику + качество растёт - Опиши конкретные клише, которых нужно избежать → «без "мы справимся вместе", без "в эти непростые времена"» → модель активно от них уходит - Добавь культурный маркер → «разговорный русский, не переводческий» — напрямую адресует проблему из исследования
Шаблон промпта
Напиши {тип текста} на тему: {ситуация}.
Тональность: {честная/тёплая/прямая — опиши своими словами}.
Аудитория: {кто это читает, их эмоциональное состояние}.
Оцени черновик по шкале перед финальным ответом:
— Уровень 2: поверхностно, клише, роботно, дежурные фразы
— Уровень 3: функционально, но без живости и культурной точности
— Уровень 4: живой язык, уместные обороты, адаптировано под ситуацию
— Уровень 5: человеческий поток, без штампов, тонко подстроен под
эмоцию читателя
Избегай: {конкретные клише или обороты, которые ты не хочешь видеть}.
Целевой уровень: 5. Если черновик ниже 4 — перепиши.
Длина: {число слов}.
Плейсхолдеры:
- {тип текста} — письмо, пост, скрипт разговора, сообщение
- {ситуация} — конкретно и в деталях: кто, что случилось, контекст
- {тональность} — опиши словами, не одним словом: «устало-честный, без пафоса»
- {клише} — самое частое что раздражает тебя в AI-текстах для этой ситуации
🚀 Быстрый старт — вставь в чат:
Вот шаблон для написания эмпатичных текстов с самооценкой качества.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит об аудитории, тональности и конкретных клише, которых нужно избежать — потому что именно эти параметры отличают уровень 4 от уровня 2 по шкале SPLIT.
Ограничения
⚠️ Один оценщик: Человеческую оценку проводил один носитель языка. Субъективность неизбежна — разные носители могут оценивать по-разному.
⚠️ Специфика кризисных тем: Шкала SPLIT создавалась для эмоциональной поддержки в кризисных ситуациях. Для делового текста или технических задач деградация может быть другой.
⚠️ Украинский ≠ русский: Исследование про украинский язык. Для русского — разрыв с английским, скорее всего, меньше (русский лучше представлен в обучающих данных), но принцип аналогичен: грамотность не равна культурной точности.
⚠️ Модели быстро обновляются: Результаты актуальны для конкретных версий. Следующие версии могут изменить картину.
Как исследовали
Исследователи создали 500 реальных запросов о психологической поддержке — по 100 на каждую тему: стресс, паника, одиночество, вынужденное переселение, напряжение. Запросы сгенерировали через GPT-4o, перевели на украинский, затем носитель языка с уровнем C2 проверил 15% выборки вручную.
Три модели — DeepSeek-V3, Gemini-2.5-Flash, LLaMA-3.3-70B-Instruct — отвечали на все 500 запросов на английском и украинском. Три другие модели (GPT-4o, Mistral Large, Claude 4.5 Sonnet) выступали судьями — оценивали ответы по трём параметрам. Затем 10% ответов оценил человек — и сравнили.
Самый неожиданный результат: AI-судьи увидели улучшение у Gemini и LLaMA при переходе на украинский, тогда как человек увидел падение почти на 1.5 пункта. Это означает, что модели измеряли разные вещи: AI смотрел на структуру и грамматику, человек — на живость и аутентичность. Именно отсюда главный практический вывод: LLM-самооценка ненадёжна для культурных задач в нелатинских языках.
Адаптации и экстраполяции
🔧 Техника: явная анти-клише инструкция → живой текст на русском
Добавь в промпт конкретный список клише, которых нужно избежать:
Запрещённые фразы и обороты: — "в эти непростые времена" — "я слышу тебя" — "ты не один" — "всё будет хорошо" — любые обороты с "путь", "рост", "возможность"Это прямой ответ на проблему из исследования: LLM по умолчанию съезжает к шаблонным «роботным» выражениям. Явный запрет убирает их из пространства генерации.
🔧 Техника: уровневая шкала как инструмент редактуры
Если текст уже написан — попроси модель оценить его по шкале 1–5 и назвать конкретные фразы, которые снижают уровень. Это работает как структурированная обратная связь: вместо «улучши текст» модель ищет конкретные точки деградации.
Вот текст: {текст} Оцени по шкале: 2 — роботно, клише, без живости 5 — человеческий поток, аутентичные обороты, без штампов Назови конкретные фразы, которые снижают уровень. Предложи замену для каждой.
Ресурсы
Название: SPLIT: Cross-Lingual Empathy and Cultural Grounding in English and Ukrainian LLM Responses
Датасет и материалы: github.com/Anna-a-host/SPLIT-Cross-Lingual-Empathy-and-Cultural-Grounding-in-English-and-Ukrainian-LLMs
Автор: Anna Chorna (July 2026)
