TL;DR
Языковой разрыв в LLM — не общий, а задачезависимый. Когда модель ищет один точный ответ (что это за болезнь? какой факт?), English-промпт даёт стабильно больше. Когда модель рассуждает, строит план, перебирает варианты — разрыв исчезает. В задачах планирования и анализа разница между английским и родным языком статистически нулевая.
Многие пишут промпты на английском, потому что "так лучше работает". Иногда лучше, иногда нет — зависит от типа задачи. Для поиска факта или единственно верного ответа точность на английском выше на 7–12 пунктов. Для сложного анализа, где нет одного правильного ответа, — разница исчезает или разворачивается в пользу родного языка. Причина: модели тренировались преимущественно на английских медицинских текстах, что даёт преимущество в воспроизведении фактов, но не в процессе рассуждения — рассуждение языконезависимо.
Исследователи создали бенчмарк ClinicalBr из 2 892 реальных бразильских медицинских кейсов и проверили четыре модели на двух языках. Вывод: выбор языка промпта должен зависеть от типа задачи, а не от общего правила "английский всегда лучше".
Схема метода
Это не техника с шагами, а практическое правило выбора языка промпта на основе типа задачи:
ТИП ЗАДАЧИ 1 — Поиск единственного ответа
Нужно: конкретный факт, точная классификация,
"что это?", "как называется?"
→ Используй английский промпт
ТИП ЗАДАЧИ 2 — Рассуждение, анализ, планирование
Нужно: разобрать варианты, построить план,
взвесить аргументы, выработать решение
→ Язык не важен. Пиши на родном языке.
ТИП ЗАДАЧИ 3 — Генерация и структурирование текста
Нужно: написать, объяснить, оформить,
изложить логику
→ Родной язык может быть лучше.
Пример применения
Задача: Илья Красильщик запускает новый медиапроект и просит Claude помочь разобраться в стратегии монетизации. Как лучше формулировать запрос?
Промпт — когда выбрать английский:
What are the main monetization models for independent media in 2024?
List the top 3 with brief descriptions.
Здесь нужен конкретный список → английский даст более точный и полный перечень факт-ориентированного контента из предтренировочного корпуса.
Промпт — когда выбирать русский:
Я запускаю независимый медиапроект в России.
Аудитория: предприниматели 30–45 лет, Москва.
Помоги разобраться: что лучше подойдёт как основная модель монетизации —
платная подписка, нативная реклама или ивенты?
Учти, что у нас пока нет устойчивой аудитории и маленький бюджет.
Взвесь плюсы и минусы каждого варианта под мой контекст.
Здесь нужен разбор вариантов с учётом контекста → языковой разрыв исчезает, рассуждение работает одинаково хорошо на русском.
Результат: В первом случае модель вернёт структурированный список с чёткими определениями — факт-ориентированный ответ, где английский немного выигрывает. Во втором — развёрнутый сравнительный анализ с учётом вашего контекста. Качество рассуждения от языка не зависит.
Почему это работает
LLM не "хранит знания" равномерно. Большинство медицинских, технических и научных текстов в предтренировочных данных — на английском. Когда модель воспроизводит конкретный факт, она как бы "достаёт" его из памяти. Эта память лучше размечена английскими токенами → точность воспроизведения выше.
Но рассуждение — это другой процесс. Когда модель строит план, перебирает варианты или взвешивает аргументы, она не достаёт готовый ответ, а генерирует его шаг за шагом. Этот механизм — языконезависимый. Разница в точности между языками статистически исчезает.
Ключевой рычаг — модель. Более сильные модели с явным рассуждением (DeepSeek-R1, o3, GPT-4o) имеют меньший языковой разрыв даже для фактических задач. Слабые, более "языкозависимые" модели — больший. Если используешь сильную модель → языковой разрыв минимален в любой задаче. Если слабее — разрыв ощутим именно на поисковых вопросах.
Шаблон промпта
Для быстрой самодиагностики типа задачи:
Мне нужно [описание задачи].
Определи: это задача поиска конкретного факта/ответа
или задача рассуждения/анализа/планирования?
Если первое — переформулируй мой запрос на английском
и дай ответ. Если второе — отвечай на русском.
Плейсхолдеры:
- {описание задачи} — что именно нужно сделать
Для задачи с конкретным ответом (на английском):
Provide a concise and specific answer to the following:
{your factual question}
Return only the direct answer, no preamble.
Для задачи с рассуждением (на русском):
Мне нужно разобраться в следующем: {задача}.
Контекст: {описание ситуации}.
Ограничения: {что важно учесть}.
Взвесь варианты, объясни логику выбора.
Не нужен единственный правильный ответ — нужно понимание.
🚀 Быстрый старт — вставь в чат:
Помоги разобраться: когда мне писать промпты на английском,
а когда на русском? Спроси про мои типичные задачи
и дай конкретное правило под мой кейс.
[вставить шаблон выше]
LLM уточнит тип задач, которые ты решаешь — потому что правило зависит от того, ищешь ты факт или анализируешь.
Почему это работает
Слабость LLM для нас — нерелевантна. Языковой разрыв реален, но узок: он проявляется только при retrieval-задачах — когда нужен один точный ответ. Для подавляющего большинства пользовательских сценариев (написать, разобрать, спланировать, критиковать, придумать) — язык не определяет качество.
Сильная сторона LLM — рассуждение. Chain-of-Thought, пошаговый анализ, взвешивание вариантов — это то, что модель умеет одинаково хорошо на любом языке. Именно поэтому задачи планирования и дифференциального анализа показали нулевой языковой gap.
Практический вывод: Переключайся на английский только если тебе нужен конкретный факт или классификация ("что это", "как называется", "какой стандарт"). Всё остальное — пиши на родном языке, не теряешь ничего.
Ограничения
⚠️ Домен: Исследование проводилось на медицинских текстах. Насколько точно цифры переносятся на другие области (юриспруденция, маркетинг, технологии) — неизвестно. Паттерн, скорее всего, сохраняется, но величина разрыва может отличаться.
⚠️ Направленность: Сравнение было португальский ↔ английский. Для русскоязычных пользователей — принцип применим, но число может быть другим. Русский лучше представлен в предтренировке, чем португальский → разрыв в retrieval-задачах может быть меньше.
⚠️ Retrieval-задачи сложнее чем кажется: F1 для рекомендации анализов ниже 0.10, для дифференциальной диагностики — 0.20–0.27 даже на английском. Это напоминание: LLM плохо справляется с перечислением конкретных объектов, даже на лучшем языке.
⚠️ Сильные модели нивелируют разрыв: Для o3-mini и DeepSeek-R1 языковой gap в retrieval меньше, чем для слабых моделей. Если ты используешь топовые модели — правило "английский для фактов" работает слабее.
Как исследовали
Команда взяла 2 892 реальных бразильских медицинских кейса из 28 журналов SciELO, перевела их на английский и создала параллельный корпус. Каждый кейс превратили в четыре задачи с разной степенью "открытости" ответа — от поиска диагноза (один правильный ответ) до составления плана лечения (множество верных вариантов).
Интересное решение дизайна: чтобы исключить утечку данных (вдруг модели просто запомнили кейсы), проверили точность по годам публикации с 2015 по 2024. Accuracy оказалась равномерной — значит, модели не "учили" эти кейсы, а действительно рассуждали.
Результат, который удивил: тропические и эндемичные бразильские болезни оказались НЕ сложнее обычных случаев. Лихорадка денге или болезнь Шагаса распознавались так же хорошо, как типичные случаи. Это значит, что даже "редкие для мирового корпуса" темы уже адекватно представлены в предтренировке — интернет победил географию.
Главный инсайт вытек из сравнения задач между собой: разрыв языков менялся не плавно, а скачком — пропасть в diagnosis retrieval и почти нуль в treatment planning. Это и стало ключом к объяснению: дело не в языке как таковом, а в механизме задачи.
Адаптации и экстраполяции
🔧 Техника: тест на тип задачи перед выбором языка
Перед тем как писать промпт, задай себе вопрос: "Есть ли один правильный ответ?" Если да — переключись на английский. Если ответов много, нужен анализ или план — пиши на русском, не теряешь ничего.
🔧 Техника: язык как сигнал для модели
Для задач с единственным ответом попробуй гибридный подход: напиши вопрос на английском, но контекст — на русском:
Context (in Russian): [твой контекст на русском] Question: What is the specific [term/classification/standard] for this case? Answer in Russian.Английский вопрос активирует retrieval-механизм, русский контекст сохраняет точность передачи деталей.
🔧 Экстраполяция: проверь свою любимую модель
Если ты регулярно используешь одну модель — проведи собственный тест. Задай один и тот же фактический вопрос на русском и английском. Сравни точность. Это даст тебе личную "калибровку" того, насколько для твоей модели актуально правило переключения языка.
Ресурсы
ClinicalBr: Beyond English Benchmarks — Clinical LLM Evaluation in Brazilian Portuguese
Авторы: Josefino Cabral Melo Lima, Giordano de Pinho Souza, Glaucia Melo, Daniel Schneider
Организации: Federal University of Rio de Janeiro (UFRJ), Toronto Metropolitan University
Корпус: 2 892 кейса, 28 медицинских журналов SciELO, 18 специальностей
Модели: MedGemma-27B, Sabiá-4, DeepSeek-R1, o3-mini
