3,583 papers
arXiv:2606.07853 71 5 июня 2026 г. FREE

ClinicalBr: язык промпта важен — но только для одного типа задач

КЛЮЧЕВАЯ СУТЬ
Совет «пиши промпты на английском — будет точнее» работает ровно в одном случае из трёх. Принцип ClinicalBr позволяет наконец выбирать язык промпта не по привычке, а по делу — там где английский реально даёт +7–12 пунктов точности, и там где он вообще ничего не меняет. Разрыв возникает только когда нужен конкретный факт: модель «вытаскивает» его из памяти, которая размечена преимущественно английскими токенами. Когда модель рассуждает шаг за шагом — этот механизм не работает, и разница исчезает. Итог: анализ, планирование, сравнение вариантов — родной язык не хуже английского.
Адаптировать под запрос

TL;DR

Языковой разрыв в LLM — не общий, а задачезависимый. Когда модель ищет один точный ответ (что это за болезнь? какой факт?), English-промпт даёт стабильно больше. Когда модель рассуждает, строит план, перебирает варианты — разрыв исчезает. В задачах планирования и анализа разница между английским и родным языком статистически нулевая.

Многие пишут промпты на английском, потому что "так лучше работает". Иногда лучше, иногда нет — зависит от типа задачи. Для поиска факта или единственно верного ответа точность на английском выше на 7–12 пунктов. Для сложного анализа, где нет одного правильного ответа, — разница исчезает или разворачивается в пользу родного языка. Причина: модели тренировались преимущественно на английских медицинских текстах, что даёт преимущество в воспроизведении фактов, но не в процессе рассуждения — рассуждение языконезависимо.

Исследователи создали бенчмарк ClinicalBr из 2 892 реальных бразильских медицинских кейсов и проверили четыре модели на двух языках. Вывод: выбор языка промпта должен зависеть от типа задачи, а не от общего правила "английский всегда лучше".


🔬

Схема метода

Это не техника с шагами, а практическое правило выбора языка промпта на основе типа задачи:

ТИП ЗАДАЧИ 1 — Поиск единственного ответа
  Нужно: конкретный факт, точная классификация,
         "что это?", "как называется?"
  → Используй английский промпт

ТИП ЗАДАЧИ 2 — Рассуждение, анализ, планирование
  Нужно: разобрать варианты, построить план,
         взвесить аргументы, выработать решение
  → Язык не важен. Пиши на родном языке.

ТИП ЗАДАЧИ 3 — Генерация и структурирование текста
  Нужно: написать, объяснить, оформить,
         изложить логику
  → Родной язык может быть лучше.

🚀

Пример применения

Задача: Илья Красильщик запускает новый медиапроект и просит Claude помочь разобраться в стратегии монетизации. Как лучше формулировать запрос?

Промпт — когда выбрать английский:

What are the main monetization models for independent media in 2024?
List the top 3 with brief descriptions.

Здесь нужен конкретный список → английский даст более точный и полный перечень факт-ориентированного контента из предтренировочного корпуса.

Промпт — когда выбирать русский:

Я запускаю независимый медиапроект в России.
Аудитория: предприниматели 30–45 лет, Москва.

Помоги разобраться: что лучше подойдёт как основная модель монетизации —
платная подписка, нативная реклама или ивенты?

Учти, что у нас пока нет устойчивой аудитории и маленький бюджет.
Взвесь плюсы и минусы каждого варианта под мой контекст.

Здесь нужен разбор вариантов с учётом контекста → языковой разрыв исчезает, рассуждение работает одинаково хорошо на русском.

Результат: В первом случае модель вернёт структурированный список с чёткими определениями — факт-ориентированный ответ, где английский немного выигрывает. Во втором — развёрнутый сравнительный анализ с учётом вашего контекста. Качество рассуждения от языка не зависит.


🧠

Почему это работает

LLM не "хранит знания" равномерно. Большинство медицинских, технических и научных текстов в предтренировочных данных — на английском. Когда модель воспроизводит конкретный факт, она как бы "достаёт" его из памяти. Эта память лучше размечена английскими токенами → точность воспроизведения выше.

Но рассуждение — это другой процесс. Когда модель строит план, перебирает варианты или взвешивает аргументы, она не достаёт готовый ответ, а генерирует его шаг за шагом. Этот механизм — языконезависимый. Разница в точности между языками статистически исчезает.

Ключевой рычаг — модель. Более сильные модели с явным рассуждением (DeepSeek-R1, o3, GPT-4o) имеют меньший языковой разрыв даже для фактических задач. Слабые, более "языкозависимые" модели — больший. Если используешь сильную модель → языковой разрыв минимален в любой задаче. Если слабее — разрыв ощутим именно на поисковых вопросах.


📋

Шаблон промпта

Для быстрой самодиагностики типа задачи:

Мне нужно [описание задачи].

Определи: это задача поиска конкретного факта/ответа
или задача рассуждения/анализа/планирования?

Если первое — переформулируй мой запрос на английском
и дай ответ. Если второе — отвечай на русском.

Плейсхолдеры: - {описание задачи} — что именно нужно сделать


Для задачи с конкретным ответом (на английском):

Provide a concise and specific answer to the following:

{your factual question}

Return only the direct answer, no preamble.

Для задачи с рассуждением (на русском):

Мне нужно разобраться в следующем: {задача}.

Контекст: {описание ситуации}.
Ограничения: {что важно учесть}.

Взвесь варианты, объясни логику выбора.
Не нужен единственный правильный ответ — нужно понимание.

🚀 Быстрый старт — вставь в чат:

Помоги разобраться: когда мне писать промпты на английском,
а когда на русском? Спроси про мои типичные задачи
и дай конкретное правило под мой кейс.

[вставить шаблон выше]

LLM уточнит тип задач, которые ты решаешь — потому что правило зависит от того, ищешь ты факт или анализируешь.


🧠

Почему это работает

Слабость LLM для нас — нерелевантна. Языковой разрыв реален, но узок: он проявляется только при retrieval-задачах — когда нужен один точный ответ. Для подавляющего большинства пользовательских сценариев (написать, разобрать, спланировать, критиковать, придумать) — язык не определяет качество.

Сильная сторона LLM — рассуждение. Chain-of-Thought, пошаговый анализ, взвешивание вариантов — это то, что модель умеет одинаково хорошо на любом языке. Именно поэтому задачи планирования и дифференциального анализа показали нулевой языковой gap.

Практический вывод: Переключайся на английский только если тебе нужен конкретный факт или классификация ("что это", "как называется", "какой стандарт"). Всё остальное — пиши на родном языке, не теряешь ничего.


⚠️

Ограничения

⚠️ Домен: Исследование проводилось на медицинских текстах. Насколько точно цифры переносятся на другие области (юриспруденция, маркетинг, технологии) — неизвестно. Паттерн, скорее всего, сохраняется, но величина разрыва может отличаться.

⚠️ Направленность: Сравнение было португальский ↔ английский. Для русскоязычных пользователей — принцип применим, но число может быть другим. Русский лучше представлен в предтренировке, чем португальский → разрыв в retrieval-задачах может быть меньше.

⚠️ Retrieval-задачи сложнее чем кажется: F1 для рекомендации анализов ниже 0.10, для дифференциальной диагностики — 0.20–0.27 даже на английском. Это напоминание: LLM плохо справляется с перечислением конкретных объектов, даже на лучшем языке.

⚠️ Сильные модели нивелируют разрыв: Для o3-mini и DeepSeek-R1 языковой gap в retrieval меньше, чем для слабых моделей. Если ты используешь топовые модели — правило "английский для фактов" работает слабее.


🔍

Как исследовали

Команда взяла 2 892 реальных бразильских медицинских кейса из 28 журналов SciELO, перевела их на английский и создала параллельный корпус. Каждый кейс превратили в четыре задачи с разной степенью "открытости" ответа — от поиска диагноза (один правильный ответ) до составления плана лечения (множество верных вариантов).

Интересное решение дизайна: чтобы исключить утечку данных (вдруг модели просто запомнили кейсы), проверили точность по годам публикации с 2015 по 2024. Accuracy оказалась равномерной — значит, модели не "учили" эти кейсы, а действительно рассуждали.

Результат, который удивил: тропические и эндемичные бразильские болезни оказались НЕ сложнее обычных случаев. Лихорадка денге или болезнь Шагаса распознавались так же хорошо, как типичные случаи. Это значит, что даже "редкие для мирового корпуса" темы уже адекватно представлены в предтренировке — интернет победил географию.

Главный инсайт вытек из сравнения задач между собой: разрыв языков менялся не плавно, а скачком — пропасть в diagnosis retrieval и почти нуль в treatment planning. Это и стало ключом к объяснению: дело не в языке как таковом, а в механизме задачи.


💡

Адаптации и экстраполяции

🔧 Техника: тест на тип задачи перед выбором языка

Перед тем как писать промпт, задай себе вопрос: "Есть ли один правильный ответ?" Если да — переключись на английский. Если ответов много, нужен анализ или план — пиши на русском, не теряешь ничего.

🔧 Техника: язык как сигнал для модели

Для задач с единственным ответом попробуй гибридный подход: напиши вопрос на английском, но контекст — на русском:

Context (in Russian): [твой контекст на русском]

Question: What is the specific [term/classification/standard] for this case?
Answer in Russian.

Английский вопрос активирует retrieval-механизм, русский контекст сохраняет точность передачи деталей.

🔧 Экстраполяция: проверь свою любимую модель

Если ты регулярно используешь одну модель — проведи собственный тест. Задай один и тот же фактический вопрос на русском и английском. Сравни точность. Это даст тебе личную "калибровку" того, насколько для твоей модели актуально правило переключения языка.


🔗

Ресурсы

ClinicalBr: Beyond English Benchmarks — Clinical LLM Evaluation in Brazilian Portuguese

Авторы: Josefino Cabral Melo Lima, Giordano de Pinho Souza, Glaucia Melo, Daniel Schneider

Организации: Federal University of Rio de Janeiro (UFRJ), Toronto Metropolitan University

Корпус: 2 892 кейса, 28 медицинских журналов SciELO, 18 специальностей

Модели: MedGemma-27B, Sabiá-4, DeepSeek-R1, o3-mini


📋 Дайджест исследования

Ключевая суть

Совет «пиши промпты на английском — будет точнее» работает ровно в одном случае из трёх. Принцип ClinicalBr позволяет наконец выбирать язык промпта не по привычке, а по делу — там где английский реально даёт +7–12 пунктов точности, и там где он вообще ничего не меняет. Разрыв возникает только когда нужен конкретный факт: модель «вытаскивает» его из памяти, которая размечена преимущественно английскими токенами. Когда модель рассуждает шаг за шагом — этот механизм не работает, и разница исчезает. Итог: анализ, планирование, сравнение вариантов — родной язык не хуже английского.

Принцип работы

Тип задачи диктует язык, а не общее правило. Нужен один конкретный ответ — как называется, что это, какой стандарт — пиши на английском. Модель точнее достаёт факт из предтренировочной памяти, которая заполнена преимущественно английскими медицинскими и научными текстами. Нужен разбор ситуации, сравнение вариантов, план — язык не важен. Модель не вспоминает готовый ответ, а строит его шаг за шагом. Этот процесс — языконезависимый. Ещё одна переменная: чем сильнее модель (GPT-4o, o3-mini, DeepSeek-R1), тем меньше языковой разрыв даже для фактических вопросов. Слабые модели — разрыв ощутим. Сильные — почти исчезает.

Почему работает

LLM не хранит знания равномерно. Медицинские, технические и научные тексты в предтренировочных данных — преимущественно на английском. При поиске факта модель обращается к этому массиву. Английский токен ближе к нужному знанию — отсюда и разрыв в 7–12 пунктов. Рассуждение устроено иначе: модель не достаёт готовый ответ, а генерирует его шаг за шагом. Этот механизм не привязан к конкретному языку. Ещё один честный факт из исследования: показатель F1 для перечисления конкретных объектов (список анализов, дифференциальный диагноз) — всего 0.20–0.27 даже на английском. То есть языковой разрыв реален, но оба результата в этом классе задач — слабые. LLM плохо перечисляет конкретные объекты на любом языке.

Когда применять

Для всех, кто регулярно пишет промпты на русском — и периодически задаётся вопросом: «а вдруг на английском выйдет точнее?» Переключайся на английский — когда ищешь конкретный факт, стандарт, классификацию, название метода, протокол. Один правильный ответ — английский даёт преимущество. Оставайся на русском — когда нужен анализ, сравнение вариантов, планирование, написание текста, критика идеи. Качество рассуждения одинаковое. НЕ подходит как жёсткое правило для: GPT-4o, o3, DeepSeek-R1 — у сильных моделей языковой разрыв минимален даже на фактических вопросах. При использовании топ-моделей пиши как удобно.

Мини-рецепт

1. Определи тип задачи: тебе нужен один точный ответ («как называется», «что это», «какой протокол») — или разбор ситуации с вариантами?
2. Выбери язык по правилу: один правильный ответ → английский. Анализ, план, сравнение → пиши на русском.
3. Учти модель: используешь GPT-4o, o3 или DeepSeek-R1? Языковой разрыв у них минимален — пиши как удобно, не парься.
4. Если сомневаешься — проверь: сделай один и тот же запрос на двух языках. На фактическом вопросе разница будет заметна. На рассуждении — нет.

Примеры

[ПЛОХО]: `Какие критерии диагностики синдрома Вольфа-Паркинсона-Уайта?` (Нужен конкретный факт — а пишем на русском и теряем +7–12 пунктов точности) [ХОРОШО]: `What are the key diagnostic criteria for Wolff-Parkinson-White syndrome? List only the core criteria.` (Факт → английский. Модель точнее достаёт его из предтренировочной памяти) --- [ПЛОХО]: `What monetization model should I choose for my independent media project in Russia?` (Нужен разбор под конкретный контекст — а пишем на английском без нужды) [ХОРОШО]: `Я запускаю независимое медиа в России. Аудитория — предприниматели 30–45 лет, бюджет минимальный, устойчивой базы читателей пока нет. Взвесь три варианта: платная подписка, нативная реклама, ивенты. Что выбрать и почему — с учётом моих ограничений?` (Рассуждение с контекстом → русский работает так же хорошо, а контекст передаётся точнее)
Источник: Beyond English Benchmarks: Clinical LLM Evaluation in Brazilian Portuguese
ArXiv ID: 2606.07853 | Сгенерировано: 2026-06-09 04:37

Проблемы LLM

ПроблемаСутьКак обойти
Модель хуже вспоминает факты на не-английском языкеСпрашиваешь: "что это за болезнь?" или "как называется этот стандарт?" на русском. Точность падает. Причина: большинство фактических текстов в обучении — на английском. Модель как бы "ищет" факт по английским меткам. Не находит так точно. Разрыв — 7–12 пунктов. Только на задачах с одним правильным ответом.Переформулируй фактический вопрос на английском. Пример: вместо "какой препарат первой линии при X" пиши "what is the first-line treatment for X". Для сильных моделей (GPT-4o и выше) разрыв меньше — можно не переключаться.

Методы

МетодСуть
Язык промпта по типу задачиСначала определи тип задачи. Нужен один точный ответ ("что это?", "как называется?", "какой факт?") пиши на английском. Нужно рассуждение (взвесить варианты, разобрать ситуацию, построить план) пиши на родном языке, не теряешь ничего. Почему работает: факты хранятся в модели через английские токены. Рассуждение — это генерация шаг за шагом. Генерация не зависит от языка. Не работает для сильных моделей с явным рассуждением (o3, DeepSeek-R1) — у них языковой разрыв минимален даже для фактов.

Тезисы

ТезисКомментарий
Рассуждение в модели работает одинаково на любом языкеКогда модель строит план, сравнивает варианты или анализирует ситуацию — язык не влияет на качество. Это другой процесс. Не поиск готового ответа, а генерация нового. Генерация языконезависима. Применяй: для анализа, планирования, сравнения — пиши на том языке, на котором думаешь.
📖 Простыми словами

Beyond English benchmarks: clinicalllmevaluation in Brazilian Portuguese

arXiv: 2606.07853

Языковой разрыв в нейросетях — это не просто вопрос перевода, а проблема того, как модель «складирует» знания в своей голове. Большинство серьезных данных, от медицины до кодинга, заливалось в LLM на английском, поэтому фактическая база там прошита гораздо плотнее. Когда ты спрашиваешь модель о конкретном факте на родном языке, она вынуждена заниматься двойной работой: искать ответ в «английском секторе» памяти и на лету переводить его, из-за чего точность воспроизведения фактов падает.

Это как если бы ты учился на врача в Оксфорде, а потом приехал на родину и пытался на ходу переводить латинские термины и сложные диагнозы. Вроде суть понимаешь, но в деталях начинаешь лажать. Если тебе нужно вытащить из модели конкретную цифру, название болезни или технический параметр — пиши промпт на английском, иначе риск получить галлюцинацию вместо ответа вырастает в разы.

Что реально удивляет в исследовании: этот разрыв полностью исчезает, когда дело доходит до логики и планирования. В задачах на рассуждение, где нужно построить стратегию или проанализировать кейс, разница между английским и португальским (или русским) оказалась статистически нулевой. Модели плевать, на каком языке строить логические цепочки, потому что «движок» мышления у неё универсален и не привязан к конкретному словарю.

Тестировали это на сложных медицинских кейсах, но принцип универсален для любой интеллектуальной работы. Если ты просишь Claude составить контент-план или продумать стратегию монетизации для медиа, не мучай себя переводчиком — пиши на родном языке, результат будет таким же качественным. Языковой барьер существует только для фактов, но не для мозгового штурма.

Короче, запомни простое правило: если тебе нужен справочник — используй английский, если нужен собеседник и стратег — говори на своем. Пытаться выжать из модели сложные научные данные на русском — это верный способ получить херню на выходе. Разделяй задачи на «поиск знаний» и «генерацию идей», и тогда нейронка перестанет тупить на ровном месте.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с