3,583 papers
arXiv:2507.22947 82 27 июля 2025 г. FREE

Модель объяснила тему красиво — и соврала на трети фактов.

КЛЮЧЕВАЯ СУТЬ
Модель объяснила тему красиво — и соврала на трети фактов. Или точно — но сухо, как учебник 1987 года. Это не случайность: LLM оптимизирует то, что вы явно назвали важным, и не трогает остальное. Исследование ELMES протестировало популярные модели в роли учителей и подтвердило: у каждой свой слепой угол — эмпатия без точности, точность без адаптации, адаптация без структуры. Метод позволяет перекрыть все слепые углы сразу — взять готовые педагогические критерии оценки и вставить их прямо в промпт как требования к ответу. Вместо «объясни тему» — список из 4-5 критериев: точность фактов, адаптация под аудиторию, педагогическая стратегия, тон. Модель вынуждена тянуть все измерения одновременно, а не выбирать одно по умолчанию.
Адаптировать под запрос

Это исследование представляет систему (фреймворк ELMES) для автоматической оценки того, насколько хорошо разные LLM справляются с ролью "учителя". Авторы протестировали популярные модели в четырех сценариях: объяснение темы, пошаговая помощь в решении задачи, создание планов уроков и генерация вопросов.

Ключевой результат: Ни одна модель не является лучшей во всем; модели демонстрируют очень разные "профили способностей" — некоторые отлично имитируют эмпатию и роль учителя, но дают неточные факты, в то время как другие фактологически точны, но не могут поддерживать диалог и персонализировать объяснения.

Суть метода для практического применения заключается в том, чтобы перестать писать общие промпты и начать формулировать запросы как техническое задание с четкими критериями качества. Исследование дает нам эти критерии, разработанные экспертами в области образования.

Вместо того чтобы просить LLM "Объясни фотосинтез", вы должны использовать выводы исследования и попросить: "Объясни фотосинтез, соблюдая следующие критерии: 1. Следование роли: Будь как увлеченный учитель биологии для 8-го класса. 2. Эмоциональная поддержка: Используй ободряющий и позитивный тон. 3. Точность знаний: Убедись, что все факты верны. 4. Адаптация под ученика: Используй аналогии, понятные подростку, увлекающемуся видеоиграми. 5. Стратегия объяснения: Задавай вопросы, чтобы вовлечь в размышление, а не просто выдавай факты".

Этот подход, основанный на детализации требований к качеству, заставляет LLM сфокусироваться не только на генерации текста по теме, но и на соблюдении заданных рамок, что кардинально повышает итоговый результат. Выводы исследования показывают, что если не указать эти критерии явно, модель может хорошо справиться с одним (например, точностью), но полностью провалить другое (например, адаптацию).

  • Прямая применимость: Пользователь может взять таблицы с оценочными метриками из приложения к статье (например, Table A.6 для объяснения концепций или Table A.8 для создания планов) и напрямую встроить их в свои промпты в виде списка требований или критериев оценки. Это не требует никаких технических навыков.

  • Концептуальная ценность: Исследование дает пользователю фундаментальное понимание:

    1. LLM не монолитны: Их способности "неровные". Модель, которая хорошо пишет стихи, не обязательно будет хорошим репетитором.
    2. Форма не равна содержанию: Идеально структурированный и отформатированный ответ может быть пустым и бесполезным по сути. Нужно явно запрашивать глубину и качество содержания.
    3. Роль и знания — разные вещи: Модель может идеально отыгрывать роль эксперта, но при этом "галлюцинировать". Нельзя доверять ответу только потому, что он звучит авторитетно.
  • Потенциал для адаптации: Метод легко адаптируется для любой сферы. Нужно лишь мысленно разбить свою задачу на ключевые составляющие качества. Например, для написания маркетингового текста это могут быть: "Привлекательность заголовка", "Ясность призыва к действию", "Соответствие тону бренда", "Ориентация на целевую аудиторию". Затем эти составляющие включаются в промпт как прямые инструкции.

Вот пример промпта для объяснения сложной темы ребенку, основанный на метриках из исследования (Table A.6: Knowledge Point Explanation).

# ЗАДАЧА: Объяснить концепцию "демократия" ребенку 10 лет

Ты — опытный и добрый учитель истории для младших классов. Твоя задача — объяснить сложную концепцию простыми словами, используя яркие аналогии.

## КОНТЕКСТ
*   **Тема:** Демократия.
*   **Аудитория:** Ребенок 10 лет, который любит играть в командные игры и смотреть мультфильмы.

## ИНСТРУКЦИИ И КРИТЕРИИ КАЧЕСТВА
Твой ответ должен соответствовать следующим критериям:

1.  **Следование роли (Role Adherence):**
    *   Говори от первого лица, как учитель.
    *   Используй простой, дружелюбный и ободряющий язык.
    *   Не используй сложных терминов без их немедленного объяснения.

2.  **Стратегия объяснения (Explanation Strategy):**
    *   **Используй аналогию:** Сравни демократию с выбором, какой мультфильм будет смотреть вся семья вечером, или с выбором капитана в школьной спортивной команде.
    *   **Вовлекай в размышление:** Задавай риторические вопросы (например, "Представь, если бы только папа решал, какой мультик смотреть каждый день. Было бы это справедливо?").

3.  **Адаптация под ученика (Persona Responsiveness):**
    *   Упомяни в примере что-то, что близко ребенку (командные игры, выбор пиццы, мультфильмы).

4.  **Эмоциональная поддержка (Emotional Support):**
    *   Заверши объяснение на позитивной ноте, подчеркнув, почему это хорошая и важная идея.

5.  **Точность знаний (Knowledge Mastery):**
    *   Несмотря на упрощение, ключевая идея (власть народа, выборы, равенство голосов) должна быть передана корректно.

Начинай объяснение.

Этот промпт эффективен, потому что он не просто ставит задачу ("объясни демократию"), а управляет процессом генерации, опираясь на выводы исследования:

  • Предотвращение слабого ответа: Исследование показало, что без четких указаний модель может выдать сухой, энциклопедический или неточный текст. Промпт заставляет модель одновременно оптимизировать ответ по нескольким направлениям: быть точной (Knowledge Mastery), понятной (Role Adherence, Persona Responsiveness) и увлекательной (Explanation Strategy).
  • Структурирование требований: Разделение инструкций на Роль, Стратегию, Адаптацию и Точность напрямую отражает метрики, по которым в исследовании оценивалось качество. Это дает LLM четкую структуру для генерации и самооценки ответа.
  • Акцент на педагогике: Требование использовать аналогию и задавать вопросы (Explanation Strategy) — это прямое применение выводов о том, что лучшие ответы не просто излагают факты, а используют педагогические приемы для вовлечения.

Пример для создания структуры коммерческого предложения, основанный на метриках из исследования (адаптация Table A.8: Interdisciplinary Lesson Plan Generation).

# ЗАДАЧА: Создать структуру коммерческого предложения для IT-услуги

Ты — опытный менеджер по продажам, который готовит коммерческое предложение (КП) для потенциального клиента.

## КОНТЕКСТ
*   **Наша услуга:** Внедрение CRM-системы для автоматизации отдела продаж.
*   **Клиент:** Средний бизнес (50-100 сотрудников), который сейчас ведет учет клиентов в Excel и жалуется на потерю заявок.

## ИНСТРУКЦИИ И КРИТЕРИИ КАЧЕСТВА
Твоя задача — не написать всё КП, а создать его **детальную структуру (план)**. Структура должна соответствовать следующим критериям:

1.  **Логическая интеграция (Interdisciplinary Logical Integration):**
    *   Четко свяжи каждую предлагаемую функцию CRM с конкретной "болью" клиента (например, "Модуль 'Воронка продаж'" → "Решение проблемы потерянных заявок").

2.  **Аутентичность контекста (Context Authenticity):**
    *   В разделе "Пример выгоды" приведи реалистичный сценарий, релевантный для клиента (например, "Как менеджер Иван перестанет забывать перезвонить клиенту N").

3.  **Когнитивная последовательность (Cognitive Progression Design):**
    *   Структурируй КП так, чтобы оно вело клиента от его текущей проблемы к пониманию ценности решения. План должен быть: Проблема → Предлагаемое решение → Как это работает → Выгоды в цифрах → План внедрения → Стоимость.

4.  **Замкнутая система оценки (Closed-Loop Evaluation Design):**
    *   Обязательно включи в структуру раздел "Критерии успеха (KPI)", где будет описано, как клиент сможет измерить эффективность внедрения (например, "Снижение числа потерянных заявок на 30% за 3 месяца").

5.  **Внутренняя согласованность (Internal Consistency):**
    *   Убедись, что все разделы плана логически связаны и не противоречат друг другу.

Создай эту структуру в виде маркированного списка с подпунктами.

Этот промпт работает, потому что он применяет концептуальные выводы из исследования к бизнес-задаче, предотвращая типичные ошибки LLM:

  • Борьба с поверхностностью: Исследование показало, что модели могут создавать хорошо отформатированные, но содержательно слабые планы. Требования Логическая интеграция и Аутентичность контекста заставляют модель наполнить структуру реальным смыслом и привязать ее к проблемам клиента, а не просто перечислить стандартные разделы КП.
  • Управление потоком информации: Критерий Когнитивная последовательность — это прямое применение педагогического принципа "от простого к сложному". Он заставляет LLM выстроить повествование, которое будет убедительным для клиента, а не просто набором фактов.
  • Фокус на измеримом результате: Требование Замкнутая система оценки (в виде KPI) заставляет модель думать не только о предложении, но и о его конечном результате и ценности для клиента. Это переводит ответ LLM с уровня "описания услуги" на уровень "решения бизнес-задачи", что является гораздо более ценным.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Высокая (косвенная). Исследование не предлагает прямых техник, но его оценочные метрики являются готовым шаблоном для создания детализированных и качественных промптов.
  • B. Улучшение качества диалоговых ответов: Высокая. Анализ сильных и слабых сторон моделей в диалоговых сценариях (например, "Ведомое решение задач") напрямую помогает понять, как формулировать запрос для получения более качественного ответа.
  • C. Прямая практическая применимость: Средняя. Пользователь не может использовать сам фреймворк ELMES, но может немедленно применить выводы и структуру оценочных метрик для построения своих промптов без какого-либо кода.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще демонстрирует "профиль способностей" разных LLM — одна и та же модель может быть сильна в эмпатии и следовании роли, но слаба в фактологии, или наоборот. Это ключевое знание для любого пользователя.
  • E. Новая полезная практика (кластеризация): Работа попадает в несколько кластеров:

    • Кластер 1 (Техники формулирования): Оценочные метрики можно напрямую переформулировать в инструкции для промпта (role-play, структурирование).
    • Кластер 2 (Поведенческие закономерности): Четко выявляет закономерность "компетентность в форме ≠ компетентность в содержании" (например, GPT-4o создает идеально отформатированные, но педагогически слабые планы).
    • Кластер 7 (Надежность и стабильность): Весь фреймворк нацелен на оценку качества и надежности ответов в специфическом домене.
  • Чек-лист практичности (+45 баллов к базовой оценке):

    • Дает готовые фразы/конструкции для промптов? (Нет)
    • Объясняет, где в промпте размещать важную информацию? (Нет)
    • Показывает, как структурировать сложные запросы? (Да, через систему метрик) → +15
    • Раскрывает неочевидные особенности поведения LLM? (Да, компромисс между ролью и фактами, формой и содержанием) → +15
    • Раскрывает эффективные метода суммаризации текста (Нет)
    • Предлагает способы улучшить consistency/точность ответов? (Да, требуя в промпте соответствия конкретным метрикам качества) → +15
📌

Цифровая оценка полезности

Исследование получает 82 балла, так как оно предоставляет чрезвычайно ценную, хотя и косвенную, пользу для обычного пользователя. Основная ценность заключается не в предложении новой техники промптинга, а в предоставлении "чертежа" для создания высококачественных промптов через свои детальные оценочные метрики. Пользователь, прочитав это, понимает, что для получения хорошего ответа нужно запрашивать не просто "объяснение", а "объяснение, которое соответствует таким-то критериям качества".

Контраргументы:

  • Почему оценка могла быть выше (>90)? Потому что таблицы с метриками (A.6 - A.9) — это, по сути, готовый, проверенный экспертами в образовании чек-лист для создания промптов в соответствующих областях. Это почти готовая техника "Промптинг на основе метрик качества", которую можно сразу брать и использовать, получая значительный прирост в качестве ответов.
  • Почему оценка могла быть ниже (<70)? Потому что основная цель статьи — представить фреймворк ELMES для исследователей, а не дать советы пользователям. Чтобы извлечь пользу, пользователю нужно проделать мыслительную работу: осознать, что оценочные метрики можно превратить в инструкции для промпта. Это не прямое руководство к действию, что снижает его ценность для тех, кто ищет быстрые и готовые решения.

📋 Дайджест исследования

Ключевая суть

Модель объяснила тему красиво — и соврала на трети фактов. Или точно — но сухо, как учебник 1987 года. Это не случайность: LLM оптимизирует то, что вы явно назвали важным, и не трогает остальное. Исследование ELMES протестировало популярные модели в роли учителей и подтвердило: у каждой свой слепой угол — эмпатия без точности, точность без адаптации, адаптация без структуры. Метод позволяет перекрыть все слепые углы сразу — взять готовые педагогические критерии оценки и вставить их прямо в промпт как требования к ответу. Вместо «объясни тему» — список из 4-5 критериев: точность фактов, адаптация под аудиторию, педагогическая стратегия, тон. Модель вынуждена тянуть все измерения одновременно, а не выбирать одно по умолчанию.

Принцип работы

Стандартный запрос задаёт одну задачу — и модель сама решает, что важно. Обычно выбирает стиль и структуру. Точность, адаптация, педагогика — уходят в минус. ELMES переводит критерии педагогической оценки в прямые инструкции: каждый критерий становится отдельным требованием в промпте. «Следуй роли учителя» — раз. «Используй аналогии для возраста X» — два. «Проверь точность каждого утверждения» — три. «Задай 1-2 вовлекающих вопроса» — четыре. Модель не угадывает что важно — ей говорят явно. Каждый критерий — отдельная цель оптимизации.

Почему работает

LLM работает как студент на экзамене без чётких критериев оценки — пытается угадать, что хочет преподаватель. Нет явного критерия — выбирает самый очевидный: «текст должен звучать умно и быть структурированным». Факты, адаптация, педагогика остаются вне радара. Явное перечисление критериев меняет цель оптимизации — модель не может проигнорировать то, что написано чёрным по белому как требование. Дополнительный момент: исследование показало, что ни одна модель не лидирует по всем критериям сразу. Это значит — вне зависимости от того, какую модель вы используете, у неё есть слепой угол. Явные критерии этот угол компенсируют.

Когда применять

Объяснение сложных тем — особенно когда аудитория специфична: ребёнок, человек из другой профессии, новичок в теме. Создание обучающих материалов, планов уроков, структур презентаций — когда нужен не просто «текст по теме», а педагогически выверенный результат. Адаптируется за пределы образования: маркетинговый текст (критерии: тон бренда, ясность призыва к действию, адресность аудитории), коммерческое предложение (критерии: логика от боли к решению, измеримые выгоды, реалистичный сценарий клиента). НЕ подходит для быстрых фактических запросов — «переведи», «посчитай», «найди». Там мультикритериальная инструкция только мешает.

Мини-рецепт

1. Найди слепые углы своего запроса: Спроси себя — что может пойти не так, если написать простой запрос? Точность? Тон? Адаптация под человека? Список этих рисков — и есть твои критерии.

2. Задай роль с контекстом: Не просто «ты учитель», а «ты учитель биологии для 8-го класса, который говорит живым языком и не боится пошутить».

3. Опиши аудиторию конкретно: Возраст, интересы, что ей близко. Это активирует персонализацию — без этого модель будет объяснять в вакуум.

4. Перечисли критерии явно, каждый отдельным пунктом: Используй ELMES-метрики как основу — следование роли, точность фактов, педагогическая стратегия (аналогии, вопросы), адаптация под аудиторию, эмоциональный тон.

5. По желанию — добавь самопроверку: В конце промпта: Перед ответом проверь: все ли пять критериев выполнены? Модель иногда ловит собственные пропуски.

Примеры

[ПЛОХО] : Объясни квантовую запутанность простыми словами
[ХОРОШО] : Ты — увлечённый учитель физики для 9-го класса. Объясни квантовую запутанность, соблюдая критерии: 1. Следование роли: говори как живой учитель, не как учебник — от первого лица, с живыми интонациями 2. Точность фактов: проверь каждое утверждение — упрощение допустимо, ложь — нет 3. Педагогическая стратегия: используй одну аналогию из повседневной жизни + задай один вовлекающий вопрос 4. Адаптация: аудитория — подростки, которые знают что такое смартфон и мессенджеры 5. Тон: ободряющий — «это действительно сложно, но сейчас разберёмся»
Источник: ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios
ArXiv ID: 2507.22947 | Сгенерировано: 2026-03-02 17:04

Концепты не выделены.

📖 Простыми словами

ELMES: Автоматизированная структура для оценки больших языковых моделей в образовательных сценариях

arXiv: 2507.22947

Суть проблемы в том, что мы до сих пор оцениваем мозги нейросетей по линеечке для первоклассников. Исследователи создали фреймворк ELMES, потому что поняли: стандартные тесты на эрудицию — это полная фигня, когда речь идет об обучении живых людей. В образовании LLM должна не просто вывалить правильный ответ, а попасть в образовательный контекст: учитывать возраст ученика, сложность темы и не превращать объяснение в нудную лекцию. Модель может быть гением математики, но если она объясняет пятилетке квантовую физику через тензорные уравнения, то ее педагогическая ценность равна нулю.

Это как если бы ты нанял репетитора, который знает предмет на 10 из 10, но страдает тяжелой формой аутизма и не понимает, что ученик уже пять минут как уснул. Формально он прав, но толку от такого обучения никакого. ELMES — это попытка превратить нейросеть из ходячей энциклопедии в адекватного ментора, который чувствует аудиторию и умеет вовремя упростить или, наоборот, подкинуть задачку посложнее.

В основе системы лежат конкретные метрики, которые раньше игнорировались. Например, Knowledge Point Explanation — это не просто проверка фактов, а оценка того, насколько точно модель выделила суть и адаптировала её под уровень знаний. Работает это через жесткий контроль: промпт заставляет модель использовать аналогии из жизни, избегать терминологического ада и проверять понимание на каждом шагу. Если нейросеть не может объяснить демократию через дележку конфет в песочнице, она получает низкий балл, даже если процитировала всю конституцию.

Хотя фреймворк тестировали на школьных темах, этот принцип универсален. Его можно и нужно внедрять в любой корпоративный софт, техподдержку или онбординг сотрудников. Везде, где нужно передать знание от "умного" к "незнающему", работают одни и те же правила: адаптивность, структура и релевантность. Это переход от тупого чат-бота к полноценному AI-тьютору, который понимает, что информация без контекста — это просто мусор.

Короче, эпоха простых промптов "напиши текст" закончилась, наступает эра автоматизированной педагогической оценки. Если твой AI-сервис просто генерит ответы, он скоро вылетит с рынка, потому что пользователи хотят понимания, а не текста. ELMES доказывает, что качество обучения измеряется не объемом знаний модели, а тем, насколько эффективно эти знания перекочевали в голову ученика. Либо ты учишь нейронку преподавать, либо она так и останется дорогим, но бесполезным справочником.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с