TL;DR
Когда просишь LLM объяснить тему или помочь разобраться — она по умолчанию решает задачу вместо тебя, а не помогает тебе думать. Это называется «режим решения» (solve mode). Внешне выглядит как помощь, но ты получаешь ответ, не понимание.
Исследователи проверили восемь AI-тьюторов по двум независимым шкалам: насколько хорошо решают задачи и насколько хорошо обучают. Корреляция оказалась всего 0.42 — это слабая связь. Один из моделей (Qwen2.5-Math) занял 4-е место по решению задач и последнее место по педагогике. То есть: хорошо решает → не значит хорошо учит. Разрыв доходил до 45 пунктов.
Проблема в том, что LLM обучена быть «полезной» — а полезность ей говорит: дай правильный ответ. Без явной инструкции она не будет задавать наводящие вопросы, сдерживать подсказки и заставлять тебя думать самостоятельно. Исправляется это одним специфическим промптом — тьюторским режимом: ты явно запрещаешь модели раскрывать ответ и требуешь направлять твоё мышление через вопросы и дозированные подсказки.
Схема метода
Всё работает в одном промпте в начале диалога — задаёшь режим один раз, дальше ведёшь беседу.
ШАГ 1: Установить запрет → LLM не раскрывает ответ напрямую
ШАГ 2: Задать формат подсказок → минимум 2 наводящих вопроса вместо объяснения
ШАГ 3: Добавить проверку понимания → модель проверяет перед продвижением
ШАГ 4: Разрешить ответ только после → пока ты сам не придёшь или не сдашься
Пример применения
Задача: Маркетолог хочет разобраться в юнит-экономике — не получить ответ на вопрос, а по-настоящему понять как считать LTV и CAC. Обычно просто просит объяснить → получает лекцию → через час ничего не помнит.
Промпт:
Ты — мой личный преподаватель по юнит-экономике. Веди себя строго по этим правилам:
1. Никогда не давай готовый ответ или формулу напрямую, если я сам не попросил
явно написав "просто скажи ответ"
2. Вместо объяснения — задавай минимум 2 наводящих вопроса, чтобы я сам к нему пришёл
3. Если я ошибаюсь — не исправляй сразу. Дай подсказку-направление, не раскрывая шаг
4. Периодически проверяй: "Как ты сейчас понимаешь X своими словами?"
5. Продвигайся к следующей теме только когда я сам сформулировал вывод
Тема сегодня: как считать LTV (Lifetime Value) клиента для подписочного сервиса.
Начни с первого вопроса, который поможет мне самому сформулировать — что вообще такое LTV.
Результат: Вместо немедленного определения LTV — модель задаст вопрос про твой опыт с подписками или спросит: «Как ты думаешь, почему компании вообще хотят знать, сколько принесёт один клиент за всё время?» Ты начнёшь отвечать — модель будет направлять, уточнять, подталкивать. Только после того как ты сам сформулируешь понятие — перейдёт к формуле, и тоже не сразу, а через вопросы про компоненты.
Почему это работает
LLM обучена максимизировать "полезность" в понимании создателей — а полезность = правильный ответ + понятное объяснение. В этой логике промолчать или задать вопрос вместо объяснения выглядит как провал. Поэтому без специальной инструкции она всегда пойдёт по пути наименьшего сопротивления: выдаст ответ.
Но модель умеет имитировать педагогический диалог — в её обучающих данных есть тьюторские беседы, учебники с вопросами Сократа, обучающие диалоги. Нужно явно переключить её в этот режим. Когда ты запрещаешь раскрывать ответ, модель вынуждена строить другую стратегию — и обращается к паттернам из обучающих данных про наставничество.
Рычаги управления, которые можно менять:
- Порог раскрытия — фраза «просто скажи ответ» как аварийный выход: убери её, если хочешь жёсткий режим без лазейки
- Количество вопросов — «минимум 2» можно поднять до 3-4 для сложных концепций
- Момент перехода — «только когда я сам сформулирую вывод» можно заменить на «только после 3 моих попыток»
- Стиль преподавателя — добавь «ты — строгий профессор» или «ты — терпеливый ментор» для разной атмосферы
Шаблон промпта
Ты — мой личный преподаватель по теме {тема}.
Веди себя строго по правилам:
1. Не давай готовый ответ напрямую, пока я не напишу "{стоп-фраза}"
2. Вместо ответа — задавай минимум {число} наводящих вопросов
3. На ошибки реагируй подсказкой-направлением, не раскрывая шаг
4. Каждые {периодичность} проверяй понимание: "Как ты сейчас объяснишь {концепция} своими словами?"
5. Переходи к следующему блоку только после того как я сам сформулировал вывод
Начни с первого вопроса по теме: {стартовый вопрос}
Что подставлять:
- {тема} — SQL-запросы, финансовая модель, питч-дек, стратегия переговоров
- {стоп-фраза} — ключевое слово-выход когда нужен быстрый ответ: «просто ответь», «режим ответа»
- {число} — 2 для обычных задач, 3-4 для сложных концепций
- {периодичность} — «каждые 2-3 обмена», «после каждого блока»
- {стартовый вопрос} — первый вопрос для входа в тему, формулируешь сам или просишь LLM предложить
🚀 Быстрый старт — вставь в чат:
Вот шаблон тьюторского режима. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что именно ты хочешь понять и какой результат считается успехом — потому что без этого невозможно настроить момент перехода и глубину подсказок. Она возьмёт паттерн из шаблона и адаптирует под твою тему.
Ограничения
⚠️ Модель может сломаться: При длинном диалоге LLM «забывает» режим и соскальзывает обратно в solve mode. Периодически напоминай: «Напоминаю — ты в режиме тьютора, не давай ответ».
⚠️ Не для срочных задач: Тьюторский режим требует времени и усилий. Если тебе нужен быстрый ответ — это не тот инструмент.
⚠️ Поверхностная педагогика: LLM умеет имитировать Сократический диалог, но не знает где именно ты застрял. Без явной обратной связи с твоей стороны — «вот мой ответ, где я ошибаюсь?» — качество наставничества снижается.
⚠️ Не измерено на реальном обучении: Исследование показало разрыв между моделями в педагогических метриках — не реальные результаты учеников. «Педагогически правильные подсказки» ≠ гарантия что ты лучше усвоишь материал.
Как исследовали
Авторы не создавали новый бенчмарк — они взяли уже существующие публичные данные и переанализировали их под другим углом. Из лидерборда MathTutorBench взяли 9 задач для 8 моделей и разделили их на два кластера: задачи на решение (правильность ответа, нахождение ошибок) и задачи на обучение (сократический диалог, scaffolding, следование педагогическим инструкциям). Посчитали средний балл каждой модели по каждому кластеру и сравнили.
Самый яркий случай — Qwen2.5-Math-7B: 0.568 по решению и 0.116 по педагогике. Разрыв — 0.45 пункта из 1. Это модель, заточенная под математику: она решает великолепно, но совершенно не умеет направлять ученика. Если бы смотрели только на суммарный балл — она выглядела бы средней. На лидерборде по решению — прочно в середине. По педагогике — последняя с большим отрывом.
Параллельно проанализировали TutorBench — 30 сценариев с 324 рубриками оценки тьютора. Оказалось, что в разделе «активное обучение» 100% критериев касаются сохранения самостоятельности ученика. Один из примеров рубрики дословно: «дать подсказку, задав не менее 2 наводящих вопросов, не раскрывая следующий шаг полностью». Это важно: педагогические требования уже записаны в бенчмарках — их просто не видно, когда смотришь на агрегированный балл.
Ресурсы
Название работы: Beyond Helpfulness: A Teaching-over-Solving Diagnostic for Measuring Educational Impact in LLM Tutors
Авторы: Junyi Yao, Zihao Zheng (Washington University in St. Louis), Baichuan Li (Southern Methodist University)
Бенчмарки упомянутые в работе: MathTutorBench, TutorBench, MathDial, GuideEval
