TL;DR
Echo of Prompt (EOP) — это когда LLM спонтанно повторяет вопрос пользователя в начале рассуждения, прежде чем дать ответ. Исследователи обнаружили, что это не баг и не "проклятие повторения", а функциональная стратегия: модель переформулирует задачу, чтобы зафиксировать ключевые детали перед началом сложного рассуждения. В 70-86% случаев (зависит от модели) LLM начинают ответ именно так.
Модели, которые "тратят" больше вероятности на эхо-повтор в начале, чаще дают правильный ответ. Проблема в том, что при длинных цепочках рассуждений LLM постепенно "забывает" исходные условия задачи — внимание смещается к промежуточным шагам. Анализ attention patterns показал: правильные решения отличаются от неправильных тем, что в средних слоях модели (слои 7-18 из 32) внимание сильнее фокусируется на начале рассуждения — там, где записано эхо вопроса. Разница ~3% в attention weights, и это критично.
Авторы разработали два метода. Echo-Distilled SFT — дообучение на примерах с эхо-повтором (требует fine-tuning, читателю недоступно). Echoic Prompting — простая промпт-техника: в середине рассуждения попросить модель "перечитать вопрос заново". Вставка этой инструкции в середине неудачного решения улучшает точность на +10.4 пункта для DeepSeek-R1 и +7.9 для Qwen3-8B. Работает как принудительная перезагрузка внимания на исходную задачу.
Схема метода
Echoic Prompting (EP) — промпт-техника, работает в обычном чате:
ШАГ 1: Запрос к модели с инструкцией → начинает рассуждение
ШАГ 2: (опционально) В середине цепочки добавить "вернись к вопросу" → модель перечитывает условия
ШАГ 3: Модель продолжает рассуждение с обновлённым фокусом → финальный ответ
Всё выполняется в одном диалоге. Можно использовать как: - Превентивно: попросить модель начать с пересказа задачи - Реактивно: если видишь, что рассуждение уходит в сторону — вставить "stop, перечитай вопрос"
Пример применения
Задача: Ты запускаешь продюсерский курс и выбираешь между двумя стратегиями: лендинг с предзаказом по 15 000 ₽ (цель — 100 человек за месяц) или бесплатный вебинар с продажей основной программы за 45 000 ₽ (конверсия ~10%). Бюджет на рекламу 200 000 ₽, CPL ~500 ₽. Какой вариант даст больше выручки при тех же затратах?
Промпт:
Сначала ПЕРЕСКАЖИ вопрос своими словами, выдели все числовые условия и ограничения.
Затем реши задачу пошагово.
[вставить задачу выше]
Результат:
Модель начнёт с блока пересказа: "Мне нужно сравнить две стратегии запуска курса. Первая: лендинг, цена 15к, нужно 100 человек, бюджет 200к, CPL 500₽...". Затем пойдёт пошаговый расчёт: количество лидов, конверсия, выручка, чистая прибыль. Ключевое отличие от обычного запроса — модель не начнёт сразу считать, а сначала зафиксирует все условия. Это снижает риск потерять числа по ходу рассуждения (классическая ошибка — модель "забывает" CPL или конверсию на 3-м шаге вычислений).
Если рассуждение длинное и видишь, что модель начала путаться в цифрах — вставь новое сообщение:
Стоп. Вернись к исходному вопросу и проверь: все ли условия ты учёл? Перечисли их заново, затем продолжи.
Модель "перезагрузится", перечитает условия и скорректирует расчёт.
Почему это работает
Слабость LLM: При длинных цепочках рассуждений модель теряет фокус на исходных условиях. Attention drift — известная проблема: внимание смещается к недавно сгенерированным токенам (промежуточным вычислениям, гипотезам), а ключевые данные из вопроса "затухают". Модель начинает рассуждать логически связно, но на основе неполных или искажённых исходных данных.
Сильная сторона LLM: Модель отлично следует структурированным инструкциям и может рефокусировать внимание на указанный контекст. Если явно попросить "вернись к вопросу" — attention patterns в средних слоях (7-18) резко усиливаются на токенах исходного вопроса. Это буквально видно в attention maps: разница ~3% между правильными и неправильными решениями.
Как метод использует это: Echoic Prompting превращает естественную склонность модели к повтору в управляемый механизм. Вместо того чтобы надеяться, что модель сама вспомнит условия, мы принудительно возвращаем её к началу. Это как refresh в браузере — модель "перечитывает" исходные данные и корректирует курс рассуждения.
Рычаги управления:
- Момент вставки "перечитай" → в начале (превентивно) или в середине (когда видишь дрейф). Раннее эхо экономит токены на исправлениях.
- Формулировка инструкции → "перескажи вопрос" (мягко) vs "выпиши все числа из условия" (жёстко). Жёсткая форма лучше для математики, мягкая — для аналитических задач.
- Длина эхо → попросить краткий пересказ (экономия токенов) или подробный (максимальная точность). Исследование показало: оптимальная длина эхо ~200-240 токенов для математических задач.
Шаблон промпта
Базовый (превентивный)
Сначала ПЕРЕСКАЖИ задачу своими словами. Выдели все ключевые условия, числа и ограничения.
Затем реши пошагово: {твоя задача}
Что подставлять:
- {твоя задача} — любая задача, требующая многошагового рассуждения: расчёт, стратегия, анализ вариантов.
Продвинутый (реактивный)
Если рассуждение уже начало и видишь дрейф — вставь новое сообщение в диалог:
Стоп. Вернись к исходному вопросу.
Перечитай условия и проверь: всё ли ты учёл? Перечисли ключевые данные заново.
Затем продолжи с того места, где остановился.
🚀 Быстрый старт — вставь в чат:
Вот шаблон Echoic Prompting для улучшения многошаговых рассуждений.
Адаптируй под мою задачу: [опиши задачу].
Спроси, какие детали нужно зафиксировать в эхо-блоке.
[вставить базовый шаблон выше]
LLM спросит: какие именно элементы задачи критичны (числа, роли, ограничения, приоритеты) — это нужно, чтобы сформировать эхо-блок под конкретную задачу. Например, для бизнес-стратегии важны метрики и допущения, для креативной задачи — критерии и референсы.
Ограничения
⚠️ Не работает для базовых моделей: Qwen3-8B-Base (без CoT-дообучения) показал 0% улучшения от эхо-вставки. Техника требует reasoning-capable модели — той, что умеет следовать инструкциям и строить цепочки рассуждений. Если модель не обучена на CoT/RLHF, она не поймёт что делать с эхо-блоком.
⚠️ Избыточно для простых задач: На односложных вопросах ("столица России?") эхо добавляет токены без пользы. Используй для задач, где есть что терять — много условий, числовые ограничения, многоэтапная логика.
⚠️ Ложная уверенность в неверном: Suffix-only Likelihood Gap выше у неправильных решений (1.29 vs 1.14). Это значит, что эхо может усилить "подтверждающее искажение" — модель увереннее идёт по ошибочному пути, если локально он кажется связным. Эхо — не панацея, оно усиливает направление, не гарантирует правильность.
Как исследовали
Команда из Harbin Institute of Technology взяла DeepSeek-R1-Distill-Llama-8B и прогнала через GSM8K (математические задачи для школьников). Обучили MLP-классификатор определять есть ли в начале рассуждения эхо-повтор вопроса. Нашли его в 70-86% случаев (зависит от модели). Затем сделали то, что кажется простым, но до них никто не делал системно: сравнили вероятность (log-likelihood) полного рассуждения с эхо vs того же рассуждения, но с вырезанным эхо-блоком.
Ввели метрику Echo Likelihood Gap (∆L) — разницу в вероятности на токен. Результат удивил: у правильных решений ∆L = 2.52, у неправильных = 2.44. Казалось бы, мелочь (+0.08 натов/токен), но статистически значимо. Это показало: модель "тратит" больше вероятностной массы на эхо именно когда собирается решить задачу верно.
Но корреляция — не причинность. Сделали каузальный эксперимент: взяли 500 неправильных решений, обрезали рассуждение на 50%, и продолжили генерацию двумя путями: (1) напрямую, (2) с вставкой фразы "теперь мне нужно вернуться к вопросу". Decoding settings, random seed, всё идентично. Результат: +10.4 пункта Exact Match для DeepSeek, +7.9 для Qwen3-8B! Вставка одной фразы в середине цепочки исправила каждую 10-ю ошибку.
Но почему это работает? Полезли в attention patterns. Извлекли attention weights из всех 32 слоёв модели: смотрели куда "смотрят" токены ответа — на исходный вопрос или на начало собственного рассуждения (answer-prefix). Обнаружили: в слоях 7-18 (середина архитектуры) правильные решения показывают на 3% больше внимания к answer-prefix, где записано эхо. Это не про первые слои (там идёт низкоуровневая обработка токенов) и не про последние (там уже генерация финального ответа) — именно middle layers, где происходит reasoning aggregation.
Контрольная проверка: attention на исходный вопрос (без эхо) не показал разницы между правильными/неправильными (~0.6% vs 3%). Это подтвердило: дело не в том, что модель вообще "помнит" вопрос, а в том, что эхо создаёт якорную точку в рабочей памяти модели, к которой она активно обращается в процессе рассуждения.
Для надёжности проверили на разных моделях (Qwen3-8B, базовая версия) и разных бенчмарках (MathQA, Hendrycks-MATH, AIME24, MATH-500) — эффект стабильно воспроизводится. Удивило: базовая модель Qwen3-8B (без RLHF-дообучения на reasoning) показала 0% улучшения от эхо-вставки. Это подтвердило гипотезу: техника работает только когда модель уже умеет рассуждать — тогда эхо становится функциональным инструментом, а не просто повтором текста.
Инсайт для практики: простая инструкция "перечитай вопрос" технически эквивалентна сложному механизму attention refocusing в нейросети. Ты не программируешь attention heads вручную — ты даёшь модели структурную подсказку, и она сама перераспределяет вычислительные ресурсы туда, где они нужны.
Адаптации и экстраполяции
🔧 Техника: Эхо с выделением типа данных → снижение ошибок подстановки
Вместо простого пересказа попроси модель типизировать данные:
Перед решением задачи выпиши:
- ЧИСЛОВЫЕ ДАННЫЕ: [все числа с единицами измерения]
- ОГРАНИЧЕНИЯ: [условия, которые нельзя нарушить]
- ЦЕЛЬ: [что нужно найти/оптимизировать]
Затем реши пошагово.
Это усиливает эффект якоря: модель не просто перечитывает, а структурирует информацию. Особенно полезно для задач со смешанными юнитами (рубли/доллары, часы/минуты) — частый источник ошибок.
🔧 Техника: Checkpoint-эхо для длинных цепочек → защита от drift на 5+ шагах
Для задач с 5+ этапами расчёта используй промежуточные эхо:
Реши задачу пошагово. После каждых 3 шагов делай CHECKPOINT:
- Вернись к исходным данным
- Проверь: не потерялись ли условия
- Продолжи
[задача]
Это превращает один длинный drift в серию коротких устойчивых цепочек. Аналог сохранения в игре перед боссом — если ошибка, она локализована.
🔧 Техника: Эхо от оппонента → критическая проверка
Комбинация с multi-perspective prompting:
Ты помогаешь принять решение: [задача]
ШАГ 1: Реши как оптимист (best-case сценарий)
ШАГ 2: ПЕРЕЧИТАЙ вопрос с позиции скептика. Что может пойти не так? Где оптимист упустил риски?
ШАГ 3: Сбалансированный вывод
Эхо с ролевой сменой усиливает критическое мышление: модель не просто повторяет вопрос, а переосмысляет его через другую линзу.
Ресурсы
Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning | Код: https://github.com/hhh2210/echoes-as-anchors | Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li | Harbin Institute of Technology, Pengcheng Laboratory, Huazhong University of Science and Technology | Published at ICLR 2026
