3,583 papers
arXiv:2602.06600 84 6 фев. 2026 г. FREE

Echo of Prompt (EOP): повтор вопроса как встроенная перезагрузка внимания LLM

КЛЮЧЕВАЯ СУТЬ
Обнаружено: 70-86% LLM спонтанно повторяют вопрос перед ответом. Это не баг повторения, а встроенная стратегия фиксации условий задачи. Echoic Prompting позволяет принудительно возвращать внимание модели к исходным данным на длинных рассуждениях. Механика: попросить модель пересказать задачу в начале или вставить "вернись к вопросу" в середине цепочки. Модель рефокусирует внимание на токены исходного вопроса – +10.4 пункта точности для DeepSeek-R1.
Адаптировать под запрос

TL;DR

Echo of Prompt (EOP) — это когда LLM спонтанно повторяет вопрос пользователя в начале рассуждения, прежде чем дать ответ. Исследователи обнаружили, что это не баг и не "проклятие повторения", а функциональная стратегия: модель переформулирует задачу, чтобы зафиксировать ключевые детали перед началом сложного рассуждения. В 70-86% случаев (зависит от модели) LLM начинают ответ именно так.

Модели, которые "тратят" больше вероятности на эхо-повтор в начале, чаще дают правильный ответ. Проблема в том, что при длинных цепочках рассуждений LLM постепенно "забывает" исходные условия задачи — внимание смещается к промежуточным шагам. Анализ attention patterns показал: правильные решения отличаются от неправильных тем, что в средних слоях модели (слои 7-18 из 32) внимание сильнее фокусируется на начале рассуждения — там, где записано эхо вопроса. Разница ~3% в attention weights, и это критично.

Авторы разработали два метода. Echo-Distilled SFT — дообучение на примерах с эхо-повтором (требует fine-tuning, читателю недоступно). Echoic Prompting — простая промпт-техника: в середине рассуждения попросить модель "перечитать вопрос заново". Вставка этой инструкции в середине неудачного решения улучшает точность на +10.4 пункта для DeepSeek-R1 и +7.9 для Qwen3-8B. Работает как принудительная перезагрузка внимания на исходную задачу.


🔬

Схема метода

Echoic Prompting (EP) — промпт-техника, работает в обычном чате:

ШАГ 1: Запрос к модели с инструкцией → начинает рассуждение
ШАГ 2: (опционально) В середине цепочки добавить "вернись к вопросу" → модель перечитывает условия
ШАГ 3: Модель продолжает рассуждение с обновлённым фокусом → финальный ответ

Всё выполняется в одном диалоге. Можно использовать как: - Превентивно: попросить модель начать с пересказа задачи - Реактивно: если видишь, что рассуждение уходит в сторону — вставить "stop, перечитай вопрос"


🚀

Пример применения

Задача: Ты запускаешь продюсерский курс и выбираешь между двумя стратегиями: лендинг с предзаказом по 15 000 ₽ (цель — 100 человек за месяц) или бесплатный вебинар с продажей основной программы за 45 000 ₽ (конверсия ~10%). Бюджет на рекламу 200 000 ₽, CPL ~500 ₽. Какой вариант даст больше выручки при тех же затратах?

Промпт:

Сначала ПЕРЕСКАЖИ вопрос своими словами, выдели все числовые условия и ограничения.

Затем реши задачу пошагово.

[вставить задачу выше]

Результат:

Модель начнёт с блока пересказа: "Мне нужно сравнить две стратегии запуска курса. Первая: лендинг, цена 15к, нужно 100 человек, бюджет 200к, CPL 500₽...". Затем пойдёт пошаговый расчёт: количество лидов, конверсия, выручка, чистая прибыль. Ключевое отличие от обычного запроса — модель не начнёт сразу считать, а сначала зафиксирует все условия. Это снижает риск потерять числа по ходу рассуждения (классическая ошибка — модель "забывает" CPL или конверсию на 3-м шаге вычислений).

Если рассуждение длинное и видишь, что модель начала путаться в цифрах — вставь новое сообщение:

Стоп. Вернись к исходному вопросу и проверь: все ли условия ты учёл? Перечисли их заново, затем продолжи.

Модель "перезагрузится", перечитает условия и скорректирует расчёт.


🧠

Почему это работает

Слабость LLM: При длинных цепочках рассуждений модель теряет фокус на исходных условиях. Attention drift — известная проблема: внимание смещается к недавно сгенерированным токенам (промежуточным вычислениям, гипотезам), а ключевые данные из вопроса "затухают". Модель начинает рассуждать логически связно, но на основе неполных или искажённых исходных данных.

Сильная сторона LLM: Модель отлично следует структурированным инструкциям и может рефокусировать внимание на указанный контекст. Если явно попросить "вернись к вопросу" — attention patterns в средних слоях (7-18) резко усиливаются на токенах исходного вопроса. Это буквально видно в attention maps: разница ~3% между правильными и неправильными решениями.

Как метод использует это: Echoic Prompting превращает естественную склонность модели к повтору в управляемый механизм. Вместо того чтобы надеяться, что модель сама вспомнит условия, мы принудительно возвращаем её к началу. Это как refresh в браузере — модель "перечитывает" исходные данные и корректирует курс рассуждения.

Рычаги управления:

  • Момент вставки "перечитай" → в начале (превентивно) или в середине (когда видишь дрейф). Раннее эхо экономит токены на исправлениях.
  • Формулировка инструкции → "перескажи вопрос" (мягко) vs "выпиши все числа из условия" (жёстко). Жёсткая форма лучше для математики, мягкая — для аналитических задач.
  • Длина эхо → попросить краткий пересказ (экономия токенов) или подробный (максимальная точность). Исследование показало: оптимальная длина эхо ~200-240 токенов для математических задач.

📋

Шаблон промпта

📌

Базовый (превентивный)

Сначала ПЕРЕСКАЖИ задачу своими словами. Выдели все ключевые условия, числа и ограничения.

Затем реши пошагово: {твоя задача}

Что подставлять: - {твоя задача} — любая задача, требующая многошагового рассуждения: расчёт, стратегия, анализ вариантов.


📌

Продвинутый (реактивный)

Если рассуждение уже начало и видишь дрейф — вставь новое сообщение в диалог:

Стоп. Вернись к исходному вопросу.

Перечитай условия и проверь: всё ли ты учёл? Перечисли ключевые данные заново.

Затем продолжи с того места, где остановился.

🚀 Быстрый старт — вставь в чат:

Вот шаблон Echoic Prompting для улучшения многошаговых рассуждений. 
Адаптируй под мою задачу: [опиши задачу]. 

Спроси, какие детали нужно зафиксировать в эхо-блоке.

[вставить базовый шаблон выше]

LLM спросит: какие именно элементы задачи критичны (числа, роли, ограничения, приоритеты) — это нужно, чтобы сформировать эхо-блок под конкретную задачу. Например, для бизнес-стратегии важны метрики и допущения, для креативной задачи — критерии и референсы.


⚠️

Ограничения

⚠️ Не работает для базовых моделей: Qwen3-8B-Base (без CoT-дообучения) показал 0% улучшения от эхо-вставки. Техника требует reasoning-capable модели — той, что умеет следовать инструкциям и строить цепочки рассуждений. Если модель не обучена на CoT/RLHF, она не поймёт что делать с эхо-блоком.

⚠️ Избыточно для простых задач: На односложных вопросах ("столица России?") эхо добавляет токены без пользы. Используй для задач, где есть что терять — много условий, числовые ограничения, многоэтапная логика.

⚠️ Ложная уверенность в неверном: Suffix-only Likelihood Gap выше у неправильных решений (1.29 vs 1.14). Это значит, что эхо может усилить "подтверждающее искажение" — модель увереннее идёт по ошибочному пути, если локально он кажется связным. Эхо — не панацея, оно усиливает направление, не гарантирует правильность.


🔍

Как исследовали

Команда из Harbin Institute of Technology взяла DeepSeek-R1-Distill-Llama-8B и прогнала через GSM8K (математические задачи для школьников). Обучили MLP-классификатор определять есть ли в начале рассуждения эхо-повтор вопроса. Нашли его в 70-86% случаев (зависит от модели). Затем сделали то, что кажется простым, но до них никто не делал системно: сравнили вероятность (log-likelihood) полного рассуждения с эхо vs того же рассуждения, но с вырезанным эхо-блоком.

Ввели метрику Echo Likelihood Gap (∆L) — разницу в вероятности на токен. Результат удивил: у правильных решений ∆L = 2.52, у неправильных = 2.44. Казалось бы, мелочь (+0.08 натов/токен), но статистически значимо. Это показало: модель "тратит" больше вероятностной массы на эхо именно когда собирается решить задачу верно.

Но корреляция — не причинность. Сделали каузальный эксперимент: взяли 500 неправильных решений, обрезали рассуждение на 50%, и продолжили генерацию двумя путями: (1) напрямую, (2) с вставкой фразы "теперь мне нужно вернуться к вопросу". Decoding settings, random seed, всё идентично. Результат: +10.4 пункта Exact Match для DeepSeek, +7.9 для Qwen3-8B! Вставка одной фразы в середине цепочки исправила каждую 10-ю ошибку.

Но почему это работает? Полезли в attention patterns. Извлекли attention weights из всех 32 слоёв модели: смотрели куда "смотрят" токены ответа — на исходный вопрос или на начало собственного рассуждения (answer-prefix). Обнаружили: в слоях 7-18 (середина архитектуры) правильные решения показывают на 3% больше внимания к answer-prefix, где записано эхо. Это не про первые слои (там идёт низкоуровневая обработка токенов) и не про последние (там уже генерация финального ответа) — именно middle layers, где происходит reasoning aggregation.

Контрольная проверка: attention на исходный вопрос (без эхо) не показал разницы между правильными/неправильными (~0.6% vs 3%). Это подтвердило: дело не в том, что модель вообще "помнит" вопрос, а в том, что эхо создаёт якорную точку в рабочей памяти модели, к которой она активно обращается в процессе рассуждения.

Для надёжности проверили на разных моделях (Qwen3-8B, базовая версия) и разных бенчмарках (MathQA, Hendrycks-MATH, AIME24, MATH-500) — эффект стабильно воспроизводится. Удивило: базовая модель Qwen3-8B (без RLHF-дообучения на reasoning) показала 0% улучшения от эхо-вставки. Это подтвердило гипотезу: техника работает только когда модель уже умеет рассуждать — тогда эхо становится функциональным инструментом, а не просто повтором текста.

Инсайт для практики: простая инструкция "перечитай вопрос" технически эквивалентна сложному механизму attention refocusing в нейросети. Ты не программируешь attention heads вручную — ты даёшь модели структурную подсказку, и она сама перераспределяет вычислительные ресурсы туда, где они нужны.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Эхо с выделением типа данных → снижение ошибок подстановки

Вместо простого пересказа попроси модель типизировать данные:

Перед решением задачи выпиши:
- ЧИСЛОВЫЕ ДАННЫЕ: [все числа с единицами измерения]
- ОГРАНИЧЕНИЯ: [условия, которые нельзя нарушить]
- ЦЕЛЬ: [что нужно найти/оптимизировать]

Затем реши пошагово.

Это усиливает эффект якоря: модель не просто перечитывает, а структурирует информацию. Особенно полезно для задач со смешанными юнитами (рубли/доллары, часы/минуты) — частый источник ошибок.


📌

🔧 Техника: Checkpoint-эхо для длинных цепочек → защита от drift на 5+ шагах

Для задач с 5+ этапами расчёта используй промежуточные эхо:

Реши задачу пошагово. После каждых 3 шагов делай CHECKPOINT:
- Вернись к исходным данным
- Проверь: не потерялись ли условия
- Продолжи

[задача]

Это превращает один длинный drift в серию коротких устойчивых цепочек. Аналог сохранения в игре перед боссом — если ошибка, она локализована.


📌

🔧 Техника: Эхо от оппонента → критическая проверка

Комбинация с multi-perspective prompting:

Ты помогаешь принять решение: [задача]

ШАГ 1: Реши как оптимист (best-case сценарий)

ШАГ 2: ПЕРЕЧИТАЙ вопрос с позиции скептика. Что может пойти не так? Где оптимист упустил риски?

ШАГ 3: Сбалансированный вывод

Эхо с ролевой сменой усиливает критическое мышление: модель не просто повторяет вопрос, а переосмысляет его через другую линзу.


🔗

Ресурсы

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning | Код: https://github.com/hhh2210/echoes-as-anchors | Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li | Harbin Institute of Technology, Pengcheng Laboratory, Huazhong University of Science and Technology | Published at ICLR 2026


📋 Дайджест исследования

Ключевая суть

Обнаружено: 70-86% LLM спонтанно повторяют вопрос перед ответом. Это не баг повторения, а встроенная стратегия фиксации условий задачи. Echoic Prompting позволяет принудительно возвращать внимание модели к исходным данным на длинных рассуждениях. Механика: попросить модель пересказать задачу в начале или вставить "вернись к вопросу" в середине цепочки. Модель рефокусирует внимание на токены исходного вопроса – +10.4 пункта точности для DeepSeek-R1.

Принцип работы

Не держать всё в голове – делать перезагрузку. Модель как студент на экзамене: начала считать, ушла в промежуточные формулы, забыла исходные числа из условия. Эхо-повтор = принудительная перезагрузка: модель перечитывает вопрос и корректирует курс. Работает как refresh в браузере – паттерны внимания в средних слоях (7-18 из 32) усиливаются на токенах вопроса на ~3%.

Почему работает

Дрейф внимания – LLM смещает фокус к недавно сгенерированным токенам (промежуточные вычисления, гипотезы). Модель рассуждает связно, но на основе неполных данных из вопроса. Ключевой инсайт: разница между правильными и неправильными решениями – всего ~3% в весах внимания на исходных токенах, но этого достаточно чтобы слететь с курса. Echoic Prompting возвращает фокус туда, где записаны условия задачи.

Когда применять

Многошаговые рассуждения с числами и ограничениями → расчёты окупаемости, анализ стратегий, задачи со сложными условиями. Особенно когда видишь что модель начала путаться в цифрах или уходить от условий задачи. НЕ подходит для односложных вопросов ("столица России?") – эхо добавляет токены без пользы.

Мини-рецепт

1. Превентивно (в начале): Добавь в промпт Сначала ПЕРЕСКАЖИ задачу своими словами. Выдели все числа и ограничения. Затем реши пошагово.
2. Реактивно (в середине): Если видишь дрейф – вставь новое сообщение в диалог: Стоп. Вернись к исходному вопросу. Перечисли условия заново, затем продолжи.

Примеры

[ПЛОХО] : Сравни две стратегии запуска курса: лендинг с предзаказом 15к (цель 100 человек) vs вебинар с продажей 45к (конверсия 10%). Бюджет 200к, CPL 500₽. Модель сразу начнёт считать – потеряет числа на 3-м шаге.
[ХОРОШО] : Сначала ПЕРЕСКАЖИ вопрос: выдели все числовые условия (цены, цели, бюджет, конверсию). Затем посчитай выручку для обоих вариантов. Модель начнёт с блока фиксации: "Лендинг: цена 15к, нужно 100 человек, бюджет 200к, CPL 500₽..." – зафиксирует все данные перед расчётом.
Источник: Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning
ArXiv ID: 2602.06600 | Сгенерировано: 2026-02-09 06:24

Методы

МетодСуть
Пересказ вопроса перед рассуждением — якорь для вниманияЧто делать: Попроси модель начать с повтора задачи своими словами. "Сначала ПЕРЕСКАЖИ задачу. Выдели все условия, числа, ограничения. Затем реши пошагово". Если рассуждение уже идёт и видишь дрейф — вставь в диалог: "Стоп. Вернись к вопросу. Перечитай условия и продолжи". Почему работает: В длинных цепочках рассуждений внимание модели смещается к недавним токенам (промежуточным шагам). Ключевые данные из вопроса затухают. Пересказ создаёт свежий "якорь" — модель перечитывает исходные условия и перефокусирует внимание на них. Эффект виден в attention maps: внимание средних слоёв усиливается на начале рассуждения (где записан повтор вопроса). Когда работает: многошаговые задачи с числами, ограничениями, несколькими условиями (расчёты, стратегии, анализ вариантов). Улучшение точности до +10 пунктов. Когда НЕ работает: простые вопросы ("столица России?"), базовые модели без CoT-дообучения (они не понимают инструкцию "перескажи"), креативные задачи где нет строгих условий
📖 Простыми словами

Echoes as Anchors: Probabilistic Costs and Attention Refocusing inLLMReasoning

arXiv: 2602.06600

Модели лажают в сложных задачах не потому, что они тупые, а потому, что у них «девичья память». Когда ты заставляешь AI строить длинную логическую цепочку, он так увлекается собственными рассуждениями, что к середине пути забывает, с чего всё началось. Это называется attention drift: фокус внимания смещается на последние сгенерированные слова, а исходные условия задачи просто вымываются из контекста. В итоге модель выдает стройный, логичный, но абсолютно бесполезный ответ, потому что он построен на искаженных фактах.

Это как если бы ты пришел к юристу с толстой папкой документов, а он, начав изучать дело, через пять минут забыл бы половину твоих условий и начал давать советы, опираясь на свои последние фантазии. Вроде говорит уверенно, но всё мимо кассы. Чтобы не облажаться, умный юрист сначала вслух проговорит основные тезисы дела, чтобы зафиксировать их в голове — именно это и делает модель, когда использует Echo of Prompt (EOP).

Суть метода Echoic Prompting до смешного проста: заставь модель буквально «попугайничать» в самом начале ответа. Исследование показало, что в 70-86% случаев топовые LLM спонтанно повторяют вопрос пользователя перед тем, как начать думать. Это не баг и не тупость, а функциональная стратегия: пересказывая задачу, модель превращает зыбкие условия из промпта в твердые «якоря» в своей оперативной памяти. Когда ключевые цифры и требования уже написаны самой моделью в начале ответа, ей гораздо проще на них опираться и не улетать в галлюцинации.

Этот трюк тестировали на математике и логике, но принцип универсален для любого сложного контента. Если ты просишь AI рассчитать воронку продаж, сравнить стратегии маркетинга или проанализировать код, риск потери фокуса огромен. SEO умирает, GEO рождается, а точность рассуждений AI теперь зависит от того, насколько хорошо он «заякорился» в контексте. Простое повторение условий задачи повышает шансы на адекватный результат в разы, превращая модель из забывчивого профессора в дотошного аналитика.

Короче: если хочешь, чтобы нейронка не тупила в сложных расчетах, добавь в промпт простую команду: «Сначала кратко повтори условия задачи, а потом решай». Это принудительное перефокусирование внимания гарантирует, что модель не потеряет важные детали вроде бюджета или сроков в процессе рассуждения. 10 из 15 ошибок в логике лечатся именно этим простым повторением, так что не давай модели шанса забыть, чего ты от неё хочешь.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с