TL;DR
Популярное правило "убери лишнее — модель справится лучше" не работает для сильных LLM. Чем мощнее модель и чем больше у неё "думательных токенов" — тем больше детальной информации ей нужно давать, а не меньше. Слабые модели теряются в большом объёме и начинают галлюцинировать. Сильные — напротив, используют дополнительный контекст и выдают лучший результат.
Главная находка: Стандартный совет "сокращай входные данные, убирай лишнее" вырос из эпохи, когда у моделей был маленький контекст. Сегодня сильные модели (GPT-4 класс, Claude Sonnet, Gemini 2.5) не просто справляются с большими объёмами — они активно используют детали, которых нет в сжатой версии. В экспериментах переход от компактного к детальному формату давал сильным моделям +11–17 процентных пунктов точности. Слабые модели на том же переходе теряли до 18 пунктов — потому что начинали придумывать несуществующие элементы.
Второй важный инсайт: добавление истории предыдущих шагов почти всегда улучшает результат. Причём не обязательно передавать всё — достаточно "дифа" (только то, что изменилось). Это сокращает объём в ~3 раза без потери качества.
Схема метода
Это не один промпт, а два практических принципа для работы с LLM:
ПРИНЦИП 1: Объём контекста — под силу модели
Сильная модель (GPT-4o, Claude, Gemini 2.5) → давай ВСЮ информацию
Слабая модель → сжимай, убирай лишнее
ПРИНЦИП 2: История предыдущих шагов
Есть итерации → передавай историю
Хочешь экономить токены → передавай только "диф" (что изменилось)
Нет истории → модель повторяет действия и теряет прогресс
Оба принципа применяются в обычном чате, без кода и инфраструктуры.
Пример применения
Задача: Ты готовишь инвестиционный меморандум для стартапа. Работаешь над ним итерационно — каждый раз улучшаешь текст с Claude.
Типичная ошибка: Каждый раз пересылаешь весь документ заново "для контекста". Или наоборот — пишешь краткое резюме "вот о чём текст" вместо полного документа.
Промпт с принципом диф-истории:
Работаем над инвестиционным меморандумом для [название стартапа].
Предыдущая версия раздела "Рынок":
[вставить предыдущий текст раздела]
Что изменилось после твоих правок:
— добавил данные по объёму рынка: 180 млрд руб. в 2024
— убрал абзац про конкурентов (перенесём в отдельный раздел)
— изменил тезис в первом абзаце: фокус на B2B, не B2C
Текущая версия раздела:
[вставить актуальный текст]
Задача: проверь логику, найди слабые места в аргументации.
Результат: Модель видит что именно изменилось и не тратит время на "разогрев". Она сразу понимает направление изменений и оценивает актуальную версию в контексте истории. Вместо общих комментариев — конкретная критика по местам, которые реально менялись.
Почему это работает
Слабость LLM без истории. Если давать модели только текущий вариант без предысловия, она не знает откуда вы пришли. Она может предложить то, что вы уже пробовали и отвергли, или повторить направление, от которого отказались. Это как просить дизайнера правки, не объяснив что было "до".
Сильная сторона мощных моделей. Исследование показало: сильные модели умеют извлекать нужное из большого объёма, а слабые — нет. Слабые теряются и начинают "придумывать" — ссылаются на элементы, которых нет. Сильные модели видят структуру и используют контекст, который в сжатой версии потерялся бы.
Как диф решает проблему объёма. Полная история всех итераций — это огромный контекст. Диф (только изменения) сохраняет суть в ~3 раза меньшем объёме. Модель понимает динамику: что добавили, что убрали, куда движемся.
Рычаги управления: - Объём контекста — больше для GPT-4o/Claude, меньше для более слабых или старых моделей - Формат истории — полная версия vs "что изменилось" (экономия токенов без потери смысла) - Явное обозначение дифа — пиши прямо: "вот что изменилось с прошлого раза", не просто вставляй текст
Шаблон промпта
Принцип 1: Давай полный контекст сильным моделям
Вот полный {документ/текст/данные}:
{полный материал без сокращений}
Твоя задача: {конкретная задача}
Плейсхолдеры:
- {документ/текст/данные} — что анализируем: договор, ТЗ, статья, переписка
- {конкретная задача} — найди противоречия / проверь логику / предложи правки
Не резюмируй и не "выжимай главное" перед отправкой. Если используешь сильную модель — дай полный текст.
Принцип 2: Диф-история для итеративной работы
Работаем над {название проекта/документа}.
Что изменилось с прошлого раза:
— {изменение 1}
— {изменение 2}
— {что убрали и почему}
Текущая версия:
{актуальный текст}
Задача: {что нужно сделать}
Плейсхолдеры:
- {название проекта} — инвестиционный меморандум, текст лендинга, стратегия запуска
- {изменение 1-2} — конкретные правки: что добавили, убрали, переформулировали
- {что убрали и почему} — не обязательно, но помогает избежать повторных предложений
🚀 Быстрый старт — вставь в чат:
Я работаю над документом итерационно и хочу применить принцип диф-истории —
передавать модели не весь документ заново, а только что изменилось.
Адаптируй шаблон под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что за документ, на каком этапе работы, что уже менялось — потому что диф-принцип требует понять структуру итераций именно в твоём проекте.
Почему это работает (механика)
Почему "меньше — лучше" было правдой раньше, но не сейчас
Совет сокращать входные данные появился из-за реальных ограничений: старые модели имели маленький контекст и буквально не могли принять длинный текст. Потом контекст вырос, но привычка осталась — плюс появился аргумент "лишнее мешает рассуждениям".
Этот аргумент верен для слабых моделей. Слабая модель в большом тексте начинает "галлюцинировать" — ссылается на то, чего нет. Она не умеет надёжно ориентироваться в длинном контексте.
Сильная модель работает иначе. Исследователи обнаружили, что, например, информация о CSS-стилях (структуре расположения элементов) помогала GPT-5.1 и Claude не совершать ошибки при навигации. В сжатой версии этой информации не было — и точность падала. Детали, которые кажутся "мусором", несут смысл для модели, которая умеет его использовать.
Почему история шагов уменьшает повторения
Без истории модель не знает, что уже было сделано. Исследование показало прямую связь: чем больше модель повторяет действия — тем хуже результат. Добавление истории (даже компактной, в формате дифа) снижает количество повторов и улучшает результат почти у всех моделей.
Для чат-пользователя это означает: когда работаешь над задачей в несколько сообщений — явно указывай что уже было сделано и отвергнуто. Модель не будет ходить по кругу.
Ограничения
⚠️ Зависит от модели: Принцип "больше контекста = лучше" работает только для сильных моделей. Если используешь более слабую или старую модель — обратный эффект: качество падает. Ориентир: GPT-4o, Claude Sonnet 3.5+, Gemini 2.5 Flash — скорее всего выиграют от полного контекста.
⚠️ Зависит от задачи: Исследование показало, что HTML-детали помогали на задачах фильтрации, сортировки и работы с таблицами — но мешали на задачах создания форм и работы с каталогами. В чате аналог: аналитические задачи с сортировкой/фильтрацией информации — выигрывают от полного контекста. Генеративные задачи (написать текст с нуля) — возможно, нет.
⚠️ Одна платформа: Все эксперименты — на WorkArena (ServiceNow). Насколько выводы обобщаются на другие типы задач — не проверено напрямую.
⚠️ Диф-история с HTML не тестировалась: Авторы проверяли диф-историю только с компактным форматом. Комбинация "полный контекст + диф-история" остаётся открытым вопросом.
Как исследовали
Исследователи из NEC Corporation поставили под сомнение устоявшееся правило: все предыдущие работы сокращали входные данные для веб-агентов — и в этом якобы был консенсус. Они взяли бенчмарк WorkArena (330 рабочих задач: заполнение форм, фильтрация списков, работа с дашбордами) и прогнали на нём 12+ моделей в одинаковых условиях — только меняли формат входных данных.
Сравнивали два формата: компактное "дерево доступности" (только интерактивные элементы) и полный HTML (со структурой, CSS, z-index). Разница в размере — колоссальная: 6720 токенов против 56 653. Почти в 9 раз.
Неожиданный результат: GPT-5.1 с полным HTML — +17.5% к точности по сравнению с компактным форматом. Claude Sonnet 4.6 — +14.6%. Но gpt-oss-20b на том же HTML — минус 18.8%. Авторы специально проверили, не является ли это артефактом XML-форматирования — прогнали оба формата в двух синтаксических вариантах. Результат тот же: дело в содержании, не в синтаксисе.
Почему сильные модели выигрывают? Анализ ошибок показал: сильные модели реже ссылаются на несуществующие элементы (галлюцинация), а слабые при длинном вводе это делают намного чаще. Кроме того, сильные модели использовали CSS z-index (порядок наложения элементов) для навигации — в компактном формате этой информации нет.
Ресурсы
Работа: Read More, Think More: Revisiting Observation Reduction for Web Agents
Статус: Препринт, на рецензии
Авторы: Masafumi Enomoto, Ryoma Obara, Haochen Zhang, Masafumi Oyamada
Организация: NEC Corporation
Бенчмарк: WorkArena L1 (Drouin et al., 2024)
