arXiv:2604.01535 70 2 апр. 2026 г. FREE

Больше контекста сильным моделям: как объём информации влияет на качество работы LLM

КЛЮЧЕВАЯ СУТЬ

Совет «убирай лишнее — модель справится лучше» был правильным. До тех пор, пока модели не стали сильными. Для GPT-4o, Claude Sonnet и Gemini 2.5 всё наоборот: полный контекст даёт +11–17 процентных пунктов точности, а сжатый — снижает. Фишка: сильная модель не тонет в деталях — она извлекает то, чего в сжатой версии просто нет. Слабая на тех же данных теряет до 18 пунктов и начинает придумывать несуществующее.

Адаптировать под запрос

⚡

TL;DR

Популярное правило "убери лишнее — модель справится лучше" не работает для сильных LLM. Чем мощнее модель и чем больше у неё "думательных токенов" — тем больше детальной информации ей нужно давать, а не меньше. Слабые модели теряются в большом объёме и начинают галлюцинировать. Сильные — напротив, используют дополнительный контекст и выдают лучший результат.

Главная находка: Стандартный совет "сокращай входные данные, убирай лишнее" вырос из эпохи, когда у моделей был маленький контекст. Сегодня сильные модели (GPT-4 класс, Claude Sonnet, Gemini 2.5) не просто справляются с большими объёмами — они активно используют детали, которых нет в сжатой версии. В экспериментах переход от компактного к детальному формату давал сильным моделям +11–17 процентных пунктов точности. Слабые модели на том же переходе теряли до 18 пунктов — потому что начинали придумывать несуществующие элементы.

Второй важный инсайт: добавление истории предыдущих шагов почти всегда улучшает результат. Причём не обязательно передавать всё — достаточно "дифа" (только то, что изменилось). Это сокращает объём в ~3 раза без потери качества.

🔬

Схема метода

Это не один промпт, а два практических принципа для работы с LLM:

ПРИНЦИП 1: Объём контекста — под силу модели
  Сильная модель (GPT-4o, Claude, Gemini 2.5) → давай ВСЮ информацию
  Слабая модель → сжимай, убирай лишнее

ПРИНЦИП 2: История предыдущих шагов
  Есть итерации → передавай историю
  Хочешь экономить токены → передавай только "диф" (что изменилось)
  Нет истории → модель повторяет действия и теряет прогресс

Оба принципа применяются в обычном чате, без кода и инфраструктуры.

🚀

Пример применения

Задача: Ты готовишь инвестиционный меморандум для стартапа. Работаешь над ним итерационно — каждый раз улучшаешь текст с Claude.

Типичная ошибка: Каждый раз пересылаешь весь документ заново "для контекста". Или наоборот — пишешь краткое резюме "вот о чём текст" вместо полного документа.

Промпт с принципом диф-истории:

Работаем над инвестиционным меморандумом для [название стартапа].

Предыдущая версия раздела "Рынок":
[вставить предыдущий текст раздела]

Что изменилось после твоих правок:
— добавил данные по объёму рынка: 180 млрд руб. в 2024
— убрал абзац про конкурентов (перенесём в отдельный раздел)
— изменил тезис в первом абзаце: фокус на B2B, не B2C

Текущая версия раздела:
[вставить актуальный текст]

Задача: проверь логику, найди слабые места в аргументации.

Результат: Модель видит что именно изменилось и не тратит время на "разогрев". Она сразу понимает направление изменений и оценивает актуальную версию в контексте истории. Вместо общих комментариев — конкретная критика по местам, которые реально менялись.

🧠

Почему это работает

Слабость LLM без истории. Если давать модели только текущий вариант без предысловия, она не знает откуда вы пришли. Она может предложить то, что вы уже пробовали и отвергли, или повторить направление, от которого отказались. Это как просить дизайнера правки, не объяснив что было "до".

Сильная сторона мощных моделей. Исследование показало: сильные модели умеют извлекать нужное из большого объёма, а слабые — нет. Слабые теряются и начинают "придумывать" — ссылаются на элементы, которых нет. Сильные модели видят структуру и используют контекст, который в сжатой версии потерялся бы.

Как диф решает проблему объёма. Полная история всех итераций — это огромный контекст. Диф (только изменения) сохраняет суть в ~3 раза меньшем объёме. Модель понимает динамику: что добавили, что убрали, куда движемся.

Рычаги управления: - Объём контекста — больше для GPT-4o/Claude, меньше для более слабых или старых моделей - Формат истории — полная версия vs "что изменилось" (экономия токенов без потери смысла) - Явное обозначение дифа — пиши прямо: "вот что изменилось с прошлого раза", не просто вставляй текст

📋

Шаблон промпта

📌

Принцип 1: Давай полный контекст сильным моделям

Вот полный {документ/текст/данные}:

{полный материал без сокращений}

Твоя задача: {конкретная задача}

Плейсхолдеры: - {документ/текст/данные} — что анализируем: договор, ТЗ, статья, переписка - {конкретная задача} — найди противоречия / проверь логику / предложи правки

Не резюмируй и не "выжимай главное" перед отправкой. Если используешь сильную модель — дай полный текст.

📌

Принцип 2: Диф-история для итеративной работы

Работаем над {название проекта/документа}.

Что изменилось с прошлого раза:
— {изменение 1}
— {изменение 2}
— {что убрали и почему}

Текущая версия:
{актуальный текст}

Задача: {что нужно сделать}

Плейсхолдеры: - {название проекта} — инвестиционный меморандум, текст лендинга, стратегия запуска - {изменение 1-2} — конкретные правки: что добавили, убрали, переформулировали - {что убрали и почему} — не обязательно, но помогает избежать повторных предложений

🚀 Быстрый старт — вставь в чат:

Я работаю над документом итерационно и хочу применить принцип диф-истории — 
передавать модели не весь документ заново, а только что изменилось. 
Адаптируй шаблон под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что за документ, на каком этапе работы, что уже менялось — потому что диф-принцип требует понять структуру итераций именно в твоём проекте.

🧠

Почему это работает (механика)

📌

Почему "меньше — лучше" было правдой раньше, но не сейчас

Совет сокращать входные данные появился из-за реальных ограничений: старые модели имели маленький контекст и буквально не могли принять длинный текст. Потом контекст вырос, но привычка осталась — плюс появился аргумент "лишнее мешает рассуждениям".

Этот аргумент верен для слабых моделей. Слабая модель в большом тексте начинает "галлюцинировать" — ссылается на то, чего нет. Она не умеет надёжно ориентироваться в длинном контексте.

Сильная модель работает иначе. Исследователи обнаружили, что, например, информация о CSS-стилях (структуре расположения элементов) помогала GPT-5.1 и Claude не совершать ошибки при навигации. В сжатой версии этой информации не было — и точность падала. Детали, которые кажутся "мусором", несут смысл для модели, которая умеет его использовать.

📌

Почему история шагов уменьшает повторения

Без истории модель не знает, что уже было сделано. Исследование показало прямую связь: чем больше модель повторяет действия — тем хуже результат. Добавление истории (даже компактной, в формате дифа) снижает количество повторов и улучшает результат почти у всех моделей.

Для чат-пользователя это означает: когда работаешь над задачей в несколько сообщений — явно указывай что уже было сделано и отвергнуто. Модель не будет ходить по кругу.

⚠️

Ограничения

⚠️ Зависит от модели: Принцип "больше контекста = лучше" работает только для сильных моделей. Если используешь более слабую или старую модель — обратный эффект: качество падает. Ориентир: GPT-4o, Claude Sonnet 3.5+, Gemini 2.5 Flash — скорее всего выиграют от полного контекста.

⚠️ Зависит от задачи: Исследование показало, что HTML-детали помогали на задачах фильтрации, сортировки и работы с таблицами — но мешали на задачах создания форм и работы с каталогами. В чате аналог: аналитические задачи с сортировкой/фильтрацией информации — выигрывают от полного контекста. Генеративные задачи (написать текст с нуля) — возможно, нет.

⚠️ Одна платформа: Все эксперименты — на WorkArena (ServiceNow). Насколько выводы обобщаются на другие типы задач — не проверено напрямую.

⚠️ Диф-история с HTML не тестировалась: Авторы проверяли диф-историю только с компактным форматом. Комбинация "полный контекст + диф-история" остаётся открытым вопросом.

🔍

Как исследовали

Исследователи из NEC Corporation поставили под сомнение устоявшееся правило: все предыдущие работы сокращали входные данные для веб-агентов — и в этом якобы был консенсус. Они взяли бенчмарк WorkArena (330 рабочих задач: заполнение форм, фильтрация списков, работа с дашбордами) и прогнали на нём 12+ моделей в одинаковых условиях — только меняли формат входных данных.

Сравнивали два формата: компактное "дерево доступности" (только интерактивные элементы) и полный HTML (со структурой, CSS, z-index). Разница в размере — колоссальная: 6720 токенов против 56 653. Почти в 9 раз.

Неожиданный результат: GPT-5.1 с полным HTML — +17.5% к точности по сравнению с компактным форматом. Claude Sonnet 4.6 — +14.6%. Но gpt-oss-20b на том же HTML — минус 18.8%. Авторы специально проверили, не является ли это артефактом XML-форматирования — прогнали оба формата в двух синтаксических вариантах. Результат тот же: дело в содержании, не в синтаксисе.

Почему сильные модели выигрывают? Анализ ошибок показал: сильные модели реже ссылаются на несуществующие элементы (галлюцинация), а слабые при длинном вводе это делают намного чаще. Кроме того, сильные модели использовали CSS z-index (порядок наложения элементов) для навигации — в компактном формате этой информации нет.

🔗

Ресурсы

Работа: Read More, Think More: Revisiting Observation Reduction for Web Agents

Статус: Препринт, на рецензии

Авторы: Masafumi Enomoto, Ryoma Obara, Haochen Zhang, Masafumi Oyamada

Организация: NEC Corporation

Бенчмарк: WorkArena L1 (Drouin et al., 2024)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Одно правило вместо универсальных советов: сила модели определяет нужный объём контекста. Сильная (GPT-4o, Claude Sonnet 3.5+, Gemini 2.5) — давай всё, без купюр. Слабая или старая — сжимай, убирай. Второй принцип: история предыдущих шагов почти всегда улучшает результат — но не обязательно передавать всё. Достаточно «дифа»: что добавил, что убрал, куда движешься. В три раза короче полной истории — и не хуже по качеству.

Почему работает

Совет «меньше = лучше» родился из реального ограничения: старые модели имели маленький контекст и буквально не вмещали длинный текст. Потом ограничение ушло, а привычка осталась. Исследование показало конкретную причину: информация о структуре и расположении элементов страницы помогала GPT-4o и Claude не ошибаться при навигации — в сжатой версии этой информации не было, и точность падала. Детали, которые кажутся мусором, несут смысл для модели, которая умеет его использовать. Слабая модель в большом тексте не ориентируется и галлюцинирует — ссылается на то, чего нет. Сильная находит структуру и вытаскивает нужное.

Когда применять

Аналитические задачи с большим объёмом: анализ договора, проверка документа, работа с таблицами — GPT-4o и Claude стоит давать полный текст без предварительного резюмирования. Особенно полезно в итеративной работе: редактура, разработка стратегии, несколько раундов правок — добавляй диф-историю. НЕ подходит: генеративные задачи с нуля на слабых или старых моделях — там полный контекст даёт обратный эффект и качество проседает.

Мини-рецепт

1. Определи модель: GPT-4o, Claude Sonnet 3.5+, Gemini 2.5 Flash — давай полный текст. Более старая или слабая — сжимай, не рискуй.
2. Дай без купюр: не резюмируй заранее, просто вставь всё. Пиши: Вот полный текст: [вставь документ]. Задача: [конкретная задача]
3. Для итеративной работы — диф вместо полной пересылки:

Что изменилось с прошлого раза: — [изменение 1] — [изменение 2]. Текущая версия: [актуальный текст]. Задача: [что нужно сделать]

4. Фиксируй что отвергли: в диф-истории добавляй «убрал X, потому что...» — это останавливает модель от повторных предложений того же самого.

Примеры

[ПЛОХО]: `Вот краткое содержание договора аренды (6 страниц): стороны — ООО «Альфа» и ИП Смирнов, срок 11 месяцев, аренда 150к в месяц. Найди риски.` [ХОРОШО]: `Вот полный текст договора аренды: [вставить полный договор]. Найди юридические риски и противоречия между разделами. Ничего не сокращал — смотри всё.` Для итеративной работы: [ПЛОХО]: `Вот обновлённый меморандум, снова прошу проверить раздел про рынок. [вставить весь документ заново]` [ХОРОШО]: `Что изменилось с прошлого раза: — добавил объём рынка: 180 млрд руб. в 2024 — убрал абзац про конкурентов (перенесём отдельно) — переформулировал тезис: теперь фокус на корпоративных клиентах, не на физлицах. Текущая версия раздела «Рынок»: [вставить актуальный текст]. Задача: проверь логику аргументации.`

Источник: Read More, Think More: Revisiting Observation Reduction for WebAgents

ArXiv ID: 2604.01535 | Сгенерировано: 2026-04-03 04:23

Проблемы LLM

Проблема	Суть	Как обойти
Без истории изменений модель ходит по кругу	При итеративной работе (правки текста, улучшение кода) модель не знает что уже пробовалось. Предлагает снова то, от чего уже отказались. Каждый новый запрос — как первый.	Явно пиши что изменилось с прошлого раза: что добавили, что убрали, почему. Не просто вставляй текст заново — фиксируй динамику. Модель перестаёт ходить по кругу.

Методы

Метод Суть

Диф-история — передавай только изменения При итеративной работе не вставляй весь предыдущий контекст заново. Пиши только что изменилось: — добавил X, — убрал Y, — переформулировал Z. Затем — текущая версия и задача. Почему работает: модель видит направление движения. Понимает откуда пришли. Не повторяет отвергнутое. Экономия: объём в ~3 раза меньше при том же качестве. Когда применять: любая итеративная работа — текст, код, стратегия. Когда не работает: первый запрос, нет предыстории.

Метод	Суть
Диф-история — передавай только изменения	При итеративной работе не вставляй весь предыдущий контекст заново. Пиши только что изменилось: `— добавил X`, `— убрал Y`, `— переформулировал Z`. Затем — текущая версия и задача. Почему работает: модель видит направление движения. Понимает откуда пришли. Не повторяет отвергнутое. Экономия: объём в ~3 раза меньше при том же качестве. Когда применять: любая итеративная работа — текст, код, стратегия. Когда не работает: первый запрос, нет предыстории.

📖 Простыми словами

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню