3,583 papers
arXiv:2507.00081 76 30 июня 2025 г. FREE

Если длинный чат с LLM превращается в кашу — это не случайность, это архитектура.

КЛЮЧЕВАЯ СУТЬ
Если длинный чат с LLM превращается в кашу — это не случайность, это архитектура. Модель не знает, на каком этапе вы находитесь: она угадывает статус из общей массы переписки. Метод явного блока состояния позволяет вести любой многоэтапный проект без потери контекста — без программирования, прямо в промпте. Фишка: добавь в каждый запрос блок [STATE] с переменными проекта — что сделано, что нет, что сейчас на очереди. Модель перестаёт угадывать. Она читает документ прогресса и знает всё.
Адаптировать под запрос

Исследование показывает, что большие языковые модели (LLM) плохо справляются с длинными, многошаговыми задачами, потому что у них нет настоящей "памяти о состоянии" — они не понимают, на каком этапе процесса находятся. Авторы предлагают фреймворк SciBORG, который дает AI-агентам структурированную память в виде "конечного автомата" (FSA), где четко прописаны текущий статус системы и возможные переходы (например, "дверца открыта" -> "загрузка" -> "дверца закрыта").

Ключевой результат: Явное отслеживание состояния системы в структурированном виде кардинально повышает надежность и успешность выполнения сложных задач AI-агентами, превосходя стандартные подходы с простой историей чата.

Представьте, что вы просите LLM помочь вам с многоэтапным проектом, например, с планированием отпуска. Сначала вы обсуждаете страну, потом город, потом отель, потом билеты. К моменту обсуждения билетов LLM может "забыть", какой отель вы выбрали, или предложить город из другой страны, потому что для него вся предыдущая переписка — это просто большой кусок текста без четкой структуры. У него нет понимания "состояния" вашего плана.

Исследование решает эту проблему, вводя концепцию Finite-State Automata (FSA) — памяти о состоянии. Вместо того чтобы полагаться на историю чата, агент SciBORG использует отдельный, строго структурированный "документ о состоянии".

Как это работает в исследовании: 1. Определяется схема состояния: Для управления лабораторным синтезатором определяются ключевые параметры: sessionID, lid_status (статус крышки: открыта/закрыта), vial_status (статус пробирки: загружена/не загружена) и т.д. 2. Агент получает текущее состояние: Перед каждым действием агент смотрит не только на запрос пользователя, но и на этот "документ о состоянии". 3. Агент обновляет состояние: После каждого выполненного действия (например, open_lid), агент не просто пишет "ОК", а обновляет lid_status на "открыта" в своем документе о состоянии.

Что это дает обычному пользователю (методика для адаптации): Вы не можете встроить FSA в ChatGPT, но вы можете симулировать его вручную в своих промптах. Суть метода — перестать полагаться на неявную память чата и начать явно управлять состоянием задачи.

Ваша методика: 1. Определите "переменные состояния" для вашей задачи (например, для написания книги: текущая_глава, статус_персонажей, ключевые_повороты_сюжета). 2. Создайте в своем промпте специальный блок, например, [PROJECT_STATE], где вы будете хранить эти переменные. 3. В каждом новом запросе к LLM по этой задаче вы копируете этот блок и обновляете его, отражая прогресс. 4. Дайте LLM явную инструкцию всегда обращаться к блоку [PROJECT_STATE] как к "единственному источнику правды" о текущем положении дел.

Это заставляет LLM фокусироваться на структурированных данных о состоянии, а не пытаться угадать его из хаотичной истории переписки.

  • Прямая применимость: Нулевая. Пользователь не может реализовать фреймворк SciBORG или интегрировать FSA-память в публичные чат-боты. Это требует навыков программирования и доступа к API.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю бесценную ментальную модель: "LLM — это мощный, но безпамятный исполнитель. Моя задача как промпт-инженера — быть его внешней, структурированной памятью". Это объясняет, почему проваливаются сложные проекты, и дает ключ к их решению.

  • Потенциал для адаптации: Высокий. Концепцию можно легко адаптировать в виде ручного паттерна промптинга. Пользователь может создать в своем промпте текстовый блок, имитирующий JSON-объект или XML-структуру, и обновлять его при каждом взаимодействии. Это превращает пассивную историю чата в активный, управляемый "файл состояния" проекта.

Ты — опытный маркетолог, помогающий мне в создании контент-плана для запуска нового продукта: "умной" кофеварки "AromaMax".

Наша задача — создать серию из 3 постов для социальных сетей.

**ВАЖНО:** Всегда сверяйся с блоком `` ниже, чтобы понимать текущий статус проекта. Он — твой единственный источник правды о прогрессе. Не предлагай действия для завершенных этапов.

---
****
Запуск кофеварки AromaMax
Анонс и ключевая функция (управление со смартфона)
pending
Сравнение с конкурентами и уникальные рецепты
pending
Отзывы первых пользователей и специальное предложение
pending
none
****
---

Твоя первая задача: напиши текст для Поста №1, основываясь на его теме из блока ``. Текст должен быть вовлекающим, ярким и содержать призыв к действию (подписаться на уведомление о старте продаж).

Этот промпт работает за счет симуляции "памяти о состоянии" (FSA), описанной в исследовании.

  1. Структурированная Память: Блок — это аналог FSA. Он не просто часть истории чата, а выделенный, структурированный объект, содержащий ключевые переменные проекта (post_1_status, post_2_status и т.д.).
  2. Явное Управление Состоянием: Вместо того чтобы LLM пыталась угадать, что уже сделано, мы явно указываем статус каждого этапа (pending). После генерации поста мы в следующем промпте изменим на complete.
  3. Фокусировка Внимания: Инструкция "Всегда сверяйся с блоком " заставляет модель при каждом обращении сначала анализировать этот блок. Это предотвращает "дрейф контекста" и повторение уже выполненных шагов.
  4. Снижение Когнитивной Нагрузки на LLM: Модели не нужно перечитывать и интерпретировать всю историю диалога для определения текущего этапа. Она получает четкие, машиночитаемые инструкции из блока состояния, что повышает надежность и точность ее действий.
Ты — мой личный ассистент по планированию 5-дневной поездки в Токио для семьи с двумя детьми (10 и 14 лет).

Твоя задача — помочь мне составить детальный план на каждый день.

**КЛЮЧЕВОЕ ПРАВИЛО:** Перед каждым ответом изучи блок ``. Это наш главный документ, который показывает, что уже сделано, а что нет. Основывай свои предложения только на текущем состоянии плана.

---
****
Токио, Япония
5 дней
2 взрослых, 2 детей (10, 14)
Прилет, заселение в отель в районе Синдзюку, прогулка по парку Синдзюку-Гёэн, ужин.
complete
Не спланирован.
pending
Не спланирован.
pending
Не спланирован.
pending
Не спланирован.
pending
Планирование Дня 2
****
---

Итак, День 1 у нас распланирован. Теперь, основываясь на ``, предложи три варианта плана на День 2. Учитывай интересы детей: им нравится аниме, видеоигры и современные технологии. Предложи места, которые можно посетить, и примерный тайминг.

Этот пример работает по тому же принципу, что и предыдущий, эффективно адаптируя выводы исследования для сложной бытовой задачи.

  1. Наглядный Прогресс: Блок действует как доска для планирования. Статусы complete и pending четко показывают и пользователю, и LLM, какие дни уже закрыты, а какие требуют работы.
  2. Предотвращение Ошибок: Без этого блока, после долгого обсуждения Дня 1, LLM могла бы снова предложить идеи для Дня 1 или забыть, что в семье есть дети. Тег Планирование Дня 2 явно направляет внимание модели на текущую задачу, исключая путаницу.
  3. Итеративное Улучшение: Пользователь может легко обновить план. Например, после ответа LLM, он может скопировать промпт, вставить понравившийся вариант в , изменить на complete и поменять на Планирование Дня 3. Это создает надежный итеративный процесс, где LLM всегда в курсе актуального состояния дел, точно как агент SciBORG в исследовании.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование направлено на создание фреймворка, который устраняет необходимость в ручном промптинге, заменяя его агентной архитектурой.
  • B. Улучшение качества диалоговых ответов: Низкое. Фокус на надежности выполнения многошаговых задач (управление оборудованием, поиск в базах данных), а не на улучшении качества разговорного диалога.
  • C. Прямая практическая применимость: Очень низкая. Метод требует использования Python, фреймворка LangChain и развертывания сложной агентной архитектуры. Неприменимо напрямую в обычном чате.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще объясняет фундаментальную слабость LLM — отсутствие структурированной памяти и отслеживания состояния. Концепция "конечного автомата" (FSA) как ментальная модель чрезвычайно полезна для понимания, почему LLM "забывают" контекст в длинных задачах.
  • E. Новая полезная практика (кластеры):
    • Кластер 2 (Поведенческие закономерности LLM): Да, объясняет, почему LLM теряют контекст и состояние.
    • Кластер 6 (Контекст и память): Да, это ядро исследования. Предлагается продвинутая стратегия управления памятью (FSA).
    • Кластер 7 (Надежность и стабильность): Да, вся работа посвящена повышению надежности выполнения задач.
  • Чек-лист практичности (+15 баллов): Да, работа концептуально объясняет, как структурировать сложные запросы и повысить их точность, раскрывая неочевидные особенности поведения LLM (провалы в памяти состояния). Это дает основу для адаптации подхода.
📌

Цифровая оценка полезности

Аргументы за оценку 76: Оценка высокая, несмотря на нулевую прямую применимость, так как концептуальная ценность исследования огромна. Оно дает продвинутым пользователям мощную ментальную модель для понимания провалов LLM в сложных задачах. Ключевой вывод — "LLM нужна структурированная память о состоянии" — можно адаптировать для ручного промптинга, что немедленно улучшит качество работы со сложными, многошаговыми проектами. Работа попадает под правило "не менее 75 баллов", так как дает четкий вывод, который можно сразу учесть при построении промпта.

Контраргументы (почему оценка могла быть ниже): * Слишком сложно для "обычного пользователя". Исследование перегружено техническими деталями (Python, LangChain, API, JSON) и ориентировано на разработчиков AI-агентов. Средний пользователь ChatGPT не сможет продраться через этот текст и извлечь пользу. * Цель — автоматизация, а не улучшение ручного промтинга. Авторы прямо говорят, что их фреймворк SciBORG устраняет необходимость в ручной настройке промптов, что противоречит цели обучения пользователей промпт-инжинирингу.

Контраргументы (почему оценка могла быть выше): * Революционная концепция для Power-User'ов. Для тех, кто использует LLM для работы (аналитиков, маркетологов, менеджеров), понимание "управления состоянием" — это переход на новый уровень. Это не просто трюк, а фундаментальный принцип, который решает целый класс проблем. Адаптация этого принципа вручную дает огромный прирост надежности.


📋 Дайджест исследования

Ключевая суть

Если длинный чат с LLM превращается в кашу — это не случайность, это архитектура. Модель не знает, на каком этапе вы находитесь: она угадывает статус из общей массы переписки. Метод явного блока состояния позволяет вести любой многоэтапный проект без потери контекста — без программирования, прямо в промпте. Фишка: добавь в каждый запрос блок [STATE] с переменными проекта — что сделано, что нет, что сейчас на очереди. Модель перестаёт угадывать. Она читает документ прогресса и знает всё.

Принцип работы

LLM обрабатывает всю историю чата как один большой кусок текста. Чем длиннее переписка — тем сложнее понять, что уже сделано. Модель как студент на экзамене: держит всё в голове, чем дольше — тем больше путается. Блок состояния — это опись проекта, которую кладёшь перед ней на стол перед каждым ответом. Модель не вспоминает переписку трёхдневной давности — она читает актуальный документ. Дай инструкцию: «этот блок — единственный источник правды» — и приоритет сместится с хаотичной истории чата на структуру.

Почему работает

История чата для LLM — как показания десяти свидетелей: много, противоречиво, без порядка. Блок состояния — как протокол: факты, статусы, текущая задача. Явная структура бьёт неявный контекст. Модели не нужно угадывать прогресс — она читает его напрямую. В исследовании агенты с FSA-памятью стабильно доводили сложные лабораторные протоколы до конца, тогда как агенты с историей чата сбивались с пути. Разница — не в мощности модели, а в том, как организована информация о состоянии задачи.

Когда применять

Любая задача, которая растягивается на несколько итераций: написание книги по главам, планирование поездки, разработка контент-плана, создание технического задания по частям, ведение сложного переговорного сценария. Особенно нужно, когда у задачи есть чёткие этапы и переменные (сделано/не сделано, выбрано/не выбрано, согласовано/на проверке). НЕ подходит для одиночных запросов — там нет никакого 'состояния проекта', которое нужно отслеживать.

Мини-рецепт

1. Выдели переменные состояния: что важно не потерять между итерациями? Например, для контент-плана: какие посты готовы, какие нет, какой сейчас на очереди.

2. Создай блок в промпте: оберни переменные в тег — например, ... или просто блок с заголовком [ТЕКУЩИЙ СТАТУС ПРОЕКТА]. Укажи каждую переменную явно.

3. Дай модели инструкцию: добавь в промпт фразу — «Перед каждым ответом изучи блок [STATE]. Он — единственный источник правды о прогрессе. Не предлагай действий для завершённых этапов».

4. Обновляй блок вручную: после каждого ответа модели скопируй промпт, измени статус выполненного этапа (например, pending → complete) и обнови поле текущей задачи. Это твой итеративный цикл.

5. Не усложняй формат: блок не обязан быть XML или JSON. Достаточно читаемого текста с чёткими метками. Структура важнее синтаксиса.

Примеры

[ПЛОХО] : Мы уже выбрали страну и город для поездки. Теперь помоги с отелем (Модель не знает что именно выбрали, придётся угадывать из истории чата)
[ХОРОШО] : Ты — мой ассистент по планированию поездки. ВАЖНО: всегда читай блок [STATE] перед ответом. Это единственный источник правды. [STATE] Назначение: Токио, Япония Сроки: 12–17 августа Состав: 2 взрослых, 1 ребёнок (12 лет) Страна: выбрана — Япония ✓ Город: выбран — Токио, район Синдзюку ✓ Отель: не выбран — на очереди Билеты: не куплены Текущая задача: выбрать отель — семейный, до 15 000 руб/ночь, рядом с метро [/STATE] Предложи три варианта отеля по критериям из [STATE]. (Модель видит весь контекст, не теряет что уже решено, фокусируется на текущем шаге)
Источник: State and Memory is All You Need for Robust and Reliable AI Agents (arXiv: 2507.00081)
ArXiv ID: 2507.00081 | Сгенерировано: 2026-03-02 16:58

Проблемы LLM

ПроблемаСутьКак обойти
Модель теряет этапы в длинных задачахВедёшь долгий диалог: пишешь книгу, планируешь поездку, создаёшь кампанию. Модель опирается на историю чата. Но история — это просто большой текст. Модель должна угадать из него, что уже сделано, что нет. Чем длиннее диалог — тем больше ошибок. Модель предлагает то, что уже закрыто. Или забывает договорённости начала разговораСоздай в промпте отдельный блок состояния. Пример: . Вноси туда ключевые переменные задачи и их статус. Скажи модели: "Этот блок — единственный источник правды о прогрессе. Читай его перед ответом." После каждого шага обновляй статусы вручную

Методы

МетодСуть
Блок состояния — явный контроль прогрессаДобавь в начало промпта структурированный блок с переменными задачи. Например: 3pending. Укажи: "Всегда читай первым. Не предлагай действия для завершённых этапов." После каждого шага копируй промпт, меняй статус вручную (pending complete), двигайся дальше. Почему работает: Модель читает структурированный факт — не интерпретирует длинный текст. Факт однозначен. Длинный текст — нет. Когда применять: задача длиннее 3–5 шагов, несколько параллельных элементов (главы, посты, дни). Когда не работает: одиночный запрос, задача без чётких этапов
📖 Простыми словами

Состояние и память — это всё, что нужно для надежных и устойчивых AI-агентов

arXiv: 2507.00081

Суть в том, что современные AI-агенты тупят не из-за нехватки «мозгов», а из-за отсутствия нормальной краткосрочной памяти. Когда ты просишь нейронку выполнить сложную цепочку действий, она ведет себя как золотая рыбка: сделала шаг и забыла, зачем вообще начала. Исследователи доказали, что для надежной работы агенту не нужны гигантские контекстные окна или сверхсложные модели, ему нужно четкое управление состоянием. Это база, на которой держится любая логика: агент должен в любой момент понимать, где он находится и что уже сделано.

Это как пытаться собрать шкаф из Икеи, постоянно выкидывая инструкцию в окно после каждого закрученного шурупа. Формально ты работаешь, но по факту — топчешься на месте или ломаешь конструкцию. Метод Finite State Adapter (FSA) превращает этот хаос в четкий алгоритм. Вместо того чтобы каждый раз гадать, что делать дальше, агент сверяется с «картой состояний». Это избавляет его от бесконечных циклов и галлюцинаций, когда модель начинает нести чушь просто потому, что потеряла нить повествования.

В основе лежит явное отслеживание состояния и жесткие правила перехода. Вместо того чтобы полагаться на интуицию LLM, мы внедряем структуру, где каждое действие переводит агента из точки А в точку Б. Если действие не удалось, агент не впадает в ступор, а откатывается к предыдущему стабильному состоянию. Это делает систему предсказуемой: надежность вырастает в разы, потому что мы заменяем «творческий полет» модели на строгую логику конечных автоматов, где каждый шаг задокументирован в памяти.

Хотя тестировали это на сложных технических задачах, принцип универсален. Это работает везде, где есть процесс: от автоматизации воронки продаж до написания кода или управления умным домом. Если твой бот должен сначала уточнить бюджет, потом предложить варианты, а только потом выставить счет — тебе нужен контроль состояний. Без него AI рано или поздно попытается «продать» товар, даже не узнав, есть ли он на складе. State and Memory — это фундамент для создания агентов, которым реально можно делегировать работу, а не просто переписываться с ними.

Короче: хватит надеяться, что модель «сама разберется» в длинном контексте. Хочешь стабильный результат — внедряй механику состояний и храни историю переходов. Это превращает капризную нейронку в надежный инструмент, который не ломается от малейшего отклонения в диалоге. Либо ты управляешь памятью агента, либо он превращает твою задачу в бесконечный цикл ошибок. Выбор очевиден.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с