3,583 papers
arXiv:2606.26960 71 25 июня 2026 г. FREE

NetLLMeval: архитектура промпт-пайплайна важнее размера модели

КЛЮЧЕВАЯ СУТЬ
Та же модель с правильным пайплайном точнее, чем более мощная модель с одним большим промптом — в два раза. Guided Retrieval Agent позволяет получать точные и проверяемые ответы при работе с большим объёмом разнородных данных — без смены модели. Фишка: заставь модель сначала объявить тип задачи — после этого она следует своему решению, а не тонет в данных. Четыре шага вместо монолитного промпта: классифицируй → отбери → рассуди → проверь.
Адаптировать под запрос

TL;DR

Исследователи протестировали четыре способа организовать диалог с LLM на одних и тех же задачах — и обнаружили, что разница в точности колоссальная. Не "чуть лучше", а в два раза: та же модель, тот же вопрос, но другая структура запроса.

Главная находка: маленькая локальная модель (14B параметров) прыгнула с 43% точности до 88% — просто потому что изменили архитектуру промпта. Без дообучения, без новой модели. Только структура. Это означает: то, как вы оформляете запрос и разбиваете задачу на шаги, влияет на качество ответа сильнее, чем мощность модели.

Исследование сравнивало четыре паттерна — от "выгрузи всё в один промпт и жди ответа" до "сначала классифицируй задачу, потом выбери нужный контекст, потом проверь ответ перед финалом". Чем сложнее задача — тем больше разрыв между этими подходами.


📌

Схема четырёх паттернов

Все четыре работают в одном или нескольких сообщениях — без кода, без API.

ПАТТЕРН 1 — Bulk (один выстрел):
  ВСЯ информация + вопрос → ответ сразу
  [1 сообщение. Дёшево. Слабо на сложных задачах.]

ПАТТЕРН 2 — Bulk + ReAct (рассуждение перед ответом):
  ВСЯ информация → рассуждение по шагам → ответ → финальная структура
  [3 шага. Тот же контекст, но явное цепочечное мышление.]

ПАТТЕРН 3 — Guided Retrieval (классифицируй → отбери → ответь):
  ШАГ 1: Классификация задачи → тип (из фиксированного списка)
  ШАГ 2: Выборка только релевантных данных под этот тип
  ШАГ 3: Анализ отобранного → структурированный ответ
  [3 запроса. Фиксированная стоимость. Лучший баланс цена/качество.]

ПАТТЕРН 4 — Planner Agent (план → действие → проверка → итерация):
  ШАГ 1: Планировщик — что нужно узнать?
  ШАГ N: Сбор информации по инструментам или уточняющим вопросам
  ВАЛИДАТОР: Все ли поля ответа заполнены? → если нет, возврат планировщику
  ФИНАЛ: Ответ после прохождения проверки
  [N запросов. Подходит для сложных задач с неизвестным заранее объёмом работы.]

🚀

Пример применения

Задача: Максим — фаундер. Перед встречей с инвестором ему надо разобрать 40-страничный инвестиционный меморандум конкурента, который попал к нему в руки. Времени мало. Нужно быстро понять: бизнес-модель, риски, ключевые метрики.

Промпт (Паттерн 3 — Guided Retrieval вручную):

Работаем в три шага. Не переходи к следующему, пока не закончишь текущий.

ШАГ 1 — КЛАССИФИКАЦИЯ:
Прочитай этот документ и определи: какие разделы релевантны для анализа 
инвестиционной привлекательности? Выбери из категорий:
- бизнес-модель и монетизация
- рыночные метрики (TAM/SAM/SOM, рост)
- финансовые показатели
- команда и трекшн
- риски и ограничения
Выведи: список категорий + номера страниц/разделов где они находятся.

ШАГ 2 — ВЫБОРКА:
Из каждой отмеченной категории выпиши только ключевые факты и цифры.
Без пересказа, только конкретика. Максимум 3-5 пунктов на категорию.

ШАГ 3 — АНАЛИЗ:
На основе только выбранных данных из Шага 2:
- Главные сильные стороны (топ-3)
- Главные риски (топ-3)  
- Вопросы, которые стоит задать на встрече (топ-5)

[ТЕКСТ ДОКУМЕНТА]

Результат: Модель сначала выведет карту документа с категориями — вы увидите где что лежит. Затем сжатую выжимку только по нужным разделам. Финально — структурированный анализ с вопросами для встречи. Три явных слоя вместо одного размытого ответа "документ интересный, вот основные моменты...".


🧠

Почему это работает

LLM плохо удерживает несколько задач одновременно. Когда вы даёте длинный документ и сложный вопрос "в лоб" — модель пытается одновременно читать, выбирать важное, рассуждать и форматировать ответ. Ошибки множатся. Особенно если документ большой — ранние части "вытесняются" из фокуса к концу.

LLM хорошо делает одно конкретное действие за раз. Классифицировать — легко. Выписать факты из указанного раздела — легко. Проанализировать готовую выжимку — легко. Когда задача чёткая и контекст уже отфильтрован — точность резко растёт.

Guided Retrieval использует это: разбивает сложную задачу на три простых шага, где каждый следующий работает с уже отобранным материалом, а не с полным массивом данных. Planner+Validator идёт дальше — добавляет явную проверку: "всё ли нужное уже собрано?", и если нет — возвращает на доработку.

Рычаги управления: - Количество категорий в классификации → меньше категорий = быстрее, больше = точнее для сложных задач - Критерий валидатора → замени "все поля заполнены?" на свой: "достаточно ли данных для уверенного вывода?" - Порог итераций → добавь "не более 3 попыток" если боишься зависания на сложном документе - Формат ШАГ 2 → попроси цитаты с указанием страниц — получишь traceable выжимку, которую можно проверить


📋

Шаблон промпта

📌

Guided Retrieval (3 шага, баланс цена/качество)

Работаем в три шага. Каждый шаг — отдельный блок. Не переходи к следующему 
без завершения предыдущего.

ШАГ 1 — КЛАССИФИКАЦИЯ:
Изучи {материал} и определи: какие части релевантны для {цель_анализа}?
Классифицируй по категориям: {список_категорий}.
Выведи: категория → где находится в материале.

ШАГ 2 — ВЫБОРКА:
Из каждой категории выпиши только ключевые факты. 
Без пересказа. Максимум {N} пунктов на категорию.

ШАГ 3 — ОТВЕТ:
На основе только данных из Шага 2 ответь: {конкретный_вопрос}.
Формат ответа: {нужный_формат}.

{материал}

Что подставлять: - {материал} — документ, данные, текст для анализа - {цель_анализа} — "инвестиционной привлекательности", "технической реализуемости", "юридических рисков" - {список_категорий} — 4-6 категорий под вашу задачу - {N} — 3-5 для быстрого анализа, 7-10 для глубокого - {конкретный_вопрос} — что именно хотите узнать после отбора данных - {нужный_формат} — таблица, список, резюме на 200 слов


📌

Planner+Validator (итеративный, для сложных задач)

Ты решаешь задачу: {задача}.

Работай циклически до тех пор, пока не будешь уверен в полноте ответа:

ПЛАНИРОВЩИК:
- Что мне уже известно из {контекст}?
- Какой информации не хватает для уверенного ответа?
- Какой следующий шаг?

ДЕЙСТВИЕ:
Выполни шаг. Зафиксируй результат.

ВАЛИДАТОР:
Проверь: могу ли я сейчас дать точный ответ на {задача}? 
Что отсутствует? Если всё есть — переходи к финалу. 
Если нет — вернись к планировщику. Максимум {число} итераций.

ФИНАЛ (только после прохождения валидации):
{формат_финального_ответа}

🚀 Быстрый старт — вставь в чат:

Вот шаблон Guided Retrieval. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о материале для анализа, цели и нужных категориях — потому что без этого она не сможет правильно настроить классификатор в Шаге 1, от которого зависит весь дальнейший отбор.


⚠️

Ограничения

⚠️ Сложные задачи — сложные задачи: Паттерны помогают, но если задача требует реальных знаний которых нет у модели — архитектура не спасёт. Guided Retrieval поднял точность с 43% до 88%, но не до 100%.

⚠️ Простые задачи — не нужно усложнять: Для простых вопросов трёхшаговый пайплайн только затянет процесс без выигрыша в качестве. Паттерны окупаются на задачах средней и высокой сложности.

⚠️ Planner может зациклиться: Итеративный паттерн без жёсткого ограничения числа шагов может "застрять". Всегда добавляй "максимум N попыток".

⚠️ Исследование про сетевое администрирование: Все числа — из задач анализа сетевых конфигураций. Принципы универсальны, но конкретный прирост точности в вашей задаче может отличаться.


🔗

Ресурсы

Название: Toward Agentic SysAdmin: Rethinking System Administration with AI Agents Журнал: IEEE Transactions on Network and Service Management GitHub: github.com/pajola/agentic-sysadmin Авторы: Gianmaria Frigo, Davide Saladino, Alberto Castagnaro, Francesco Marchiori, Denis Donadel, Luca Pajola, Mauro Conti Университеты: University of Padova (Италия), University of Verona (Италия), Örebro University (Швеция), Spritz Matter SRL (Италия)


📋 Дайджест исследования

Ключевая суть

Та же модель с правильным пайплайном точнее, чем более мощная модель с одним большим промптом — в два раза. Guided Retrieval Agent позволяет получать точные и проверяемые ответы при работе с большим объёмом разнородных данных — без смены модели. Фишка: заставь модель сначала объявить тип задачи — после этого она следует своему решению, а не тонет в данных. Четыре шага вместо монолитного промпта: классифицируй → отбери → рассуди → проверь.

Принцип работы

Стандартный подход: дать всё сразу и попросить ответить. Проблема: модель не знает что важнее — усредняет или застревает на том, что встретила первой. Guided Retrieval разрывает это на этапы. Шаг 1 — только тип задачи, никакого анализа. Шаг 2 — только список нужных материалов, никаких выводов. Шаг 3 — анализ строго по отобранному. Шаг 4 — явная самопроверка: «Я учёл затраты? Я ответил на вопрос?» Разделение фильтрации и анализа — ключ. Модель хорошо делает одну вещь за раз. Всё разом — плывёт.

Почему работает

Большой набор данных в одном промпте — это ловушка «потери в середине». Информация в начале и конце промпта весит для модели больше, середина теряется. Чем длиннее промпт — тем хаотичнее результат. Классификация в Шаге 1 решает это механически: модель объявляет приоритет до того, как начинает читать данные. Это фиксирует «точку зрения» до анализа — и модель не дрейфует. Валидатор работает как явный самоконтроль: «да/нет» по конкретным критериям — это не то же самое что неявная надежда что модель сама всё учтёт. Явное лучше неявного — каждый раз.

Когда применять

Работает для задач с большим и разнородным контекстом: анализ документов, сравнение инструментов или решений, сложные аналитические вопросы с несколькими группами данных. Особенно точно бьёт когда: у вас 5+ источников разного типа — отзывы, цифры, переписка, кейсы — а модель даёт непоследовательные ответы от запроса к запросу. Не подходит для простых вопросов с коротким ответом. Если задача «какой тариф дешевле» — четыре шага избыточны, обычный промпт справится быстрее.

Мини-рецепт

1. Составь список типов задач: 3–5 типов, с которыми работаешь чаще всего. Для маркетинга: сравнение_каналов / оценка_аудитории / анализ_конкурентов. Для закупок: сравнение_поставщиков / оценка_рисков / проверка_условий. Чем точнее список — тем лучше работает Шаг 1.

2. Задай критерии самопроверки: Запиши 3 обязательных требования к ответу в своей области. Это войдёт в Шаг 4. Пример: «я учёл бюджет?», «я сравнил не менее двух вариантов?», «я назвал конкретный следующий шаг?»

3. Возьми шаблон и подставь своё: Замени {тип_1...4} на свои типы задач, {критерий_проверки} на обязательные поля, {формат_вывода} на нужный формат: таблица, письмо, питч.

4. Прогони и проверь Шаг 1: Если модель классифицировала неверно — уточни список типов и запусти снова. Один-два прогона обычно показывают где список нечёткий.

5. Итерируй именно список типов: Это самое важное место во всей конструкции. Если типы перекрываются — весь остальной пайплайн сбоит с самого начала. 10 минут на хороший список окупают следующие сотни запросов.

Примеры

[ПЛОХО] : Вот 6 документов о двух инструментах. Скажи, какой лучше для нашей команды.
[ХОРОШО] : Ты аналитик, работающий по протоколу из 4 шагов. Вопрос: стоит ли команде из 8 человек перейти с Notion на Яндекс.Трекер + Confluence? Материалы: [список] ШАГ 1 — выбери тип задачи: сравнение_инструментов / оценка_затрат / анализ_рисков_миграции. Запиши: "Тип: ___" ШАГ 2 — перечисли только нужные материалы для этого типа. Остальные игнорируй. Запиши: "Использую: ___" ШАГ 3 — рассуди только по отобранным материалам. ШАГ 4 — проверь: учёл стоимость? (да/нет) учёл риски миграции? (да/нет) назвал конкретный следующий шаг? (да/нет). Если хоть одно "нет" — вернись к Шагу 3 и дополни. ШАГ 5 — структурированный вывод: решение / главные причины / риски / следующий шаг.
Источник: Toward Agentic SysAdmin: Rethinking System Administration with AI Agents
ArXiv ID: 2606.26960 | Сгенерировано: 2026-06-28 21:58

Проблемы LLM

ПроблемаСутьКак обойти
Модель тонет в большом контекстеДаёшь модели длинный документ и вопрос в одном запросе. Модель пытается ответить "по всему сразу". Не выбирает что важно — всё попадает в один котёл. Чем сложнее задача, тем сильнее падает точность. Это не вопрос мощи модели — это структурная проблема любого запроса с большим контекстомРазбей на шаги. Сначала классифицируй тип задачи. Потом выбери только нужные части документа. Потом отвечай на узкий конкретный вопрос по выбранному куску

Методы

МетодСуть
Четыре шага вместо одного запроса — классифицируй, сфокусируй, проверь, ответьШаг 1 — классификация. Попроси модель определить тип задачи и какие части документа нужны. "Определи тип задачи: {варианты}. Какие данные нужны? Какие можно игнорировать?" Шаг 2 — фокус. Попроси работать только с выбранными данными. Остальное явно запрети. Шаг 3 — проверка. Перед ответом спроси: "Достаточно ли у тебя данных? Если нет — скажи что не хватает." Шаг 4 — ответ в нужном формате. Почему работает: Модель хорошо справляется с узкими задачами. Классификация убирает лишний контекст. Проверка полноты предотвращает домысливание. Каждый шаг использует сильную сторону модели. Когда применять: длинные документы, сложный анализ, задачи где модель "теряет нить". Когда не нужно: простые однозначные вопросы — шаги только замедлят
📖 Простыми словами

TowardAgenticSysAdmin: Rethinking System Administration withAIAgents

arXiv: 2606.26960

Суть в том, что современные нейронки — это не магические оракулы, а скорее очень способные, но дико рассеянные стажеры. Исследование TowardAgenticSysAdmin доказало: если ты просишь модель решить сложную задачу одним махом, она гарантированно поплывет. Проблема в когнитивной перегрузке: когда LLM заставляют одновременно анализировать огромный массив данных, выстраивать логические связи и выдавать готовый ответ, ее «оперативка» забивается шумом, и точность падает в два раза.

Это как пытаться собрать шкаф из ИКЕА, когда тебе вслух читают «Войну и мир», а ты при этом должен еще и пересказывать сюжет. Вроде руки делают, а голова где-то в облаках — в итоге лишние детали остаются, а дверцы висят криво. Модель просто теряет фокус на деталях, когда на нее вываливают всё и сразу, превращая потенциально крутой инсайт в бесполезную кашу.

Исследователи прогнали четыре метода общения с ИИ и выяснили, что лучше всего работает агентный подход. Вместо одного длинного промпта задачу нужно дробить: один агент только читает и вытаскивает факты, второй их критикует, третий упаковывает в ответ. Конкретные цифры шокируют: правильная структура диалога поднимает эффективность в два раза на тех же самых мощностях. Это не магия алгоритмов, а чистая архитектура процесса, где каждый шаг изолирован от сопутствующего бреда.

Принцип универсален и выходит далеко за рамки системного администрирования. Будь то разбор юридического контракта, анализ конкурентов или написание кода — дробление контекста решает всё. Если ты скармливаешь нейронке 40 страниц текста и ждешь внятный отчет «в один клик», ты сам подставляешь себя под удар. Работает только цепочка: сначала экстракция данных, потом верификация и только в конце синтез.

Короче, пора перестать воспринимать чат с ИИ как поиск в Google. Если хочешь результат, а не галлюцинации, забудь про формат «вопрос-ответ». Будущее за многошаговыми агентами, которые умеют проверять сами себя. Либо ты учишься строить эти цепочки сейчас, либо продолжаешь получать ответы, которые выглядят умными, но на деле являются полной лажей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с