arXiv:2606.26960 71 25 июня 2026 г. FREE

NetLLMeval: архитектура промпт-пайплайна важнее размера модели

КЛЮЧЕВАЯ СУТЬ

Та же модель с правильным пайплайном точнее, чем более мощная модель с одним большим промптом — в два раза. Guided Retrieval Agent позволяет получать точные и проверяемые ответы при работе с большим объёмом разнородных данных — без смены модели. Фишка: заставь модель сначала объявить тип задачи — после этого она следует своему решению, а не тонет в данных. Четыре шага вместо монолитного промпта: классифицируй → отбери → рассуди → проверь.

Адаптировать под запрос

⚡

TL;DR

Исследователи протестировали четыре способа организовать диалог с LLM на одних и тех же задачах — и обнаружили, что разница в точности колоссальная. Не "чуть лучше", а в два раза: та же модель, тот же вопрос, но другая структура запроса.

Главная находка: маленькая локальная модель (14B параметров) прыгнула с 43% точности до 88% — просто потому что изменили архитектуру промпта. Без дообучения, без новой модели. Только структура. Это означает: то, как вы оформляете запрос и разбиваете задачу на шаги, влияет на качество ответа сильнее, чем мощность модели.

Исследование сравнивало четыре паттерна — от "выгрузи всё в один промпт и жди ответа" до "сначала классифицируй задачу, потом выбери нужный контекст, потом проверь ответ перед финалом". Чем сложнее задача — тем больше разрыв между этими подходами.

📌

Схема четырёх паттернов

Все четыре работают в одном или нескольких сообщениях — без кода, без API.

ПАТТЕРН 1 — Bulk (один выстрел):
  ВСЯ информация + вопрос → ответ сразу
  [1 сообщение. Дёшево. Слабо на сложных задачах.]

ПАТТЕРН 2 — Bulk + ReAct (рассуждение перед ответом):
  ВСЯ информация → рассуждение по шагам → ответ → финальная структура
  [3 шага. Тот же контекст, но явное цепочечное мышление.]

ПАТТЕРН 3 — Guided Retrieval (классифицируй → отбери → ответь):
  ШАГ 1: Классификация задачи → тип (из фиксированного списка)
  ШАГ 2: Выборка только релевантных данных под этот тип
  ШАГ 3: Анализ отобранного → структурированный ответ
  [3 запроса. Фиксированная стоимость. Лучший баланс цена/качество.]

ПАТТЕРН 4 — Planner Agent (план → действие → проверка → итерация):
  ШАГ 1: Планировщик — что нужно узнать?
  ШАГ N: Сбор информации по инструментам или уточняющим вопросам
  ВАЛИДАТОР: Все ли поля ответа заполнены? → если нет, возврат планировщику
  ФИНАЛ: Ответ после прохождения проверки
  [N запросов. Подходит для сложных задач с неизвестным заранее объёмом работы.]

🚀

Пример применения

Задача: Максим — фаундер. Перед встречей с инвестором ему надо разобрать 40-страничный инвестиционный меморандум конкурента, который попал к нему в руки. Времени мало. Нужно быстро понять: бизнес-модель, риски, ключевые метрики.

Промпт (Паттерн 3 — Guided Retrieval вручную):

Работаем в три шага. Не переходи к следующему, пока не закончишь текущий.

ШАГ 1 — КЛАССИФИКАЦИЯ:
Прочитай этот документ и определи: какие разделы релевантны для анализа 
инвестиционной привлекательности? Выбери из категорий:
- бизнес-модель и монетизация
- рыночные метрики (TAM/SAM/SOM, рост)
- финансовые показатели
- команда и трекшн
- риски и ограничения
Выведи: список категорий + номера страниц/разделов где они находятся.

ШАГ 2 — ВЫБОРКА:
Из каждой отмеченной категории выпиши только ключевые факты и цифры.
Без пересказа, только конкретика. Максимум 3-5 пунктов на категорию.

ШАГ 3 — АНАЛИЗ:
На основе только выбранных данных из Шага 2:
- Главные сильные стороны (топ-3)
- Главные риски (топ-3)  
- Вопросы, которые стоит задать на встрече (топ-5)

[ТЕКСТ ДОКУМЕНТА]

Результат: Модель сначала выведет карту документа с категориями — вы увидите где что лежит. Затем сжатую выжимку только по нужным разделам. Финально — структурированный анализ с вопросами для встречи. Три явных слоя вместо одного размытого ответа "документ интересный, вот основные моменты...".

🧠

Почему это работает

LLM плохо удерживает несколько задач одновременно. Когда вы даёте длинный документ и сложный вопрос "в лоб" — модель пытается одновременно читать, выбирать важное, рассуждать и форматировать ответ. Ошибки множатся. Особенно если документ большой — ранние части "вытесняются" из фокуса к концу.

LLM хорошо делает одно конкретное действие за раз. Классифицировать — легко. Выписать факты из указанного раздела — легко. Проанализировать готовую выжимку — легко. Когда задача чёткая и контекст уже отфильтрован — точность резко растёт.

Guided Retrieval использует это: разбивает сложную задачу на три простых шага, где каждый следующий работает с уже отобранным материалом, а не с полным массивом данных. Planner+Validator идёт дальше — добавляет явную проверку: "всё ли нужное уже собрано?", и если нет — возвращает на доработку.

Рычаги управления: - Количество категорий в классификации → меньше категорий = быстрее, больше = точнее для сложных задач - Критерий валидатора → замени "все поля заполнены?" на свой: "достаточно ли данных для уверенного вывода?" - Порог итераций → добавь "не более 3 попыток" если боишься зависания на сложном документе - Формат ШАГ 2 → попроси цитаты с указанием страниц — получишь traceable выжимку, которую можно проверить

📋

Шаблон промпта

📌

Guided Retrieval (3 шага, баланс цена/качество)

Работаем в три шага. Каждый шаг — отдельный блок. Не переходи к следующему 
без завершения предыдущего.

ШАГ 1 — КЛАССИФИКАЦИЯ:
Изучи {материал} и определи: какие части релевантны для {цель_анализа}?
Классифицируй по категориям: {список_категорий}.
Выведи: категория → где находится в материале.

ШАГ 2 — ВЫБОРКА:
Из каждой категории выпиши только ключевые факты. 
Без пересказа. Максимум {N} пунктов на категорию.

ШАГ 3 — ОТВЕТ:
На основе только данных из Шага 2 ответь: {конкретный_вопрос}.
Формат ответа: {нужный_формат}.

{материал}

Что подставлять: - {материал} — документ, данные, текст для анализа - {цель_анализа} — "инвестиционной привлекательности", "технической реализуемости", "юридических рисков" - {список_категорий} — 4-6 категорий под вашу задачу - {N} — 3-5 для быстрого анализа, 7-10 для глубокого - {конкретный_вопрос} — что именно хотите узнать после отбора данных - {нужный_формат} — таблица, список, резюме на 200 слов

📌

Planner+Validator (итеративный, для сложных задач)

Ты решаешь задачу: {задача}.

Работай циклически до тех пор, пока не будешь уверен в полноте ответа:

ПЛАНИРОВЩИК:
- Что мне уже известно из {контекст}?
- Какой информации не хватает для уверенного ответа?
- Какой следующий шаг?

ДЕЙСТВИЕ:
Выполни шаг. Зафиксируй результат.

ВАЛИДАТОР:
Проверь: могу ли я сейчас дать точный ответ на {задача}? 
Что отсутствует? Если всё есть — переходи к финалу. 
Если нет — вернись к планировщику. Максимум {число} итераций.

ФИНАЛ (только после прохождения валидации):
{формат_финального_ответа}

🚀 Быстрый старт — вставь в чат:

Вот шаблон Guided Retrieval. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о материале для анализа, цели и нужных категориях — потому что без этого она не сможет правильно настроить классификатор в Шаге 1, от которого зависит весь дальнейший отбор.

⚠️

Ограничения

⚠️ Сложные задачи — сложные задачи: Паттерны помогают, но если задача требует реальных знаний которых нет у модели — архитектура не спасёт. Guided Retrieval поднял точность с 43% до 88%, но не до 100%.

⚠️ Простые задачи — не нужно усложнять: Для простых вопросов трёхшаговый пайплайн только затянет процесс без выигрыша в качестве. Паттерны окупаются на задачах средней и высокой сложности.

⚠️ Planner может зациклиться: Итеративный паттерн без жёсткого ограничения числа шагов может "застрять". Всегда добавляй "максимум N попыток".

⚠️ Исследование про сетевое администрирование: Все числа — из задач анализа сетевых конфигураций. Принципы универсальны, но конкретный прирост точности в вашей задаче может отличаться.

🔗

Ресурсы

Название: Toward Agentic SysAdmin: Rethinking System Administration with AI Agents Журнал: IEEE Transactions on Network and Service Management GitHub: github.com/pajola/agentic-sysadmin Авторы: Gianmaria Frigo, Davide Saladino, Alberto Castagnaro, Francesco Marchiori, Denis Donadel, Luca Pajola, Mauro Conti Университеты: University of Padova (Италия), University of Verona (Италия), Örebro University (Швеция), Spritz Matter SRL (Италия)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Стандартный подход: дать всё сразу и попросить ответить. Проблема: модель не знает что важнее — усредняет или застревает на том, что встретила первой. Guided Retrieval разрывает это на этапы. Шаг 1 — только тип задачи, никакого анализа. Шаг 2 — только список нужных материалов, никаких выводов. Шаг 3 — анализ строго по отобранному. Шаг 4 — явная самопроверка: «Я учёл затраты? Я ответил на вопрос?» Разделение фильтрации и анализа — ключ. Модель хорошо делает одну вещь за раз. Всё разом — плывёт.

Почему работает

Большой набор данных в одном промпте — это ловушка «потери в середине». Информация в начале и конце промпта весит для модели больше, середина теряется. Чем длиннее промпт — тем хаотичнее результат. Классификация в Шаге 1 решает это механически: модель объявляет приоритет до того, как начинает читать данные. Это фиксирует «точку зрения» до анализа — и модель не дрейфует. Валидатор работает как явный самоконтроль: «да/нет» по конкретным критериям — это не то же самое что неявная надежда что модель сама всё учтёт. Явное лучше неявного — каждый раз.

Когда применять

Работает для задач с большим и разнородным контекстом: анализ документов, сравнение инструментов или решений, сложные аналитические вопросы с несколькими группами данных. Особенно точно бьёт когда: у вас 5+ источников разного типа — отзывы, цифры, переписка, кейсы — а модель даёт непоследовательные ответы от запроса к запросу. Не подходит для простых вопросов с коротким ответом. Если задача «какой тариф дешевле» — четыре шага избыточны, обычный промпт справится быстрее.

Мини-рецепт

1. Составь список типов задач: 3–5 типов, с которыми работаешь чаще всего. Для маркетинга: сравнение_каналов / оценка_аудитории / анализ_конкурентов. Для закупок: сравнение_поставщиков / оценка_рисков / проверка_условий. Чем точнее список — тем лучше работает Шаг 1.

2. Задай критерии самопроверки: Запиши 3 обязательных требования к ответу в своей области. Это войдёт в Шаг 4. Пример: «я учёл бюджет?», «я сравнил не менее двух вариантов?», «я назвал конкретный следующий шаг?»

3. Возьми шаблон и подставь своё: Замени {тип_1...4} на свои типы задач, {критерий_проверки} на обязательные поля, {формат_вывода} на нужный формат: таблица, письмо, питч.

4. Прогони и проверь Шаг 1: Если модель классифицировала неверно — уточни список типов и запусти снова. Один-два прогона обычно показывают где список нечёткий.

5. Итерируй именно список типов: Это самое важное место во всей конструкции. Если типы перекрываются — весь остальной пайплайн сбоит с самого начала. 10 минут на хороший список окупают следующие сотни запросов.

Примеры

[ПЛОХО] :

Вот 6 документов о двух инструментах. Скажи, какой лучше для нашей команды.

[ХОРОШО] :

Ты аналитик, работающий по протоколу из 4 шагов.
Вопрос: стоит ли команде из 8 человек перейти с Notion на Яндекс.Трекер + Confluence?
Материалы: [список]

ШАГ 1 — выбери тип задачи: сравнение_инструментов / оценка_затрат / анализ_рисков_миграции. Запиши: "Тип: ___"

ШАГ 2 — перечисли только нужные материалы для этого типа. Остальные игнорируй. Запиши: "Использую: ___"

ШАГ 3 — рассуди только по отобранным материалам.

ШАГ 4 — проверь: учёл стоимость? (да/нет) учёл риски миграции? (да/нет) назвал конкретный следующий шаг? (да/нет). Если хоть одно "нет" — вернись к Шагу 3 и дополни.

ШАГ 5 — структурированный вывод: решение / главные причины / риски / следующий шаг.

Источник: Toward Agentic SysAdmin: Rethinking System Administration with AI Agents

ArXiv ID: 2606.26960 | Сгенерировано: 2026-06-28 21:58

Проблемы LLM

Проблема	Суть	Как обойти
Модель тонет в большом контексте	Даёшь модели длинный документ и вопрос в одном запросе. Модель пытается ответить "по всему сразу". Не выбирает что важно — всё попадает в один котёл. Чем сложнее задача, тем сильнее падает точность. Это не вопрос мощи модели — это структурная проблема любого запроса с большим контекстом	Разбей на шаги. Сначала классифицируй тип задачи. Потом выбери только нужные части документа. Потом отвечай на узкий конкретный вопрос по выбранному куску

Методы

Метод Суть

Четыре шага вместо одного запроса — классифицируй, сфокусируй, проверь, ответь Шаг 1 — классификация. Попроси модель определить тип задачи и какие части документа нужны. "Определи тип задачи: {варианты}. Какие данные нужны? Какие можно игнорировать?" Шаг 2 — фокус. Попроси работать только с выбранными данными. Остальное явно запрети. Шаг 3 — проверка. Перед ответом спроси: "Достаточно ли у тебя данных? Если нет — скажи что не хватает." Шаг 4 — ответ в нужном формате. Почему работает: Модель хорошо справляется с узкими задачами. Классификация убирает лишний контекст. Проверка полноты предотвращает домысливание. Каждый шаг использует сильную сторону модели. Когда применять: длинные документы, сложный анализ, задачи где модель "теряет нить". Когда не нужно: простые однозначные вопросы — шаги только замедлят

Метод	Суть
Четыре шага вместо одного запроса — классифицируй, сфокусируй, проверь, ответь	Шаг 1 — классификация. Попроси модель определить тип задачи и какие части документа нужны. `"Определи тип задачи: {варианты}. Какие данные нужны? Какие можно игнорировать?"` Шаг 2 — фокус. Попроси работать только с выбранными данными. Остальное явно запрети. Шаг 3 — проверка. Перед ответом спроси: `"Достаточно ли у тебя данных? Если нет — скажи что не хватает."` Шаг 4 — ответ в нужном формате. Почему работает: Модель хорошо справляется с узкими задачами. Классификация убирает лишний контекст. Проверка полноты предотвращает домысливание. Каждый шаг использует сильную сторону модели. Когда применять: длинные документы, сложный анализ, задачи где модель "теряет нить". Когда не нужно: простые однозначные вопросы — шаги только замедлят

📖 Простыми словами

TowardAgenticSysAdmin: Rethinking System Administration withAIAgents

arXiv: 2606.26960

Суть в том, что современные нейронки — это не магические оракулы, а скорее очень способные, но дико рассеянные стажеры. Исследование TowardAgenticSysAdmin доказало: если ты просишь модель решить сложную задачу одним махом, она гарантированно поплывет. Проблема в когнитивной перегрузке: когда LLM заставляют одновременно анализировать огромный массив данных, выстраивать логические связи и выдавать готовый ответ, ее «оперативка» забивается шумом, и точность падает в два раза.

Это как пытаться собрать шкаф из ИКЕА, когда тебе вслух читают «Войну и мир», а ты при этом должен еще и пересказывать сюжет. Вроде руки делают, а голова где-то в облаках — в итоге лишние детали остаются, а дверцы висят криво. Модель просто теряет фокус на деталях, когда на нее вываливают всё и сразу, превращая потенциально крутой инсайт в бесполезную кашу.

Исследователи прогнали четыре метода общения с ИИ и выяснили, что лучше всего работает агентный подход. Вместо одного длинного промпта задачу нужно дробить: один агент только читает и вытаскивает факты, второй их критикует, третий упаковывает в ответ. Конкретные цифры шокируют: правильная структура диалога поднимает эффективность в два раза на тех же самых мощностях. Это не магия алгоритмов, а чистая архитектура процесса, где каждый шаг изолирован от сопутствующего бреда.

Принцип универсален и выходит далеко за рамки системного администрирования. Будь то разбор юридического контракта, анализ конкурентов или написание кода — дробление контекста решает всё. Если ты скармливаешь нейронке 40 страниц текста и ждешь внятный отчет «в один клик», ты сам подставляешь себя под удар. Работает только цепочка: сначала экстракция данных, потом верификация и только в конце синтез.

Короче, пора перестать воспринимать чат с ИИ как поиск в Google. Если хочешь результат, а не галлюцинации, забудь про формат «вопрос-ответ». Будущее за многошаговыми агентами, которые умеют проверять сами себя. Либо ты учишься строить эти цепочки сейчас, либо продолжаешь получать ответы, которые выглядят умными, но на деле являются полной лажей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню