3,583 papers
arXiv:2510.17164 88 20 окт. 2025 г. FREE

Iterative LLM Workflow: 5-шаговый процесс работы с AI от практиков тестирования

КЛЮЧЕВАЯ СУТЬ
Обнаружено: профессионалы работают с LLM не как с оракулом, а циклически — спросил→проверил→уточнил→снова. Человек всегда в петле. Метод позволяет получать качественные результаты от LLM даже при склонности модели к галлюцинациям — через систематическую итерацию и критическую оценку каждого вывода. 5 шагов воспроизводят практику успешных пользователей: определи задачу чётко → применяй техники промпт-инженеринга (CARE, few-shot примеры) → итерируй промпт пока результат не подходит → оцени вывод критически → учись и делись находками. Первый ответ редко идеален, каждое уточнение сужает пространство до нужного результата.
Адаптировать под запрос

TL;DR

Исследователи опросили 15 тестировщиков ПО и выявили как профессионалы работают с LLM в реальных проектах. Результат — структурированный 5-шаговый процесс, который отражает практику интеграции AI в рабочий процесс. Это не инструкция "делай так", а паттерн поведения успешных пользователей LLM.

Главная находка: Профессионалы не используют LLM как автопилот. Вместо этого они выработали итеративный цикл похожий на процесс отладки кода: определили задачу → структурировали промпт → применили техники промпт-инженеринга → получили ответ → оценили → улучшили промпт → снова запросили. Человек всегда в петле, потому что галлюцинации, неточности и риски конфиденциальности требуют постоянной валидации. Тестировщики подчеркнули: LLM — это помощник, не замена критическому мышлению.

Суть процесса: Пять шагов отражают как профи работают с AI. (1) Определи цель тестирования и сформулируй промпт чётко. (2) Применяй техники промпт-инженеринга (CARE, few-shot примеры) чтобы снизить двусмысленность. (3) Итерируй — если ответ не подходит, уточняй промпт пока не получишь нужное. (4) Оцени и интегрируй — проверь вывод на точность и используй как черновик для доработки. (5) Учись непрерывно — исследуй новые стратегии промптинга и делись находками с командой. Этот процесс универсален — работает для любой задачи с LLM, не только тестирования.


📌

Схема процесса

ШАГ 1: Определи задачу → Структурируй промпт чётко
ШАГ 2: Применяй техники промпт-инженеринга (CARE, few-shot) → Снижаешь двусмысленность
ШАГ 3: Итерируй промпт → Уточняешь пока не получишь подходящий результат
ШАГ 4: Оцени вывод → Интегрируй полезное в работу
ШАГ 5: Учись и делись → Улучшай стратегии работы с AI

Примечание: Шаги выполняются в одной беседе с LLM, но это циклический процесс. Шаг 3 может повторяться несколько раз до получения нужного результата. Шаг 5 — фоновая активность, которая улучшает качество всех предыдущих шагов со временем.


🚀

Пример применения

⚠️ Ограничения метода: Процесс универсален, но требует активного участия человека и критической оценки каждого вывода LLM. Не работает для задач где нужна 100% точность без проверки (медицинские диагнозы, финансовые транзакции, критичный код безопасности). Лучше всего работает для задач где итерация естественна: написание текстов, генерация идей, создание черновиков кода, анализ данных, обучение новым концепциям.

Задача: Ты маркетолог в российском SaaS-стартапе. Нужно подготовить pitch deck для встречи с инвестором. У тебя есть разрозненные заметки о продукте, но не знаешь с чего начать структуру презентации и какие слайды важны для pre-seed раунда.

Промпт (Шаг 1-2):

Я готовлю pitch deck для pre-seed инвестора в России. Продукт: SaaS для автоматизации документооборота в малом бизнесе. 

Задача: создай структуру презентации из 10-12 слайдов. Учти специфику российского рынка B2B и типичные вопросы pre-seed инвесторов (команда, traction, юнит-экономика).

Формат ответа: список слайдов с кратким описанием что должно быть на каждом.

Контекст для few-shot примера:
У меня есть 3 клиента, команда из 2 человек (я + техлид), MRR 120к руб., target — малые бухгалтерии и юр.фирмы.

Итерация (Шаг 3): После первого ответа LLM ты видишь что структура слишком общая. Уточняешь:

Слайд "Problem" слишком абстрактный. Мои клиенты тратят 8 часов в неделю на ручной поиск документов в почте и мессенджерах. Переформулируй этот слайд конкретнее, с цифрами и болью которую видит бухгалтер каждый день.

Оценка и интеграция (Шаг 4): LLM выдаёт улучшенную структуру. Ты проверяешь каждый слайд: логика последовательности подходит? Цифры точны? Формулировки понятны инвестору? Берёшь структуру как основу и дополняешь деталями, которые LLM не знает (имена клиентов, реальные цифры retention, планы по найму).

Результат: Ты получишь структуру из 10-12 слайдов адаптированную под российский pre-seed контекст. Каждый слайд будет содержать краткое описание контента. После 2-3 итераций структура станет конкретной и ориентированной на твою специфику. Ты используешь её как скелет для создания финальной презентации, добавляя визуалы и данные которые LLM не может знать.


🧠

Почему это работает

LLM генерирует текст по паттерну, но не знает специфику твоей задачи. Если промпт расплывчатый ("помоги с презентацией"), модель выдаст общие советы. Если промпт содержит конкретную цель, контекст и формат ответа — паттерн генерации сужается и становится полезнее.

Сильная сторона LLM: структурировать знания, генерировать варианты, имитировать экспертные паттерны. Модель обучена на миллионах примеров как профессионалы решают задачи — она воспроизводит эти паттерны. Но паттерн работает только если ты дал модели достаточно контекста. Поэтому итерация критична — первый ответ редко идеален, но каждое уточнение сужает пространство возможных ответов до нужного.

Человек-в-петле компенсирует слабость LLM: галлюцинации, устаревшие данные, отсутствие доступа к твоей конкретике. Ты проверяешь факты, добавляешь детали из реальной ситуации, оцениваешь адекватность совета. Модель предлагает черновик, ты доводишь до финала. Без этого шага рискуешь использовать неточный или неприменимый совет.

Рычаги управления процессом:

  • Конкретность задачи → чем точнее сформулирована цель, тем меньше итераций нужно
  • Few-shot примеры → покажи LLM 1-2 примера желаемого формата — она скопирует структуру
  • Явный формат ответа → укажи "список из 10 пунктов" или "таблица с 3 колонками" — получишь ровно это
  • Критерии оценки → определи ДО запроса что делает ответ хорошим — быстрее отсеешь плохое
  • Частота итераций → для сложных задач делай мелкие шаги, для простых — можно сразу большой промпт

📌

Шаблон процесса

ШАГ 1: Определи задачу и структурируй промпт

Я {твоя роль}. Задача: {конкретная цель}.

Контекст: {важные детали которые LLM не знает}.

Формат ответа: {как должен выглядеть результат}.

{Few-shot пример если нужен}

ШАГ 2: Применяй техники промпт-инженеринга

  • CARE: Context (контекст), Action (действие), Result (результат), Example (пример)
  • Few-shot: Покажи 1-2 примера желаемого формата
  • Явные ограничения: "не используй технический жаргон", "максимум 5 пунктов"

ШАГ 3: Итерируй

[Скопируй часть ответа LLM которая не подошла]

Проблема: {что не так}.
Уточнение: {что нужно изменить}.

ШАГ 4: Оцени и интегрируй Проверь:

  • Факты точны?
  • Логика последовательна?
  • Формат подходит для задачи?
  • Что добавить из твоего знания?

Используй как черновик, не финальный результат.

ШАГ 5: Учись

  • Сохраняй успешные промпты для похожих задач
  • Исследуй новые техники (Chain-of-Thought, Tree of Thoughts)
  • Делись находками с коллегами

Плейсхолдеры:

  • {твоя роль} — кто ты (маркетолог, аналитик, менеджер)
  • {конкретная цель} — что должно получиться в итоге
  • {важные детали} — информация которой нет в знаниях LLM
  • {как должен выглядеть результат} — структура ответа (список, таблица, текст)

⚠️

Ограничения

⚠️ Требует активного участия: Процесс не работает на автопилоте. Каждый шаг требует твоей оценки и решения. Если хочешь "поставить и забыть" — этот метод не подходит.

⚠️ Галлюцинации и неточности: LLM может выдавать уверенно звучащую, но неверную информацию. Критически важно проверять факты, особенно в специализированных доменах (юриспруденция, медицина, финансы).

⚠️ Конфиденциальность данных: Всё что ты пишешь в промпт попадает на серверы LLM-провайдера. Не вставляй коммерческую тайну, персональные данные клиентов, внутренние метрики компании без разрешения. Используй анонимизированные или синтетические данные.

⚠️ Риск чрезмерной зависимости: Постоянное использование LLM для каждой задачи может снизить твои навыки самостоятельного анализа и решения проблем. Баланс: используй AI для рутины и черновиков, но сложные решения принимай сам.

⚠️ Не заменяет экспертизу: LLM воспроизводит паттерны из обучающих данных, но не обладает глубоким пониманием домена. Для задач требующих специфической экспертизы (legal compliance, медицинские диагнозы) — консультируйся с профессионалами.


🔍

Как исследовали

Исследователи провели глубинные интервью с 15 тестировщиками ПО из разных компаний и доменов (финтех, здравоохранение, e-commerce, AI-приложения, embedded системы). Участники — от junior до senior специалистов, 40% работают удалённо, 60% имеют профессиональные сертификации (CTFL, CTAL, Scrum).

Методология: Полуструктурированные интервью 25-45 минут, записывались и транскрибировались. Анализ данных — грounded theory (кодирование от данных к теории): сначала открытое кодирование ("Human-in-the-loop Validation"), затем фокусированное (группировка в категории "Evaluating the Output"), затем теоретическое (связывание категорий в 5-шаговую структуру).

Почему именно 15 интервью? К 12-му интервью новые концепции перестали появляться — наступила теоретическая насыщенность. Каждый следующий участник подтверждал те же 5 шагов, без добавления новых паттернов. Это стандартный подход в качественных исследованиях когда фокус на глубине, а не на количестве.

Что удивило: Тестировщики не просят LLM написать готовые тест-кейсы и не принимают вывод без проверки. Вместо этого они используют итеративный процесс похожий на регрессионное тестирование — запрос, оценка, уточнение, снова запрос. Это опровергает миф что профессионалы "слепо доверяют AI". На практике они относятся к LLM как к младшему коллеге: дают задачу, проверяют работу, указывают на ошибки, доводят до нужного качества.

Ключевой инсайт для практики: Самые опытные пользователи LLM потратили время на изучение техник промпт-инженеринга (CARE, few-shot) и непрерывно экспериментируют с новыми подходами. Это не разовая настройка, а постоянный процесс обучения. Те кто относится к LLM как к "волшебной кнопке" разочаровываются быстро. Те кто вкладывается в понимание как работает модель — получают кратный рост продуктивности.


💡

Адаптации и экстраполяции

💡 Адаптация для стратегических решений:

Процесс отлично работает для задач где нужно структурировать мышление перед принятием решения. Например, выбор между двумя карьерными предложениями.

Промпт:

Я выбираю между двумя офферами:
- Стартап: 150к руб + опционы, роль Head of Marketing, команда 10 человек, продукт на early stage
- Корпорация: 200к руб фикс, роль Senior Marketing Manager, команда 50+ человек, стабильный продукт

Моя цель: через 3 года стать CMO. Я интроверт, ценю автономию, готов к риску если есть upside.

Задача: структурируй сравнение по критериям важным для моей цели. Формат: таблица с 5 критериями (рост, компенсация, стресс, влияние, обучение). Для каждого критерия оцени оба варианта и объясни почему.

После первого ответа итеруешь: "Критерий 'обучение' слишком общий. Детализируй: в стартапе я буду учиться на ошибках самостоятельно, в корпорации — через менторство, но медленнее. Какой путь даст мне нужные навыки для CMO быстрее?"


🔧 Техника: Добавить "think step-by-step" → более глубокий анализ

Если на Шаге 2 добавить в промпт "think step-by-step" или "explain your reasoning", LLM покажет промежуточные рассуждения. Это помогает отловить ошибки в логике до того как используешь вывод.

Пример:

Исходный промпт: "Создай список из 10 идей для поста в соцсетях про наш SaaS для бухгалтеров."

С техникой: "Создай список из 10 идей для поста в соцсетях про наш SaaS для бухгалтеров. Think step-by-step: сначала определи какие боли есть у бухгалтеров, потом какие из них наш продукт решает, потом сформулируй идеи постов."

Эффект: Вместо 10 случайных идей получишь идеи привязанные к конкретным болям аудитории. Плюс увидишь рассуждения LLM — если она неправильно поняла боли, исправишь на следующей итерации.


🔧 Техника: Ролевые персоны → остроё выполнение задачи

На Шаге 1 можно задать LLM конкретную роль вместо абстрактной. Это сужает пространство ответов и делает вывод более специализированным.

Пример:

Абстрактно: "Ты маркетолог. Напиши email для клиентов о новой фиче."

С персоной: "Ты директор по маркетингу в B2B SaaS с 10-летним опытом. Твой стиль — короткие предложения, акцент на ROI, никакого флёра. Напиши email для CFO компаний-клиентов о новой фиче автоматического сверения документов. Фокус: экономия 15 часов бухгалтера в месяц = 30к руб."

Эффект: Email получится конкретнее, с цифрами, без воды. Персона направляет модель к нужному стилю и фокусу.


💡 Экстраполяция: Комбинация с Chain-of-Thought для сложных задач

Если задача требует многошагового анализа, комбинируй 5-шаговый процесс с Chain-of-Thought (CoT). На Шаге 2 попроси LLM "показать рассуждения на каждом шаге".

Пример:

Задача: Оцени целесообразность запуска нового продукта (mobile app для управления финансами малого бизнеса).

Промпт:
"Я рассматриваю запуск mobile app для управления финансами малого бизнеса в России. Оцени целесообразность через следующие шаги и покажи рассуждения на каждом:

1. Размер рынка: сколько малых бизнесов в России? Сколько из них используют mobile apps для финансов?
2. Конкуренция: кто основные игроки? Их сильные стороны?
3. Наше УТП: если мы даём интеграцию с 1С и автоматические налоговые отчёты, это значимое преимущество?
4. Монетизация: реалистична ли подписка 500 руб/мес для малого бизнеса?
5. Вывод: Go или No Go?

Формат: текст с заголовками для каждого шага, выводы на каждом, финальная рекомендация."

Результат: LLM пройдёт пошагово, покажет промежуточные выводы. Ты увидишь ГДЕ логика хромает (например, переоценка размера рынка) и уточнишь на следующей итерации. Без CoT модель выдала бы просто "Go" или "No Go" без объяснений — бесполезно.


🔗

Ресурсы

Software Testing with Large Language Models: An Interview Study with Practitioners — исследование о практиках работы с LLM в тестировании ПО. Авторы: Deolinda Santana (CESAR School), Cleyton Magalhaes (UFRPE), Ronnie de Souza Santos (University of Calgary). Опубликовано в материалах конференции AIWare'2025.

Релевантные концепции из исследования:

  • Grounded theory — метод качественного анализа "от данных к теории"
  • Теоретическая насыщенность — критерий достаточности выборки в качественных исследованиях
  • Prompt engineering — техники оптимизации инструкций для LLM
  • CARE framework — Context, Action, Result, Example
  • Few-shot learning — обучение модели на малом количестве примеров

📋 Дайджест исследования

Ключевая суть

Обнаружено: профессионалы работают с LLM не как с оракулом, а циклически — спросил→проверил→уточнил→снова. Человек всегда в петле. Метод позволяет получать качественные результаты от LLM даже при склонности модели к галлюцинациям — через систематическую итерацию и критическую оценку каждого вывода. 5 шагов воспроизводят практику успешных пользователей: определи задачу чётко → применяй техники промпт-инженеринга (CARE, few-shot примеры) → итерируй промпт пока результат не подходит → оцени вывод критически → учись и делись находками. Первый ответ редко идеален, каждое уточнение сужает пространство до нужного результата.

Принцип работы

Стереотип: написать идеальный промпт с первого раза. Реальность: итерация естественна и необходима. Первый ответ использует слишком широкий паттерн, каждое уточнение сужает до конкретного. Процесс похож на отладку кода: видишь результат → понимаешь что не так → правишь промпт → снова запрашиваешь в той же беседе. LLM предлагает черновик, ты доводишь до финала с учётом своего знания ситуации.

Почему работает

LLM генерирует по паттернам из миллионов примеров, но не знает специфику твоей задачи. Если промпт расплывчатый («помоги с презентацией»), модель выдаёт общие советы. Конкретная цель + контекст + формат ответа сужают паттерн генерации до полезного. Сильная сторона модели: структурировать знания, генерировать варианты, воспроизводить экспертные подходы. Слабая: галлюцинации, устаревшие данные, отсутствие доступа к твоей конкретике. Человек-в-петле компенсирует слабость — проверяешь факты, добавляешь детали из реальности, оцениваешь адекватность совета. Без этого рискуешь использовать неточный или неприменимый вывод.

Когда применять

Универсален для задач где итерация естественна: написание текстов, генерация идей, создание черновиков кода, анализ данных, структурирование знаний, подготовка презентаций. Особенно когда нужен черновик который ты доработаешь, а не финальный результат без проверки. НЕ подходит для задач требующих 100% точности без валидации: медицинские диагнозы, финансовые транзакции, критичный код безопасности, юридическая экспертиза (legal compliance).

Мини-рецепт

1. Определи задачу чётко: Я <роль>твоя роль. Задача: <цель>конкретная цель. Контекст: <детали>информация которую LLM не знает. Формат ответа: <структура>список, таблица, текст с примерами.
2. Применяй техники промпт-инженеринга: CARE (контекст, действие, результат, пример), few-shot примеры (покажи 1-2 образца желаемого формата), явные ограничения («максимум 5 пунктов», «без технического жаргона»).
3. Итерируй промпт: Скопируй часть ответа которая не подошла. Проблема: <что не так>конкретная ошибка. Уточнение: <что изменить>как исправить. Запроси снова в той же беседе.
4. Оцени критически: Факты точны? Логика последовательна? Формат подходит для задачи? Что добавить из твоего знания ситуации? Используй вывод как черновик, не финальный результат.
5. Учись непрерывно: Сохраняй успешные промпты для похожих задач. Исследуй новые техники (Chain-of-Thought, Tree of Thoughts). Делись находками с командой.

Примеры

[ПЛОХО] : Помоги подготовить презентацию для инвесторов (расплывчато, нет контекста, неясный формат результата — модель выдаст общие советы)
[ХОРОШО] : Я готовлю pitch deck для pre-seed инвестора в России. Продукт: SaaS для автоматизации документооборота в малом бизнесе. Задача: создай структуру из 10-12 слайдов. Учти специфику российского рынка B2B и типичные вопросы pre-seed инвесторов (команда, traction, юнит-экономика). Формат ответа: список слайдов с кратким описанием что должно быть на каждом. Контекст: 3 клиента, команда из 2 человек (я + техлид), месячный доход 120к руб., target — малые бухгалтерии и юридические фирмы. → После первого ответа видишь что слайд Problem слишком абстрактный, уточняешь: Слайд Problem слишком общий. Мои клиенты тратят 8 часов в неделю на ручной поиск документов в почте и мессенджерах. Переформулируй этот слайд конкретнее, с цифрами и болью которую видит бухгалтер каждый день. → Получаешь улучшенную структуру, берёшь как основу и дополняешь деталями которые LLM не может знать (имена клиентов, реальные цифры удержания, планы по найму).
Источник: Software Testing with Large Language Models: An Interview Study with Practitioners
ArXiv ID: 2510.17164 | Сгенерировано: 2026-01-11 23:26

Концепты не выделены.

📖 Простыми словами

Iterative LLM Workflow: 5-шаговый процесс работы с AI от практиков тестирования

arXiv: 2510.17164

Тестировщики-профи давно поняли, что LLM — это не волшебная кнопка «сделать красиво», а высокопроизводительный стажер, которому нужно разжевывать задачу. Исследование 15 практиков показало: AI не понимает специфику твоего проекта по умолчанию, он просто угадывает следующее слово. Чтобы выжать из него пользу, профи используют структурированный 5-шаговый процесс, превращая хаотичный чат в конвейер. Если ты просто кидаешь в модель кусок кода и ждешь чуда, ты получаешь белый шум, потому что без контекста нейронка скатывается в банальщину.

Это как пытаться объяснить дорогу таксисту, который первый день в городе: если скажешь «едь куда-нибудь в центр», приедешь в тупик. Но если дашь четкие ориентиры и предупредишь о пробках, он довезет. В тестировании это работает так же: модель лажает, когда ей не дают конкретную цель и формат. Профессионалы не надеются на интеллект машины, они управляют ее «галлюцинациями», загоняя генерацию в жесткие рамки через итерации.

В реальности работает не магия, а контекстное сужение: ты скармливаешь модели документацию, задаешь роль и требуешь проверку по шагам. Исследование выделило четкий паттерн: сначала подготовка контекста, затем генерация черновика, а после — обязательная критическая оценка человеком. Те, кто пропускает этап верификации, рано или поздно влетают в стену, потому что LLM может уверенно врать про несуществующие баги или пропускать очевидные дыры в безопасности.

Хотя опрашивали айтишников, этот принцип универсален. Он применим везде, где нужно создать что-то из ничего: от написания стратегии маркетинга до составления плана тренировок. Главное — итеративность. Если задача позволяет ошибиться и исправиться в процессе, LLM — бог. Если тебе нужна 100% точность без проверки (как в хирургии или расчете моста), использование нейронки в лоб — это полный провал и неоправданный риск.

Короче: хватит ждать от AI осознанности, начни использовать его как инструмент для черновиков. Главный вывод исследования в том, что успех зависит не от модели, а от твоего умения выстроить процесс вокруг нее. 5 шагов, жесткий контекст и ручная проверка — это единственный способ заставить LLM работать на тебя, а не плодить мусор. Кто освоит этот паттерн, станет в десять раз быстрее, остальные будут жаловаться, что «нейронки тупят».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с