TL;DR
Исследователи опросили 15 тестировщиков ПО и выявили как профессионалы работают с LLM в реальных проектах. Результат — структурированный 5-шаговый процесс, который отражает практику интеграции AI в рабочий процесс. Это не инструкция "делай так", а паттерн поведения успешных пользователей LLM.
Главная находка: Профессионалы не используют LLM как автопилот. Вместо этого они выработали итеративный цикл похожий на процесс отладки кода: определили задачу → структурировали промпт → применили техники промпт-инженеринга → получили ответ → оценили → улучшили промпт → снова запросили. Человек всегда в петле, потому что галлюцинации, неточности и риски конфиденциальности требуют постоянной валидации. Тестировщики подчеркнули: LLM — это помощник, не замена критическому мышлению.
Суть процесса: Пять шагов отражают как профи работают с AI. (1) Определи цель тестирования и сформулируй промпт чётко. (2) Применяй техники промпт-инженеринга (CARE, few-shot примеры) чтобы снизить двусмысленность. (3) Итерируй — если ответ не подходит, уточняй промпт пока не получишь нужное. (4) Оцени и интегрируй — проверь вывод на точность и используй как черновик для доработки. (5) Учись непрерывно — исследуй новые стратегии промптинга и делись находками с командой. Этот процесс универсален — работает для любой задачи с LLM, не только тестирования.
Схема процесса
ШАГ 1: Определи задачу → Структурируй промпт чётко
ШАГ 2: Применяй техники промпт-инженеринга (CARE, few-shot) → Снижаешь двусмысленность
ШАГ 3: Итерируй промпт → Уточняешь пока не получишь подходящий результат
ШАГ 4: Оцени вывод → Интегрируй полезное в работу
ШАГ 5: Учись и делись → Улучшай стратегии работы с AI
Примечание: Шаги выполняются в одной беседе с LLM, но это циклический процесс. Шаг 3 может повторяться несколько раз до получения нужного результата. Шаг 5 — фоновая активность, которая улучшает качество всех предыдущих шагов со временем.
Пример применения
⚠️ Ограничения метода: Процесс универсален, но требует активного участия человека и критической оценки каждого вывода LLM. Не работает для задач где нужна 100% точность без проверки (медицинские диагнозы, финансовые транзакции, критичный код безопасности). Лучше всего работает для задач где итерация естественна: написание текстов, генерация идей, создание черновиков кода, анализ данных, обучение новым концепциям.
Задача: Ты маркетолог в российском SaaS-стартапе. Нужно подготовить pitch deck для встречи с инвестором. У тебя есть разрозненные заметки о продукте, но не знаешь с чего начать структуру презентации и какие слайды важны для pre-seed раунда.
Промпт (Шаг 1-2):
Я готовлю pitch deck для pre-seed инвестора в России. Продукт: SaaS для автоматизации документооборота в малом бизнесе.
Задача: создай структуру презентации из 10-12 слайдов. Учти специфику российского рынка B2B и типичные вопросы pre-seed инвесторов (команда, traction, юнит-экономика).
Формат ответа: список слайдов с кратким описанием что должно быть на каждом.
Контекст для few-shot примера:
У меня есть 3 клиента, команда из 2 человек (я + техлид), MRR 120к руб., target — малые бухгалтерии и юр.фирмы.
Итерация (Шаг 3): После первого ответа LLM ты видишь что структура слишком общая. Уточняешь:
Слайд "Problem" слишком абстрактный. Мои клиенты тратят 8 часов в неделю на ручной поиск документов в почте и мессенджерах. Переформулируй этот слайд конкретнее, с цифрами и болью которую видит бухгалтер каждый день.
Оценка и интеграция (Шаг 4): LLM выдаёт улучшенную структуру. Ты проверяешь каждый слайд: логика последовательности подходит? Цифры точны? Формулировки понятны инвестору? Берёшь структуру как основу и дополняешь деталями, которые LLM не знает (имена клиентов, реальные цифры retention, планы по найму).
Результат: Ты получишь структуру из 10-12 слайдов адаптированную под российский pre-seed контекст. Каждый слайд будет содержать краткое описание контента. После 2-3 итераций структура станет конкретной и ориентированной на твою специфику. Ты используешь её как скелет для создания финальной презентации, добавляя визуалы и данные которые LLM не может знать.
Почему это работает
LLM генерирует текст по паттерну, но не знает специфику твоей задачи. Если промпт расплывчатый ("помоги с презентацией"), модель выдаст общие советы. Если промпт содержит конкретную цель, контекст и формат ответа — паттерн генерации сужается и становится полезнее.
Сильная сторона LLM: структурировать знания, генерировать варианты, имитировать экспертные паттерны. Модель обучена на миллионах примеров как профессионалы решают задачи — она воспроизводит эти паттерны. Но паттерн работает только если ты дал модели достаточно контекста. Поэтому итерация критична — первый ответ редко идеален, но каждое уточнение сужает пространство возможных ответов до нужного.
Человек-в-петле компенсирует слабость LLM: галлюцинации, устаревшие данные, отсутствие доступа к твоей конкретике. Ты проверяешь факты, добавляешь детали из реальной ситуации, оцениваешь адекватность совета. Модель предлагает черновик, ты доводишь до финала. Без этого шага рискуешь использовать неточный или неприменимый совет.
Рычаги управления процессом:
- Конкретность задачи → чем точнее сформулирована цель, тем меньше итераций нужно
- Few-shot примеры → покажи LLM 1-2 примера желаемого формата — она скопирует структуру
- Явный формат ответа → укажи "список из 10 пунктов" или "таблица с 3 колонками" — получишь ровно это
- Критерии оценки → определи ДО запроса что делает ответ хорошим — быстрее отсеешь плохое
- Частота итераций → для сложных задач делай мелкие шаги, для простых — можно сразу большой промпт
Шаблон процесса
ШАГ 1: Определи задачу и структурируй промпт
Я {твоя роль}. Задача: {конкретная цель}.
Контекст: {важные детали которые LLM не знает}.
Формат ответа: {как должен выглядеть результат}.
{Few-shot пример если нужен}
ШАГ 2: Применяй техники промпт-инженеринга
- CARE: Context (контекст), Action (действие), Result (результат), Example (пример)
- Few-shot: Покажи 1-2 примера желаемого формата
- Явные ограничения: "не используй технический жаргон", "максимум 5 пунктов"
ШАГ 3: Итерируй
[Скопируй часть ответа LLM которая не подошла]
Проблема: {что не так}.
Уточнение: {что нужно изменить}.
ШАГ 4: Оцени и интегрируй Проверь:
- Факты точны?
- Логика последовательна?
- Формат подходит для задачи?
- Что добавить из твоего знания?
Используй как черновик, не финальный результат.
ШАГ 5: Учись
- Сохраняй успешные промпты для похожих задач
- Исследуй новые техники (Chain-of-Thought, Tree of Thoughts)
- Делись находками с коллегами
Плейсхолдеры:
{твоя роль}— кто ты (маркетолог, аналитик, менеджер){конкретная цель}— что должно получиться в итоге{важные детали}— информация которой нет в знаниях LLM{как должен выглядеть результат}— структура ответа (список, таблица, текст)
Ограничения
⚠️ Требует активного участия: Процесс не работает на автопилоте. Каждый шаг требует твоей оценки и решения. Если хочешь "поставить и забыть" — этот метод не подходит.
⚠️ Галлюцинации и неточности: LLM может выдавать уверенно звучащую, но неверную информацию. Критически важно проверять факты, особенно в специализированных доменах (юриспруденция, медицина, финансы).
⚠️ Конфиденциальность данных: Всё что ты пишешь в промпт попадает на серверы LLM-провайдера. Не вставляй коммерческую тайну, персональные данные клиентов, внутренние метрики компании без разрешения. Используй анонимизированные или синтетические данные.
⚠️ Риск чрезмерной зависимости: Постоянное использование LLM для каждой задачи может снизить твои навыки самостоятельного анализа и решения проблем. Баланс: используй AI для рутины и черновиков, но сложные решения принимай сам.
⚠️ Не заменяет экспертизу: LLM воспроизводит паттерны из обучающих данных, но не обладает глубоким пониманием домена. Для задач требующих специфической экспертизы (legal compliance, медицинские диагнозы) — консультируйся с профессионалами.
Как исследовали
Исследователи провели глубинные интервью с 15 тестировщиками ПО из разных компаний и доменов (финтех, здравоохранение, e-commerce, AI-приложения, embedded системы). Участники — от junior до senior специалистов, 40% работают удалённо, 60% имеют профессиональные сертификации (CTFL, CTAL, Scrum).
Методология: Полуструктурированные интервью 25-45 минут, записывались и транскрибировались. Анализ данных — грounded theory (кодирование от данных к теории): сначала открытое кодирование ("Human-in-the-loop Validation"), затем фокусированное (группировка в категории "Evaluating the Output"), затем теоретическое (связывание категорий в 5-шаговую структуру).
Почему именно 15 интервью? К 12-му интервью новые концепции перестали появляться — наступила теоретическая насыщенность. Каждый следующий участник подтверждал те же 5 шагов, без добавления новых паттернов. Это стандартный подход в качественных исследованиях когда фокус на глубине, а не на количестве.
Что удивило: Тестировщики не просят LLM написать готовые тест-кейсы и не принимают вывод без проверки. Вместо этого они используют итеративный процесс похожий на регрессионное тестирование — запрос, оценка, уточнение, снова запрос. Это опровергает миф что профессионалы "слепо доверяют AI". На практике они относятся к LLM как к младшему коллеге: дают задачу, проверяют работу, указывают на ошибки, доводят до нужного качества.
Ключевой инсайт для практики: Самые опытные пользователи LLM потратили время на изучение техник промпт-инженеринга (CARE, few-shot) и непрерывно экспериментируют с новыми подходами. Это не разовая настройка, а постоянный процесс обучения. Те кто относится к LLM как к "волшебной кнопке" разочаровываются быстро. Те кто вкладывается в понимание как работает модель — получают кратный рост продуктивности.
Адаптации и экстраполяции
💡 Адаптация для стратегических решений:
Процесс отлично работает для задач где нужно структурировать мышление перед принятием решения. Например, выбор между двумя карьерными предложениями.
Промпт:
Я выбираю между двумя офферами:
- Стартап: 150к руб + опционы, роль Head of Marketing, команда 10 человек, продукт на early stage
- Корпорация: 200к руб фикс, роль Senior Marketing Manager, команда 50+ человек, стабильный продукт
Моя цель: через 3 года стать CMO. Я интроверт, ценю автономию, готов к риску если есть upside.
Задача: структурируй сравнение по критериям важным для моей цели. Формат: таблица с 5 критериями (рост, компенсация, стресс, влияние, обучение). Для каждого критерия оцени оба варианта и объясни почему.
После первого ответа итеруешь: "Критерий 'обучение' слишком общий. Детализируй: в стартапе я буду учиться на ошибках самостоятельно, в корпорации — через менторство, но медленнее. Какой путь даст мне нужные навыки для CMO быстрее?"
🔧 Техника: Добавить "think step-by-step" → более глубокий анализ
Если на Шаге 2 добавить в промпт "think step-by-step" или "explain your reasoning", LLM покажет промежуточные рассуждения. Это помогает отловить ошибки в логике до того как используешь вывод.
Пример:
Исходный промпт: "Создай список из 10 идей для поста в соцсетях про наш SaaS для бухгалтеров."
С техникой: "Создай список из 10 идей для поста в соцсетях про наш SaaS для бухгалтеров. Think step-by-step: сначала определи какие боли есть у бухгалтеров, потом какие из них наш продукт решает, потом сформулируй идеи постов."
Эффект: Вместо 10 случайных идей получишь идеи привязанные к конкретным болям аудитории. Плюс увидишь рассуждения LLM — если она неправильно поняла боли, исправишь на следующей итерации.
🔧 Техника: Ролевые персоны → остроё выполнение задачи
На Шаге 1 можно задать LLM конкретную роль вместо абстрактной. Это сужает пространство ответов и делает вывод более специализированным.
Пример:
Абстрактно: "Ты маркетолог. Напиши email для клиентов о новой фиче."
С персоной: "Ты директор по маркетингу в B2B SaaS с 10-летним опытом. Твой стиль — короткие предложения, акцент на ROI, никакого флёра. Напиши email для CFO компаний-клиентов о новой фиче автоматического сверения документов. Фокус: экономия 15 часов бухгалтера в месяц = 30к руб."
Эффект: Email получится конкретнее, с цифрами, без воды. Персона направляет модель к нужному стилю и фокусу.
💡 Экстраполяция: Комбинация с Chain-of-Thought для сложных задач
Если задача требует многошагового анализа, комбинируй 5-шаговый процесс с Chain-of-Thought (CoT). На Шаге 2 попроси LLM "показать рассуждения на каждом шаге".
Пример:
Задача: Оцени целесообразность запуска нового продукта (mobile app для управления финансами малого бизнеса).
Промпт:
"Я рассматриваю запуск mobile app для управления финансами малого бизнеса в России. Оцени целесообразность через следующие шаги и покажи рассуждения на каждом:
1. Размер рынка: сколько малых бизнесов в России? Сколько из них используют mobile apps для финансов?
2. Конкуренция: кто основные игроки? Их сильные стороны?
3. Наше УТП: если мы даём интеграцию с 1С и автоматические налоговые отчёты, это значимое преимущество?
4. Монетизация: реалистична ли подписка 500 руб/мес для малого бизнеса?
5. Вывод: Go или No Go?
Формат: текст с заголовками для каждого шага, выводы на каждом, финальная рекомендация."
Результат: LLM пройдёт пошагово, покажет промежуточные выводы. Ты увидишь ГДЕ логика хромает (например, переоценка размера рынка) и уточнишь на следующей итерации. Без CoT модель выдала бы просто "Go" или "No Go" без объяснений — бесполезно.
Ресурсы
Software Testing with Large Language Models: An Interview Study with Practitioners — исследование о практиках работы с LLM в тестировании ПО. Авторы: Deolinda Santana (CESAR School), Cleyton Magalhaes (UFRPE), Ronnie de Souza Santos (University of Calgary). Опубликовано в материалах конференции AIWare'2025.
Релевантные концепции из исследования:
- Grounded theory — метод качественного анализа "от данных к теории"
- Теоретическая насыщенность — критерий достаточности выборки в качественных исследованиях
- Prompt engineering — техники оптимизации инструкций для LLM
- CARE framework — Context, Action, Result, Example
- Few-shot learning — обучение модели на малом количестве примеров
