AutoDCWorkflow: Автоматическая генерация рабочего процесса очистки данных на основе LLM и бенчмарк

Исследование представляет автоматизированную систему AutoDCWorkflow, которая использует LLM для очистки табличных данных. Вместо одного общего запроса, система разбивает задачу на три последовательных этапа: выбор релевантных для цели колонок, проверка их качества на наличие ошибок и генерация конкретных команд для исправления.

Ключевой результат: Такой пошаговый, итеративный подход (AutoDCWorkflow) значительно превосходит по качеству и точности попытку решить ту же задачу одним большим и сложным промптом (Direct Prompting).

Суть метода заключается в декомпозиции сложной задачи и целеполагании. Вместо того чтобы давать LLM одну общую инструкцию вроде "Приведи в порядок эту таблицу", исследование предлагает вести модель по четкому алгоритму, имитирующему работу аналитика данных.

Этот подход можно сформулировать как "Цель -> Выбор -> Инспекция -> Действие":

Целеполагание (Purpose-Driven): Сначала вы четко формулируете конечную цель. Не "очисти данные", а "очисти данные, чтобы я мог посчитать среднюю цену по категориям". Эта цель становится главным ориентиром для LLM на всех последующих шагах.
Выбор релевантного (Select Target Columns): На основе цели модель сначала определяет, какие именно части данных (колонки в таблице) важны для ее достижения. Это резко сужает фокус внимания и отсекает лишнюю информацию, снижая когнитивную нагрузку на LLM.
Инспекция качества (Inspect Column Quality): Далее модель последовательно анализирует только выбранные, релевантные данные на предмет конкретных проблем: опечатки, несоответствие форматов, пропуски, лишние пробелы и т.д.
Генерация плана действий (Generate Operations): Только после выявления конкретных проблем модель предлагает последовательный план их устранения.

Для обычного пользователя это означает, что вместо одного сложного промпта, нужно либо создать один большой, но очень структурированный промпт, который заставляет LLM следовать этим шагам, либо разбить задачу на серию более простых запросов в диалоге.

Прямая применимость: Пользователь может напрямую применить логику исследования, структурировав свой промпт для любой задачи, связанной с анализом или преобразованием информации (текста, списков, полуструктурированных данных). Вместо того чтобы просить конечный результат, пользователь должен проинструктировать LLM выполнить последовательность действий: определить важное, найти проблемы, предложить исправления.
Концептуальная ценность: Ключевая идея — LLM не "думает" как человек, у него нет целостного понимания задачи. Он хорошо следует четким, последовательным инструкциям. Разбивая сложную задачу на простые шаги, мы помогаем модели удерживать контекст и внимание на каждом этапе, что драматически повышает качество итогового результата. Это объясняет, почему короткие и ясные промпты в цепочке часто работают лучше одного "мега-промпта".
Потенциал для адаптации: Метод легко адаптируется для любой задачи, требующей анализа и структурирования. Например, при написании эссе по нескольким источникам, можно использовать ту же логику:
1. Цель: Написать эссе о влиянии X на Y.
2. Выбор: "Из предоставленных текстов выбери только те абзацы, которые касаются X и Y".
3. Инспекция/Анализ: "Сгруппируй эти абзацы по темам и выяви основные аргументы и контраргументы".
4. Действие: "На основе этих сгруппированных аргументов напиши план эссе, а затем и сам текст".

Ты — опытный маркетолог-аналитик. Твоя задача — проанализировать сырые данные из таблицы с отзывами клиентов о новом мобильном приложении и подготовить их для отчета.

**Моя конечная цель:** Понять основные причины негативных отзывов, связанных со скоростью работы и интерфейсом приложения.

Действуй строго по шагам:

**Шаг 1: Выбор целевых колонок.**
Проанализируй предоставленную ниже таблицу и определи, какие колонки наиболее релевантны для моей цели. Объясни свой выбор.

**Шаг 2: Инспекция качества данных в целевых колонках.**
Для каждой выбранной на Шаге 1 колонки, внимательно изучи данные и составь отчет о проблемах. Ищи опечатки, разный стиль написания (например, "UI", "интерфейс", "юи"), нерелевантные комментарии и пропуски.

**Шаг 3: Генерация плана по очистке и структурированию.**
На основе проблем, выявленных на Шаге 2, предложи пошаговый план, как можно было бы очистить и стандартизировать эти данные. Сгруппируй похожие жалобы в категории (например, "Медленная загрузка", "Непонятные иконки", "Зависания").

**Вот сырые данные (скопированы из Excel):**

| User_ID | Оценка | Текст отзыва | Дата | Платформа |
|---|---|---|---|---|
| 101 | 2 | Очень медленно все грузится, особенно фотки. И интерфейс запутанный. | 15.05.24 | iOS |
| 102 | 5 | Все супер! | 15.05.24 | Android |
| 103 | 1 | Ужасный юи, ничего не найти. Приложение постоянно виснет. | 16.05.24 | iOS |
| 104 | 3 | В целом ок, но хотелось бы побыстрее. | 16.05.24 | Android |
| 105 | 2 | Кнопка "назад" не работает, а UI просто кошмар. | 17.05.24 | iOS |

Этот промпт работает, потому что он напрямую реализует методологию из исследования AutoDCWorkflow, заставляя LLM не прыгать сразу к выводам, а следовать логическому процессу анализа:

Целеполагание (Purpose-Driven): Промпт начинается с четкой формулировки цели ("Понять основные причины негативных отзывов..."). Это задает LLM правильный контекст и критерии для оценки релевантности данных.
Декомпозиция (Decomposition): Задача разбита на три явных, последовательных шага (Шаг 1, Шаг 2, Шаг 3). Это заставляет LLM сфокусироваться на одной подзадаче за раз, что значительно снижает вероятность ошибок и "галлюцинаций". Модель сначала определяет "что" анализировать, потом "как" оно выглядит, и только потом "что с этим делать".
Структурированные инструкции: Использование заголовков и нумерации создает "рельсы" для мыслительного процесса LLM, направляя его генерацию и обеспечивая полноту ответа. Модель вынуждена ответить на каждый пункт, вместо того чтобы выдать общий, поверхностный ответ.

Ты — профессиональный организатор мероприятий. Помоги мне разобраться в хаотичном списке потенциальных гостей на свадьбу и создать из него структурированную таблицу.

**Моя конечная цель:** Получить чистый, отформатированный список гостей в виде таблицы Markdown, чтобы я мог отслеживать приглашения и предпочтения в еде.

Пожалуйста, выполни задачу строго по шагам:

**Шаг 1: Определение релевантной информации.**
Изучи мой "сырой" список ниже. Определи, какие ключевые данные о каждом госте можно из него извлечь (например: Имя, Фамилия, Сторона (жених/невеста), Контакт, Примечание).

**Шаг 2: Анализ проблем в данных.**
Проанализируй мой список на предмет проблем: дубликаты, пропущенная информация, опечатки, разный формат записи (например, "тел.", "моб.", "т.").

**Шаг 3: Создание чистовой таблицы.**
На основе анализа из Шагов 1 и 2, создай итоговую таблицу в формате Markdown. Включи в нее колонки: `Имя Фамилия`, `Сторона`, `Контакт`, `Примечание`. Постарайся исправить очевидные опечатки и унифицировать данные. Если какая-то информация отсутствует, оставь ячейку пустой.

**Вот мой сырой список:**

*   Маша Иванова (от невесты), ее телефон 8-926-111-22-33, она вегетарианка
*   Петр Сидоров, друг жениха, почта petr.s@email.com
*   Дядя Коля (со стороны жениха)
*   Иван Петров (коллега жениха)
*   Мария Иванова (подруга невесты), т. 89261112233, не ест мясо!
*   Светлана и ее муж (от невесты), моб. Светы 8-916-444-55-66

Этот пример работает по тем же фундаментальным причинам, что и предыдущий, но в контексте личной продуктивности, а не бизнес-аналитики:

Фокусировка на цели: Промпт четко определяет конечный продукт ("чистый, отформатированный список гостей в виде таблицы Markdown"). Это дает LLM ясное представление о желаемом результате и его структуре.
Пошаговый план: Вместо того чтобы просить "преврати этот хаос в таблицу", промпт заставляет LLM сначала спроектировать эту таблицу (Шаг 1: Определение релевантной информации), затем продиагностировать исходные данные (Шаг 2: Анализ проблем), и только потом выполнить преобразование (Шаг 3: Создание чистовой таблицы).
Предотвращение ошибок: Такой подход заставляет модель сначала "подумать" о структуре и проблемах. Например, на Шаге 2 она заметит дубликат "Маша Иванова" и разный формат телефонов. Это осознание на промежуточном этапе позволяет ей на Шаге 3 сгенерировать гораздо более качественный и чистый итоговый результат, объединив дубликаты и стандартизировав контакты.

📌

Основные критерии оценки

A. Релевантность техникам промптинга: Высокая. Исследование предлагает конкретную методологию (декомпозиция задачи на этапы: выбор, инспекция, генерация), которую можно напрямую перенести в структуру промпта.
B. Улучшение качества диалоговых ответов: Высокая. Хотя исследование сфокусировано на задаче очистки данных, его основной вывод — итеративный, пошаговый подход дает значительно более точные результаты, чем один сложный запрос. Этот принцип универсален для получения качественных ответов на любые сложные задачи.
C. Прямая практическая применимость: Средняя. Пользователь не может использовать сам фреймворк AutoDCWorkflow без кода. Однако, он может полностью воспроизвести его логику в одном или нескольких промптах для чат-бота, что делает выводы очень применимыми после небольшой адаптации.
D. Концептуальная ценность: Очень высокая. Исследование наглядно демонстрирует ключевой принцип работы с LLM: декомпозиция сложной задачи на простые подзадачи кардинально улучшает результат. Оно доказывает, что LLM лучше справляется с ролью "аналитика", который планирует и выполняет шаги последовательно, а не "волшебника", который решает всё одним махом.
E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
- 1. Техники формулирования промптов: Предлагает методологию декомпозиции и пошагового выполнения.
- 3. Оптимизация структуры промптов: Демонстрирует эффективность структурированных промптов с четкими инструкциями и примерами (few-shot).
- 5. Извлечение и структурирование: Вся суть работы — в извлечении и структурировании данных из "грязной" таблицы в "чистую".
- 7. Надежность и стабильность: Основная цель — повышение точности и консистентности выходных данных.
Чек-лист практичности (+15 баллов): Да, работа показывает, как структурировать сложные запросы, раскрывает неочевидные особенности поведения LLM (провал "прямого промптинга" в сравнении с итеративным подходом) и предлагает способы улучшить точность ответов.

📌

Цифровая оценка полезности

Аргументы за оценку 85: Исследование предоставляет чрезвычайно ценную и универсальную методологию для решения сложных задач с помощью LLM — целеполагание и декомпозиция. Оно эмпирически доказывает, что разбиение сложного запроса на последовательные логические шаги ("выбери релевантное -> проанализируй проблемы -> предложи решение") работает значительно лучше, чем попытка решить всё одним махом. Этот концептуальный вывод напрямую переносится на промпт-инжиниринг для широкого круга задач, от анализа текстов до планирования проектов.

Контраргументы (почему оценка могла быть ниже или выше): * Почему могла быть выше (>90): Предложенный подход ("purpose-driven decomposition") является фундаментальным принципом промпт-инжиниринга. Его можно считать одной из ключевых эвристик для получения качественных результатов от LLM в любой сложной задаче. Универсальность и сила этого метода заслуживают высочайшей оценки. * Почему могла быть ниже (<70): Исследование очень узкоспециализированное (очистка табличных данных для инструмента OpenRefine). Обычный пользователь, который не работает с таблицами и аналитикой, может счесть его слишком академичным и далеким от своих повседневных задач (например, написание писем или генерация идей). Прямое применение требует от пользователя умственной работы по адаптации метода к своей задаче, а не простого копирования готовой фразы.

Меню

AutoDCWorkflow: Автоматическая генерация рабочего процесса очистки данных на основе LLM и бенчмарк

Основные критерии оценки

Цифровая оценка полезности

Работа с исследованием

Результат адаптации