3,583 papers
arXiv:2605.27634 72 26 мая 2026 г. FREE

Structured LoA: как решить когда отдать задачу AI полностью, а когда взять контроль

КЛЮЧЕВАЯ СУТЬ
Большинство людей при анализе данных делают одно из двух: полностью доверяют AI или перепроверяют всё сами. Оба подхода плохи — первый даёт неточный анализ, второй убивает всю выгоду. Фреймворк из Google позволяет разобрать любой аналитический процесс на шаги и дать AI ровно столько свободы, сколько нужно на каждом — не одинаково везде, а точечно. Для этого перед каждой операцией задаёшь два вопроса: 'насколько опасна ошибка здесь?' и 'легко ли мне проверить результат?' — ответы определяют роль AI на этом конкретном шаге, а техника CART делает проверку дешёвой даже при объёме в 500+ единиц.
Адаптировать под запрос

TL;DR

Когда работаешь с качественным анализом — интервью, отзывами, опросами — главный вопрос не "как автоматизировать как можно больше", а "где ошибка AI стоит дорого, а где — нет". Авторы предлагают простую матрицу: перед каждым шагом анализа оцени два параметра — насколько критична ошибка AI для итогового смысла, и насколько легко её поймать. Комбинация этих двух факторов определяет, на каком уровне доверять AI.

Главная находка: LLM сортирует текст по паттернам — быстро и точно. Но "найти паттерн" и "понять что это значит для нашего продукта/исследования/решения" — разные задачи. Если отдать AI весь анализ, получишь аккуратно разложенный по полочкам текст без смысла: категории есть, инсайта нет. Проблема не в качестве AI, а в том, что смысл живёт в голове человека — с его контекстом, историей, целями.

Метод работает в три шага: сначала строишь фундамент (примеры + кодбук), потом AI делает механическую работу с обязательным объяснением каждого решения, потом AI предлагает темы как черновые гипотезы — а финальный смысл строишь ты. На каждом шаге уровень свободы AI разный.


🔬

Схема метода

ШАГИ ВЫПОЛНЯЮТСЯ ПОСЛЕДОВАТЕЛЬНО — можно в одном чате или в нескольких

ШАГ 1: Фундамент (Ты контролируешь)
  → Напиши кодбук: категории + определения + 5-10 примеров каждой
  → Формат: список с объяснениями

ШАГ 2: Механизм оценки риска (перед каждой задачей)
  → Вопрос 1: "Если AI ошибётся здесь — это сломает весь вывод?"
     └─ Да (высокий риск) → AI только предлагает, ты решаешь
     └─ Нет (низкий риск) → AI выполняет, ты выборочно проверяешь
  → Вопрос 2: "Смогу ли я быстро проверить правильность?"
     └─ Нет (долго верифицировать) → AI предлагает, ты решаешь
     └─ Да (легко проверить) → AI выполняет самостоятельно

ШАГ 3: Механический анализ — CART-стиль (AI выполняет + показывает работу)
  → AI кодирует/классифицирует каждый элемент
  → Формат вывода: УЛИКА → РАССУЖДЕНИЕ → КОД → УВЕРЕННОСТЬ
  → Ты выборочно проверяешь + смотришь где уверенность низкая

ШАГ 4: Синтез → AI предлагает темы как черновик ("AI Insights")
  → AI: "Вот возможные темы — прими, отклони или переформулируй"
  → Ты: интерпретируешь с учётом контекста, который AI не знает
  → Финальный смысл — только твой

🚀

Пример применения

Задача: Ты продакт-менеджер в стартапе, который делает приложение для учёта личных финансов. Провели 40 глубинных интервью с пользователями — теперь нужно из 300+ цитат собрать темы для роадмапа на следующий квартал.

Промпт (Шаг 3 — механический анализ в CART-стиле):

Я исследую пользовательский опыт приложения для личных финансов. 
Твоя задача — кодировать цитаты по кодбуку ниже.

КОДБУК:
- БОЛЬ_ИНТЕРФЕЙС: трудно найти нужную функцию, неудобная навигация
- БОЛЬ_ДАННЫЕ: сложно вводить транзакции, нет нужных категорий
- МОТИВАЦИЯ: почему человек вообще пользуется приложением
- ПРИВЫЧКА: описание регулярного сценария использования
- СРАВНЕНИЕ: упоминание конкурентов или альтернатив

Примеры кодировки:
Цитата: "Вечно не могу найти где посмотреть статистику за месяц"
УЛИКА: "не могу найти где посмотреть"
РАССУЖДЕНИЕ: человек сталкивается с навигационной проблемой, это про интерфейс
КОД: БОЛЬ_ИНТЕРФЕЙС
УВЕРЕННОСТЬ: высокая

---

Теперь закодируй следующие цитаты в том же формате:

[вставь цитаты]

Если уверенность ниже средней — напиши почему сомневаешься.

Промпт (Шаг 4 — синтез тем, AI как гипотезатор):

Вот закодированные цитаты из 40 интервью.

Предложи 4-5 черновых темы, которые ты видишь в данных.
Для каждой темы:
- ЧЕРНОВОЕ НАЗВАНИЕ: (я могу его переименовать или объединить с другой)
- СУТЬ: что объединяет эти цитаты
- 2-3 цитаты в поддержку
- ГИПОТЕЗА: почему это может быть важно для продукта

Явно укажи: что тебе непонятно без контекста нашей компании, 
нашей стратегии или истории продукта.

[вставь закодированные цитаты]

Результат:

На шаге 3 модель выдаст структурированную таблицу: каждая цитата с доказательством, рассуждением, кодом и флагом уверенности. Ты быстро найдёшь места где AI сомневался — и проверишь именно их, а не всё подряд.

На шаге 4 получишь 4-5 черновых тематических кластеров с цитатами и явными "не знаю" — там, где нужен твой контекст. Финальную интерпретацию ("это означает что нам нужно переделать онбординг, потому что наши пользователи из регионов привыкли к Сберу") делаешь ты сам.


🧠

Почему это работает

LLM отлично распознаёт паттерны, но не знает твоего контекста. Модель не знает, что ваша ЦА — это предприниматели 35+, что три месяца назад вы переделали онбординг, что жалоба на "неудобный ввод" на самом деле сигнал о более глубокой проблеме осознанности трат. Без этого контекста даже идеальная кластеризация — это данные без смысла.

Когда просишь AI "показать работу", ты управляешь качеством, не перепроверяя всё. Формат УЛИКА → РАССУЖДЕНИЕ → КОД превращает чёрный ящик в прозрачный процесс. Видишь где логика кривая — исправляешь именно там. Низкая уверенность = сигнал "тут посмотри сам". Это экономит время и сохраняет качество.

Метод работает через разделение ролей, а не ограничение AI. AI делает то, в чём оно сильно — быстро, системно, по правилам. Ты делаешь то, в чём сильна ты — смысл, контекст, приоритеты. Ключевой рычаг — фреймирование вывода как черновика: "вот мои гипотезы, ты решаешь". Это сохраняет твоё интерпретационное пространство и не даёт доверять AI-выводам как финальным.

Рычаги управления: - Флаг уверенности → убери, если хочешь скорость; добавь порог ("если уверенность ниже 60% — пропусти") для фокусировки на сложных случаях - Количество примеров в кодбуке → больше примеров = точнее классификация = меньше нужно проверять вручную - Формулировка "черновое название" → сигнализирует AI не делать выводы, а предлагать. Убери "черновое" — AI начнёт говорить увереннее - Явный запрос "скажи что не знаешь" → активирует честность о границах. Без него AI заполнит пробелы домыслами


📋

Шаблон промпта

Шаблон для механического анализа (CART-стиль):

Я исследую {тема_исследования}.
Твоя задача — кодировать {тип_материала} по кодбуку ниже.

КОДБУК:
- {КОД_1}: {определение + признаки}
- {КОД_2}: {определение + признаки}
- {КОД_3}: {определение + признаки}

Пример кодировки:
{пример_цитаты_или_фрагмента}
УЛИКА: [конкретный фрагмент текста]
РАССУЖДЕНИЕ: [почему именно этот код]
КОД: [название из кодбука]
УВЕРЕННОСТЬ: [высокая / средняя / низкая + причина если не высокая]

Закодируй следующие фрагменты в том же формате:
{материал_для_анализа}

Если встречаешь фрагмент, который не подходит ни под один код — 
скажи об этом явно.

Шаблон для синтеза (AI как гипотезатор):

Вот проанализированные данные о {контекст}.

Предложи {число} черновых темы.
Для каждой:
- ЧЕРНОВОЕ НАЗВАНИЕ: (я могу переименовать или объединить)
- СУТЬ: что объединяет эти примеры
- ЦИТАТЫ В ПОДДЕРЖКУ: 2-3 конкретных примера
- ГИПОТЕЗА: почему это может быть важно

Явно укажи: где тебе не хватает контекста о {специфика_проекта}, 
чтобы я мог это заполнить сам.

{данные}

Подставляй: - {тема_исследования} — UX приложения, клиентский опыт сервиса, NPS-опрос - {тип_материала} — цитаты пользователей, ответы на открытые вопросы, фрагменты интервью - {КОД_N} — твои категории с чёткими определениями и признаками - {специфика_проекта} — что AI точно не знает: стратегия компании, история продукта, ЦА


🚀 Быстрый старт — вставь в чат:

Вот шаблон для структурированного анализа с прозрачным рассуждением AI. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про кодбук (какие категории нужны), про материал (что анализируем), про примеры (есть ли образцы правильной разметки) — потому что без этого невозможно задать "правила мира" для точного анализа. Она возьмёт структуру CART из шаблона и создаст рабочий промпт под твою задачу.


⚠️

Ограничения

⚠️ Нет числовых данных: Исследование — качественное. Авторы не измеряли точность кодирования или экономию времени количественно. Принципы логичны, но опираются на один кейс в Google, не на систематическое тестирование.

⚠️ Требует подготовки кодбука: Метод работает только если ты уже понимаешь свою область достаточно, чтобы написать категории с примерами. Если категорий нет — начинать нужно с другого места.

⚠️ Синтез тем всё равно на тебе: AI не заменит финальную интерпретацию — это не недостаток метода, это его суть. Если ждёшь готовых выводов без своего участия, этот подход разочарует.

⚠️ Большие объёмы требуют нескольких запросов: 300+ цитат не влезают в один промпт. Нужно делить на батчи — добавляет операционной работы.


🔍

Как исследовали

Команда из Google взяла реальный производственный кейс: программа DataSat собирала около 10 000 открытых ответов сотрудников о 100+ внутренних инструментах компании за один запуск опроса. Задача была реальная и острая — традиционный ручной анализ не справлялся с масштабом, полная автоматизация теряла нюансы.

Авторы не проводили контролируемый эксперимент с группами — они внедрили фреймворк в живой рабочий процесс и задокументировали что сработало, что не сработало и почему. Метод CART (клюй + рассуждение) был взят из отдельного исследования по классификации текста, где показал результаты сопоставимые с fine-tuning без обновления весов модели — это важный сигнал о силе многошотового in-context learning (когда даёшь AI много примеров прямо в промпте).

Интересный момент: авторы честно зафиксировали что не работало. AI не сигнализировал когда путался с категориями — это выявлялось только ретроспективно. Финальный синтез тем оказывался "ломким" — если AI выдавал банальные темы, исследователи теряли интерес к сотрудничеству. Оба эти провала привели к конкретным принципам улучшения. Логика исследования не в доказательстве гипотезы, а в честном разборе полётов.


💡

Адаптации и экстраполяции

🔧 Техника: Активный флаг неуверенности → AI сам инициирует уточнение

В оригинале AI пассивно молчит когда не уверен — проблема замечается только постфактум. Добавь явную инструкцию:

Если встречаешь фрагменты, где твоя уверенность стабильно ниже средней 
для одной категории — сообщи об этом: "Я затрудняюсь с категорией X 
в 5+ случаях. Возможно, нужно уточнить определение или добавить 
подкатегорию?"

Это превращает AI из исполнителя в партнёра по методологии. Особенно полезно когда анализируешь новую область с сырым кодбуком.

🔧 Техника: Матрица риска для любой задачи, не только анализа текста

Два вопроса ("насколько дорога ошибка" + "насколько легко проверить") работают далеко за пределами качественного исследования. Используй как быстрый фильтр перед любым делегированием AI:

Перед этой задачей скажи мне:
1. Если ты ошибёшься здесь — это критично для финального результата? (да/нет)
2. Смогу ли я быстро проверить правильность твоего ответа? (да/нет)

Если (1=да) и (2=нет) — предложи варианты, не выводы.
Если (1=нет) и (2=да) — действуй самостоятельно.

Работает для юридических документов, финансовых расчётов, стратегических решений — везде, где цена ошибки неравномерна.


🔗

Ресурсы

Structuring Human-AI Productive Interdependence by Strategic Level of Automation Selection for Qualitative Inquiry — Feng Zhou, Jacqueline Meijer-Irons, Ambar Murillo (Google, USA). Co-Data Workshop at CHI '26, Barcelona. DOI: https://doi.org/10.1145/nnnnnnn.nnnnnnn

Связанные работы упомянутые в статье: - CART framework (Clue And Reasoning Prompting): Sun et al. (2023) — https://aclanthology.org/2023.findings-emnlp.603.pdf - Many-shot in-context learning: Agarwal et al. (2024) — http://arxiv.org/abs/2404.11018 - Levels of Automation framework: Parasuraman, Sheridan, Wickens (2000), IEEE


📋 Дайджест исследования

Ключевая суть

Большинство людей при анализе данных делают одно из двух: полностью доверяют AI или перепроверяют всё сами. Оба подхода плохи — первый даёт неточный анализ, второй убивает всю выгоду. Фреймворк из Google позволяет разобрать любой аналитический процесс на шаги и дать AI ровно столько свободы, сколько нужно на каждом — не одинаково везде, а точечно. Для этого перед каждой операцией задаёшь два вопроса: 'насколько опасна ошибка здесь?' и 'легко ли мне проверить результат?' — ответы определяют роль AI на этом конкретном шаге, а техника CART делает проверку дешёвой даже при объёме в 500+ единиц.

Принцип работы

Задача распадается на шаги, каждый оценивается по двум осям. Ось 1: Риск ошибки. Классифицировать 500 отзывов по категориям — риск низкий, ошибку поймаешь. Вывод 'что менять в продукте в первую очередь' — риск высокий, от этого зависит куда пойдут деньги. Ось 2: Стоимость проверки. Пробежать глазами список категорий — дёшево. Перечитать 500 отзывов ещё раз — дорого. Матрица даёт простое правило: высокий риск + дорогая проверка = AI только готовит материал, ты решаешь. Низкий риск + дешёвая проверка = AI делает, ты выборочно смотришь. Отдельно — техника CART. Вместо 'вот категория' AI выдаёт три части: ЗАЦЕПКА [точная цитата из текста] → РАССУЖДЕНИЕ [почему это → именно такой вывод] → ВЫВОД [категория или паттерн]. Это делает проверку дешёвой даже при большом объёме: смотришь на зацепку, а не перечитываешь исходник. Ошибка видна за секунду — AI взял не ту фразу, или она не означает то, что он решил.

Почему работает

AI хуже всего там, где ошибку не видно сразу: синтез, интерпретации, выводы. Зато отлично справляется там, где задача повторяется тысячу раз и результат легко проверить — классификация, извлечение фактов, структурирование. Главная ловушка: AI выдаёт выводы уверенно — даже когда ошибается. Без явного указания 'это черновик' легко принять его логику за готовое решение. CАRT разрешает это структурно. Когда AI показывает зацепку — конкретную цитату из текста — ты проверяешь не итог, а логическую цепочку. Видишь несоответствие за секунды. Это на порядок быстрее, чем читать каждый отзыв заново. Плюс явная фраза в промпте 'финальное решение за мной' убирает соблазн принять черновик как готовый ответ — и у тебя, и у модели.

Когда применять

Анализ большого объёма текстовых данных — для отзывов клиентов, ответов на опросы, заявок в поддержку, комментариев к продукту: особенно когда нужно и классифицировать, и делать выводы в одном процессе. НЕ подходит для маленьких выборок — 10–20 единиц быстрее разобрать вручную. Выгода начинается от 50–100 единиц данных. Также не подходит, если сам не уверен в категориях — AI применит размытую логику последовательно на всём объёме. CART покажет ошибки, но причина будет в тебе, не в модели.

Мини-рецепт

1. Раздели задачу на шаги: Выпиши по шагам что нужно сделать — классификация, поиск паттернов, выводы. Каждый шаг отдельно, не всё в один промпт.

2. Оцени каждый шаг по матрице: Риск ошибки высокий или низкий? Проверить дёшево или дорого? Это определяет сколько свободы давать AI на каждой операции.

3. Для повторяемых операций — включи CART: В промпте задай формат ответа: ЗАЦЕПКА: [точная цитата из текста] / РАССУЖДЕНИЕ: [почему → именно эта категория] / ВЫВОД: [категория]. Дай 5–10 реальных примеров для калибровки — без них модель будет угадывать твою логику вместо того чтобы применять её.

4. Проверь зацепки, не выводы: Пробегись по полям ЗАЦЕПКА — если цитата не соответствует категории, ошибка видна сразу. Не надо перечитывать исходник.

5. Синтез — сам: Попроси AI дать черновик тем с цитатами-иллюстрациями. Добавь явно: 'это черновик, финальное решение я приму сам с учётом [контекст: бюджет, история проекта, стратегия]'. Без этого модель подаёт выводы как готовые — и звучит убедительно.

Примеры

[ПЛОХО]: `Проанализируй эти 200 отзывов и скажи что нужно улучшить в продукте` [ХОРОШО — шаг 1, классификация с CART]: `Ты — аналитик отзывов. Классифицируй каждый отзыв по одной категории: Качество материала / Размерная сетка / Доставка и упаковка / Соответствие описанию / Позитив. Для каждого выдай: ЗАЦЕПКА: [точная цитата из отзыва] / РАССУЖДЕНИЕ: [почему → именно эта категория, а не другая] / КАТЕГОРИЯ: [название]. Вот 5 примеров: [реальные примеры из твоих данных]. Теперь классифицируй: [отзывы]` [ХОРОШО — шаг 2, синтез с низкой свободой AI]: `Вот итоги классификации: Качество — 87 отзывов, Размерная сетка — 54, Доставка — 31, Прочее — 28. Предложи 3 возможных направления для улучшения. Для каждого — конкретная цитата-иллюстрация и почему это может быть важно. Это черновик: финальное решение я приму сам с учётом сезонности и бюджета на доработки — контекста, которого у тебя нет.`
Источник: Structuring Human-AI Productive Interdependence by Strategic Level of Automation Selection for Qualitative Inquiry
ArXiv ID: 2605.27634 | Сгенерировано: 2026-05-28 07:45

Проблемы LLM

ПроблемаСутьКак обойти
AI подаёт все выводы одинаково уверенноМодель пишет "качество материала" про отзыв и "вот что надо чинить" про бизнес с одинаковым тоном. Пользователь не чувствует разницы. Первое легко проверить — второе почти невозможно. Поэтому выводы AI принимаются там, где их нельзя проверить без глубокого погруженияЯвно разделяй шаги. На шагах с дорогой проверкой пиши в запросе: "это черновик, финал за мной". На шагах с дешёвой проверкой — включай CART (см. методы)

Методы

МетодСуть
CART — якорь + рассуждение + выводВместо голого вывода заставь модель показывать три элемента. ЗАЦЕПКА: точная цитата из исходного текста. РАССУЖДЕНИЕ: почему это ведёт к такому выводу, а не другому. ВЫВОД: сам результат. Синтаксис: ЗАЦЕПКА: [цитата]\nРАССУЖДЕНИЕ: [логика]\nВЫВОД: [итог]. Почему работает: проверяешь не вывод — проверяешь зацепку. Глазами пробегаешь по цитатам. Ошибка видна за секунду: AI взял не ту фразу или вывел из неё не то. Без зацепки нужно перечитывать исходник. Работает: классификация текстов, анализ отзывов, разметка данных. Не работает: когда задача не про текст или нет исходного источника для цитаты
📖 Простыми словами

Structuring Human-AIProductive Interdependence by Strategic Level of Automation Selection for Qualitative Inquiry

arXiv: 2605.27634

Когда ты просишь AI проанализировать гору отзывов или интервью, главная проблема не в том, что он глупый, а в том, что он галлюцинирует контекстом. Модель понятия не имеет, что важно лично для твоего бизнеса, поэтому она просто группирует данные по самым очевидным признакам. В итоге ты получаешь стерильный отчет, который вроде бы логичен, но абсолютно бесполезен для принятия решений. Исследователи из Google копнули в корень: проблема не в качестве промпта, а в уровне автоматизации, который ты выбираешь для каждого шага.

Это как нанять стажера на склад. Если ты скажешь ему: "Разбери тут всё как-нибудь", он расставит коробки по цвету, потому что так красивее, а не по частоте отгрузок. Чтобы не получить бардак, тебе нужно решить, где ты даешь ему полную свободу, а где буквально водишь за руку. Весь метод сводится к двум вопросам: насколько критичен провал на этом этапе и сможешь ли ты быстро заметить, что AI начал нести чушь. Если цена ошибки высока, а проверка занимает вечность — автоматизацию нужно резать.

На практике это работает через стратегический выбор контроля. Допустим, у тебя 500 отзывов на Wildberries. Вместо того чтобы просить "сделай выводы", ты разбиваешь процесс. На этапе чистки мусора даешь AI полную свободу — это высокая автоматизация, риск минимален. Но когда дело доходит до поиска причин, почему падают продажи, ты переходишь на низкий уровень: сам задаешь категории или проверяешь каждую цитату, которую AI подтянул в отчет. Ты используешь модель как мощный фильтр, но оставляешь за собой право финального смысла.

Принцип универсален и применим везде, где есть работа с текстом: от анализа конкурентов до разбора клиентских жалоб. Тестировали это на качественных исследованиях, но логика подходит для любого человеко-машинного взаимодействия. Мы часто совершаем ошибку, отдавая AI самые сложные, творческие куски работы, где как раз и нужен наш контроль. В итоге SEO-логика (просто выплюнуть текст) проигрывает осознанному подходу, где человек выступает архитектором, а не просто зрителем.

Короче: хватит надеяться, что AI сам поймет, что для тебя важно. Главный вывод исследования — эффективность зависит от дистанции. Чем важнее решение, тем короче должен быть поводок. Если ты полностью делегируешь анализ смыслов, ты строишь стратегию на фундаменте из галлюцинаций и средних значений. Разделяй задачу на куски, оценивай риски на каждом и не давай модели рулить там, где цена ошибки — твой бюджет или репутация.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с