TL;DR
Bita — чат-бот для тестирования справедливости AI систем (выявление дискриминации по полу, расе, возрасту). Работает через диалог на естественном языке: тестировщик описывает систему → бот анализирует → выдаёт рекомендации по трём направлениям (поиск источников bias, проверка тест-планов, создание чартеров для исследовательского тестирования). Использует LLM + RAG (retrieval-augmented generation) — каждый ответ обоснован ссылками на научную литературу по fairness testing.
Исследование показало: из 42 существующих инструментов для fairness testing ни один не поддерживает разговорный интерфейс и обоснование через литературу. Все требуют программирования, экспертизы в ML, сложны в интеграции. Bita — первый conversational assistant, который снижает барьер входа через естественный язык и прозрачные рекомендации с источниками.
Для нас ценны универсальные принципы построения Bita: (1) RAG для обоснования — ответы подкреплены релевантными источниками, (2) трёхэтапная структура диалога (описание → анализ → действия), (3) role prompting для экспертных задач, (4) few-shot примеры в промптах для точности. Эти принципы применимы к любой экспертной задаче в ChatGPT/Claude, где нужен анализ с обоснованием — от бизнес-идей до оценки кандидатов.
Схема метода
Bita — веб-платформа, НЕ промпт. Но структура работы универсальна:
ЭТАП 1: Описание системы
→ Пользователь: описание AI системы (назначение, входы, выходы, аудитория)
→ Бот: сохраняет контекст
ЭТАП 2: Выбор задачи (три варианта работы)
Вариант А — Bias Detection:
→ Бот анализирует описание через LLM + RAG
→ Выдаёт список потенциальных источников bias с обоснованием из литературы
Вариант Б — Plan Check:
→ Пользователь загружает тест-план
→ Бот выявляет пропущенные демографические группы, edge cases, корреляции
→ Рекомендации по улучшению
Вариант В — Exploratory Charter Generation:
→ Бот генерирует структурированные чартеры для исследовательского тестирования
→ Практические промпты для проверки fairness в реальных сценариях
ЭТАП 3: Итеративное уточнение
→ Пользователь дополняет контекст
→ Бот адаптирует рекомендации с учётом истории диалога
→ Результаты сохраняются в БД для следующих сессий
Пример применения
⚠️ Ограничения метода: Bita создана для fairness testing AI систем — узкая задача. Но принципы универсальны: структурированный экспертный анализ через диалог с обоснованием источниками.
Применим принципы к задаче из российского контекста:
Задача: Ты запускаешь онлайн-школу по data science и хочешь проверить бизнес-модель на слабые места. Нужна экспертная оценка с опорой на реальные кейсы и исследования, а не просто "общие соображения".
Промпт (адаптация принципов Bita):
Ты — эксперт по образовательным бизнес-моделям в России. Твоя задача — анализировать стратегию запуска онлайн-школы и выявлять потенциальные риски.
ПРАВИЛА РАБОТЫ:
1. Обосновывай каждый вывод примерами из реальных кейсов (Нетология, Skillbox, GeekBrains, Яндекс Практикум)
2. Структурируй анализ по блокам: целевая аудитория, монетизация, маркетинг, удержание
3. Для каждого риска предлагай конкретное действие
МОЯ БИЗНЕС-МОДЕЛЬ:
- Продукт: 6-месячный курс data science с практикой на реальных проектах
- Цена: 120 000₽ (можно в рассрочку на 12 месяцев)
- Целевая аудитория: айтишники 25-35 лет, хотят переквалифицироваться
- Маркетинг: таргет ВК + Telegram-каналы по карьере в IT
- Преподаватели: практикующие data scientists из Яндекса, Сбера
ЗАДАЧА 1 — АНАЛИЗ РИСКОВ:
Найди потенциальные слабые места этой модели. Для каждого риска:
- Опиши что может пойти не так
- Покажи пример из практики российских EdTech (что случилось с Х, когда они...)
- Дай конкретную рекомендацию
ЗАДАЧА 2 — ПРОВЕРКА ПРЕДПОЛОЖЕНИЙ:
Я предполагаю что:
1. Айтишники готовы платить 120к за переквалификацию
2. Преподаватели из топовых компаний = конкурентное преимущество
3. Рассрочка снизит барьер входа
Для каждого предположения: подтверди или опровергни данными/кейсами из российского рынка EdTech.
ЗАДАЧА 3 — ЧЕКЛИСТ ЗАПУСКА:
Создай чеклист первых 3 месяцев с контрольными точками. Покажи на какие метрики смотреть, чтобы понять — работает или нет.
Результат:
Модель выдаст структурированный анализ по трём задачам. В Задаче 1 — список рисков (например, "перенасыщение рынка курсов по DS", "высокий churn из-за сложности") с примерами что случилось с Skillbox, когда они столкнулись с похожим. В Задаче 2 — проверку каждого предположения через данные (средний чек курсов переквалификации, влияние бренда преподавателей на конверсию). В Задаче 3 — чеклист с метриками (CAC, LTV, completion rate) и пороговыми значениями для принятия решений.
Каждый вывод будет обоснован конкретными кейсами или исследованиями рынка — аналог RAG в Bita, только источники модель берёт из своих знаний о российском EdTech.
Почему это работает
LLM плохо работают когда нужны экспертные выводы "на глаз" без структуры — получается поверхностный общий текст без конкретики и обоснований. Спроси "оцени мою бизнес-идею" → получишь абстрактные соображения в духе "хорошо бы проверить рынок".
LLM хорошо работают когда задана явная структура рассуждений и требование обосновывать каждый вывод конкретными данными. Это заставляет модель искать релевантные паттерны в своих знаниях вместо генерации общих фраз.
Принципы Bita используют три сильные стороны LLM:
RAG-подобный подход — требование обосновывать через источники активирует в модели поиск конкретных case studies и исследований вместо абстрактных рассуждений. В исходной Bita это реальный RAG с базой литературы. В ChatGPT/Claude мы симулируем RAG через инструкцию "обосновывай примерами из практики X, Y, Z" — модель ищет паттерны в своих знаниях.
Структурированный диалог — разбивка на этапы (описание → анализ → действия) снижает когнитивную нагрузку на модель. Вместо "оцени всё сразу" даём пошаговую схему, где каждый блок имеет чёткий вход и выход.
Role prompting — роль эксперта с явными правилами работы ("обосновывай каждый вывод", "структурируй по блокам") задаёт высокий стандарт качества ответа.
Рычаги управления:
- Источники обоснования — меняй список компаний/кейсов/исследований под свой домен (EdTech → e-commerce → SaaS)
- Структура анализа — адаптируй блоки под задачу (целевая аудитория + монетизация → продукт + конкуренты + маркетинг)
- Глубина анализа — добавь "для каждого риска найди 2-3 примера" если нужно больше контекста, убери если экономишь токены
- Контрольные точки — замени чеклист на roadmap, метрики, сценарии тестирования — любой формат действий
Шаблон промпта
Ты — эксперт по {домен}. Твоя задача — анализировать {объект анализа} и выявлять {что ищем}.
ПРАВИЛА РАБОТЫ:
1. Обосновывай каждый вывод примерами из реальной практики: {источники}
2. Структурируй анализ по блокам: {блок_1}, {блок_2}, {блок_3}
3. Для каждого {элемент} давай конкретное {действие}
КОНТЕКСТ:
{описание системы/идеи/проекта — чем детальнее, тем точнее анализ}
ЗАДАЧА 1 — АНАЛИЗ {ЧТО АНАЛИЗИРУЕМ}:
Найди потенциальные {риски/возможности/проблемы}. Для каждого:
- Опиши что может {произойти}
- Покажи пример из практики {источники}
- Дай конкретную рекомендацию
ЗАДАЧА 2 — ПРОВЕРКА ПРЕДПОЛОЖЕНИЙ:
Я предполагаю что:
1. {предположение_1}
2. {предположение_2}
3. {предположение_3}
Для каждого: подтверди или опровергни через {данные/кейсы/исследования}.
ЗАДАЧА 3 — ПЛАН ДЕЙСТВИЙ:
Создай {формат плана} на {срок} с контрольными точками. Покажи {метрики/критерии} для оценки прогресса.
Что подставлять:
{домен}— область экспертизы (образовательные бизнес-модели, маркетинговые стратегии, продуктовые решения){объект анализа}— что анализируем (стратегия запуска, рекламная кампания, MVP){что ищем}— цель (потенциальные риски, точки роста, узкие места){источники}— откуда брать примеры (российские EdTech компании, SaaS стартапы из YC, кейсы из твоей индустрии){блок_1, _2, _3}— структура анализа под задачу (целевая аудитория + монетизация + маркетинг){элемент}— что именно проверяем (риск, гипотеза, сегмент){действие}— что получить (рекомендация, метрика, тестовый сценарий)
Пример minimal версии для быстрой проверки:
Ты — эксперт по {домен}. Проанализируй мой {объект}:
{описание}
1. Найди 3 главных риска — для каждого покажи пример из практики
2. Проверь мои предположения: {список}
3. Дай чеклист первых действий
🚀 Быстрый старт — вставь в чат:
Вот шаблон экспертного анализа с обоснованием через кейсы. Адаптируй под мою задачу: [опиши задачу — например, "проверить маркетинговую стратегию для запуска SaaS сервиса для малого бизнеса"].
Задавай вопросы чтобы заполнить все поля шаблона.
[вставить шаблон выше]
LLM спросит про домен экспертизы, объект анализа, нужные источники для обоснования, структуру анализа — потому что шаблон задаёт каркас экспертной оценки, а модель адаптирует его под конкретную задачу. Она возьмёт паттерн "контекст → анализ рисков → проверка предположений → план действий" и заполнит твоими данными.
Оригинал из исследования
Bita использует pseudo-XML теги и role prompting в промптах. Пример из исследования:
"You are a software fairness assistant that explains fairness testing concepts
in clear and practical terms. The user previously asked about fairness testing
in AI systems. The retrieved documents describe that demographic parity is a
group-based fairness metric, while equalized odds ensures parity in true and
false positive rates across subgroups. Using this context, explain the difference
between demographic parity and equalized odds, and when each should be applied
in fairness testing."
Структура: 1. Role definition — "You are a software fairness assistant" 2. Работа с контекстом — "The user previously asked..." + "The retrieved documents describe..." 3. Explicit instruction — "Using this context, explain..."
Это пример few-shot prompting + instruction-based prompting для поддержания контекстной точности.
Ограничения
⚠️ Специфичность домена: Оригинальная Bita заточена под fairness testing AI систем — узкая задача для QA engineers и ML teams. Напрямую нерелевантна для массового пользователя ChatGPT/Claude.
⚠️ Требует адаптации принципов: Извлекаемые принципы (RAG-подобное обоснование, структурированный диалог, role prompting) универсальны, но шаблон нужно адаптировать под свой домен. Копипаста не сработает — нужно подставить свои источники, метрики, структуру анализа.
⚠️ Псевдо-RAG vs реальный RAG: В ChatGPT/Claude мы симулируем RAG через инструкцию "обосновывай примерами из X, Y, Z". Это работает, но менее точно чем реальный RAG с базой документов как в Bita. Модель может "додумать" пример если не знает конкретного кейса. Решение — давать список известных кейсов явно ("примеры: Skillbox и рассрочка, Нетология и churn").
⚠️ Качество зависит от контекста: Чем детальнее описание в блоке "КОНТЕКСТ", тем точнее анализ. Одно предложение → поверхностный ответ. Три абзаца с цифрами → конкретные рекомендации.
Ресурсы
Bita: A Conversational Assistant for Fairness Testing — репозиторий исследования
Живая версия Bita — веб-платформа (доступна онлайн)
Keeryn Johnson, Cleyton Magalhaes, Ronnie de Souza Santos — University of Calgary, UFRPE
