TL;DR
Vibe-тестирование — это то, что вы уже делаете, но не осознаёте как систему: берёте свою задачу из работы, кидаете в разные модели и смотрите "кто лучше". Исследование изучило как именно люди это делают — и формализовало в двухчастную структуру. Часть первая: что вы тестируете (входные измерения — тип задачи, контекст, ограничения). Часть вторая: по какому критерию судите ответ (выходные измерения — ясность, стиль, соответствие вашему рабочему процессу).
Главная находка: 86% пользователей чувствовали, что модель ведёт себя совсем не так, как обещают её бенчмарк-оценки. Это не паранойя. Бенчмарки тестируют абстрактные задачи с универсальными критериями "правильно/неправильно". А вам важно не "правильно" — вам важно "удобно для моего рабочего процесса", "в моём стиле", "не требует трёх раундов переделок". Модель с низким баллом на HumanEval может оказаться идеальной для вашей работы — и наоборот.
Решение: протестировать модель на ваших задачах, оценивая по вашим критериям. Звучит очевидно, но большинство людей тестируют либо чужими задачами ("попроси написать стишок"), либо без чётких критериев ("ну это как-то лучше"). Фреймворк даёт словарь и структуру, чтобы делать это осознанно и воспроизводимо.
Схема метода
ШАГ 1: Профиль входа (что тестировать)
→ Тип задачи из вашего рабочего процесса
→ Уровень сложности
→ Реальный контекст (не абстрактный)
→ Насколько жёсткие ограничения
→ Сколько контекста вы обычно даёте
ШАГ 2: Профиль выхода (как судить)
→ Задать список критериев и их вес для вас лично
→ Ясность / структура ответа
→ Соответствие вашему рабочему стилю
→ Когнитивная нагрузка на переработку ответа
→ Тон и стиль
→ Насколько легко встроить ответ в свою работу
ШАГ 3: Персональный тест-набор
→ 3–5 реальных задач из вашей работы
→ Каждую задачу запустить в нескольких моделях
→ Оценить по критериям из ШАГ 2
ШАГ 4: Сравнение и вывод
→ Для каждой задачи: кто выиграл и по какому критерию
→ Финальное решение с пониманием "почему"
Все шаги выполняются в обычном чате.
Пример применения
Задача: Ты SMM-менеджер агентства, ведёшь telegram-каналы для b2b-клиентов. Нужно выбрать — работать с ChatGPT или Claude. Хочется не просто "попробовать" оба, а понять осознанно.
Промпт:
Ты помогаешь мне составить личный тест-набор для выбора LLM под мою работу.
Моя работа: SMM-менеджер, пишу посты для telegram-каналов b2b-компаний (IT, консалтинг, производство).
Клиенты — средний бизнес, аудитория — предприниматели и руководители.
Шаг 1 — профиль входа.
Помоги мне сформулировать 4–5 тестовых задач из моей реальной работы.
Задачи должны быть:
- конкретными (не "напиши пост", а с реальным ТЗ)
- разного типа: генерация с нуля, переработка черновика, адаптация тона, работа с ограничениями
- такими, с которыми я сталкиваюсь минимум раз в неделю
Шаг 2 — профиль выхода.
Составь для меня личный чек-лист критериев оценки ответа.
Учти специфику: мне важны понятный деловой тон без корпоративного канцелярита,
минимум правок до публикации, соответствие длине поста в telegram.
Выведи:
- 4–5 тестовых задач с полным ТЗ
- Чек-лист из 5–7 критериев оценки с весами (что важнее, что менее важно)
- Инструкцию: как использовать этот набор для сравнения двух моделей
Результат: Модель выдаст готовый персональный тест-набор: конкретные задачи с реальными вводными (тема поста, нужный тон, ограничения), чек-лист критериев с расставленными приоритетами и чёткую инструкцию — как прогнать обе модели через одни и те же задачи и сравнить результаты системно, а не "на ощущение".
Почему это работает
Почему обычный тест не работает. Когда вы бросаете в модель "придумай что-нибудь" — вы получаете нерелевантный результат. Модель не знает вашего контекста, ваших ограничений, вашей аудитории. И вы оцениваете ответ по размытому "нравится / не нравится" — без понимания, что именно не так. Итог: два теста дают два случайных ощущения.
Что модели умеют хорошо. LLM отлично следует структурированным инструкциям. Если дать конкретный профиль (кто я, что делаю, что важно), она генерирует контент именно под этот профиль. Главное — сформулировать профиль заранее, не угадывать "о чём бы её спросить".
Как фреймворк использует это. Разделение на входные и выходные измерения — это техника явной фиксации критериев оценки до теста. Вы не придумываете критерии глядя на уже готовый ответ (это всегда субъективно). Вы задаёте их до — и оцениваете одинаково для всех моделей. Это убирает главный источник ошибки: "мне кажется эта лучше, но я не могу объяснить почему".
Рычаги управления: - Количество критериев → 5–7 оптимально. Больше 10 — устаёте оценивать - Веса критериев → явно расставьте что важнее: "стиль важен на 2/5, ясность на 5/5" - Тип тестовых задач → берите задачи с разным уровнем ограничений: даёте много контекста / почти ничего / чёткое ТЗ / размытое - Зафиксированные задачи → сохраните тест-набор и используйте при выходе новых моделей — получите сопоставимые результаты
Шаблон промпта
Помоги мне составить персональный тест-набор для оценки LLM под мою работу.
Мой профиль: {опишите кто вы, что делаете, для кого}.
Шаг 1 — входной профиль.
Составь {число} тестовых задач из моей реальной работы.
Требования к задачам:
- конкретные, с реальным ТЗ (не абстрактные)
- разные типы: {перечислите типы задач из вашей работы}
- такие, с которыми я работаю регулярно
Шаг 2 — выходной профиль.
Составь чек-лист критериев оценки ответа.
Для меня важно: {что важно в результате — тон, длина, стиль, формат}.
Добавь веса от 1 до 5 для каждого критерия.
Шаг 3 — инструкция.
Как использовать этот набор для сравнения {название модели A} и {название модели B}.
Формат вывода:
- Тестовые задачи с полным ТЗ
- Чек-лист критериев с весами
- Пошаговая инструкция по сравнению
Плейсхолдеры:
- {опишите кто вы} → ваша роль и контекст работы
- {число} → 3–5 задач оптимально
- {типы задач} → например: создание с нуля, переработка черновика, адаптация под другую аудиторию
- {что важно} → стиль, длина, деловой тон, минимум правок, встраиваемость в ваш workflow
- {модель A / B} → ChatGPT, Claude, GigaChat, YandexGPT
🚀 Быстрый старт — вставь в чат:
Вот шаблон для составления персонального тест-набора LLM.
Адаптируй под мою задачу: {чем вы занимаетесь}.
Задавай вопросы, чтобы заполнить профиль.
[вставить шаблон выше]
LLM спросит о вашем типе работы, частых задачах и критериях оценки — потому что без этого невозможно составить персональные тестовые задачи. Она возьмёт паттерн из шаблона и адаптирует под ваш контекст.
Почему это работает
Две ключевые находки, которые меняют подход к работе с AI:
Находка 1: Benchmarks ≠ ваша реальность. Большинство тестов оценивают модели на абстрактных задачах с критерием "ответ правильный или нет". Но для реальной работы важна не правильность — важна встраиваемость. Ответ, который требует трёх раундов правок, хуже ответа с парой неточностей, который сразу идёт в работу. Бенчмарки это не видят.
Находка 2: Персонализация меняет победителя. Когда исследователи взяли одни и те же задачи и переформулировали под конкретного пользователя (новичок vs. опытный разработчик), предпочтения моделей менялись на противоположные. Модель, которая "проигрывала" на стандартных промптах, "выигрывала" на персональных — и наоборот. Это не статистический шум, это системный эффект.
Вывод: Не существует "лучшей модели". Существует "лучшая модель для вашего конкретного контекста". Найти её можно только через персонализированный тест с личными критериями — а не через чужие сравнения в интернете.
Ограничения
⚠️ Субъективность сохраняется: Фреймворк структурирует оценку, но не делает её объективной. Два человека с одинаковыми критериями могут прийти к разным выводам — это нормально, потому что "тон", "стиль" и "workflow fit" у всех разные.
⚠️ Для сложных задач, не простых: Если задача простая и однозначная ("переведи слово"), все модели справятся одинаково. Фреймворк раскрывается на задачах с нюансами: редактура, генерация в стиле, аргументация, структурирование.
⚠️ Эксперименты только на коде: Исследование проверяло pipeline на задачах программирования. Принципы выглядят универсально, но на текстовых, творческих задачах — пока без экспериментальных данных.
⚠️ Небольшая выборка пользователей: Опрос — 51 человек, преимущественно AI/ML-специалисты. Выводы о "том, что важно пользователям" могут не совпадать с более широкой аудиторией.
Как исследовали
Команда пошла нестандартным путём — вместо того чтобы придумать метод и проверить его, они сначала изучили как люди уже делают это в реальности. Провели опрос 51 человека — разработчики, AI-исследователи, обычные пользователи. Затем собрали 40 реальных публичных сравнений моделей: YouTube-обзоры, посты в Reddit, статьи в блогах. В каждом нашли конкретные моменты оценки: что тестировал человек и по какому критерию судил.
Самый интересный результат: то что люди говорят, что тестируют, совпадает с тем, что они говорят бенчмарки не измеряют. Это не случайность — это подтверждение, что vibe-тестирование существует именно потому, что заполняет реальный пробел.
Дальше исследователи взяли кодинг-задачи (HumanEval+, MBPP+), создали четыре персоны пользователей от новичка до продвинутого разработчика, и сравнили как одни и те же модели (GPT-5.1, GPT-OSS-20B, Gemini-3 Pro и другие) выглядят на оригинальных промптах vs. персонализированных. Чтобы исключить эффект простого перефразирования, добавили нейтральный контроль — те же промпты, но без персонализации. Результат: перефразирование без персонализации почти не меняло предпочтения, а персонализированные промпты с личными критериями — меняли существенно, вплоть до смены победителя.
Адаптации и экстраполяции
🔧 Постоянный тест-набор для новых моделей
Сохраните свои тестовые задачи и критерии в отдельном файле или чате. Каждый раз, когда выходит обновление модели или хочется сравнить новый инструмент — прогоняете одинаковые задачи. Получаете сопоставимые данные, а не каждый раз "ощущение".
🔧 Техника: именные персоны вместо абстрактных профилей → острее оценка
Вместо "опытный маркетолог" попросите модель оценить ответ от лица реального архетипа. Например: "Оцени этот ответ как Максим — директор по маркетингу среднего b2b, не любит воды и канцелярита, всегда смотрит на применимость сегодня, а не в теории". Конкретный персонаж = острее роль = полезнее оценка.
Комбинация с оценкой промптов
Тот же двухчастный подход — входные + выходные измерения — работает не только для выбора модели, но и для оценки своих промптов. Прогоните один промпт в нескольких вариантах через вашу тест-задачу, оцените по личным критериям. Найдите какая формулировка даёт лучший workflow fit именно для вас.
У меня два варианта промпта для одной задачи.
Оцени каждый по следующим критериям от 1 до 5:
- Ясность структуры ответа
- Соответствие деловому тону (без канцелярита)
- Длина (не больше 3 абзацев)
- Насколько ответ готов к публикации без правок
Промпт А: {вариант 1}
Промпт Б: {вариант 2}
Задача: {ваша задача}
Для каждого варианта: баллы по критериям + 1 предложение объяснения.
Финальный вывод: какой промпт выигрывает и почему.
Ресурсы
Статья: "From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs" — препринт, на рецензии.
Сайт проекта: itay1itzhak.github.io/vibe-testing-llms — код и артефакты исследования.
Авторы: Itay Itzhak, Eliya Habba, Gabriel Stanovsky, Yonatan Belinkov.
Институты: Technion – Israel Institute of Technology; The Hebrew University of Jerusalem.
