3,583 papers
arXiv:2604.14137 74 15 апр. 2026 г. FREE

Vibe-тестирование: как систематически выбирать LLM под свои задачи

КЛЮЧЕВАЯ СУТЬ
Парадокс: одни и те же задачи, переформулированные под новичка и под опытного разработчика — победитель среди моделей менялся на противоположного. Не шум, не случайность — системный эффект. Метод vibe-тестирования позволяет подобрать модель под свою конкретную работу, а не ориентироваться на чужие рейтинги в интернете. Фишка: критерии оценки задаются ДО теста, а не при взгляде на уже готовый ответ — именно это убирает главную ошибку: «мне кажется эта лучше, но я не могу объяснить почему». 86% пользователей чувствовали: бенчмарки не совпадают с реальной работой — теперь понятно почему.
Адаптировать под запрос

TL;DR

Vibe-тестирование — это то, что вы уже делаете, но не осознаёте как систему: берёте свою задачу из работы, кидаете в разные модели и смотрите "кто лучше". Исследование изучило как именно люди это делают — и формализовало в двухчастную структуру. Часть первая: что вы тестируете (входные измерения — тип задачи, контекст, ограничения). Часть вторая: по какому критерию судите ответ (выходные измерения — ясность, стиль, соответствие вашему рабочему процессу).

Главная находка: 86% пользователей чувствовали, что модель ведёт себя совсем не так, как обещают её бенчмарк-оценки. Это не паранойя. Бенчмарки тестируют абстрактные задачи с универсальными критериями "правильно/неправильно". А вам важно не "правильно" — вам важно "удобно для моего рабочего процесса", "в моём стиле", "не требует трёх раундов переделок". Модель с низким баллом на HumanEval может оказаться идеальной для вашей работы — и наоборот.

Решение: протестировать модель на ваших задачах, оценивая по вашим критериям. Звучит очевидно, но большинство людей тестируют либо чужими задачами ("попроси написать стишок"), либо без чётких критериев ("ну это как-то лучше"). Фреймворк даёт словарь и структуру, чтобы делать это осознанно и воспроизводимо.


🔬

Схема метода

ШАГ 1: Профиль входа (что тестировать)
  → Тип задачи из вашего рабочего процесса
  → Уровень сложности
  → Реальный контекст (не абстрактный)
  → Насколько жёсткие ограничения
  → Сколько контекста вы обычно даёте

ШАГ 2: Профиль выхода (как судить)
  → Задать список критериев и их вес для вас лично
  → Ясность / структура ответа
  → Соответствие вашему рабочему стилю
  → Когнитивная нагрузка на переработку ответа
  → Тон и стиль
  → Насколько легко встроить ответ в свою работу

ШАГ 3: Персональный тест-набор
  → 3–5 реальных задач из вашей работы
  → Каждую задачу запустить в нескольких моделях
  → Оценить по критериям из ШАГ 2

ШАГ 4: Сравнение и вывод
  → Для каждой задачи: кто выиграл и по какому критерию
  → Финальное решение с пониманием "почему"

Все шаги выполняются в обычном чате.

🚀

Пример применения

Задача: Ты SMM-менеджер агентства, ведёшь telegram-каналы для b2b-клиентов. Нужно выбрать — работать с ChatGPT или Claude. Хочется не просто "попробовать" оба, а понять осознанно.

Промпт:

Ты помогаешь мне составить личный тест-набор для выбора LLM под мою работу.

Моя работа: SMM-менеджер, пишу посты для telegram-каналов b2b-компаний (IT, консалтинг, производство). 
Клиенты — средний бизнес, аудитория — предприниматели и руководители.

Шаг 1 — профиль входа.
Помоги мне сформулировать 4–5 тестовых задач из моей реальной работы. 
Задачи должны быть:
- конкретными (не "напиши пост", а с реальным ТЗ)
- разного типа: генерация с нуля, переработка черновика, адаптация тона, работа с ограничениями
- такими, с которыми я сталкиваюсь минимум раз в неделю

Шаг 2 — профиль выхода.
Составь для меня личный чек-лист критериев оценки ответа. 
Учти специфику: мне важны понятный деловой тон без корпоративного канцелярита, 
минимум правок до публикации, соответствие длине поста в telegram.

Выведи:
- 4–5 тестовых задач с полным ТЗ
- Чек-лист из 5–7 критериев оценки с весами (что важнее, что менее важно)
- Инструкцию: как использовать этот набор для сравнения двух моделей

Результат: Модель выдаст готовый персональный тест-набор: конкретные задачи с реальными вводными (тема поста, нужный тон, ограничения), чек-лист критериев с расставленными приоритетами и чёткую инструкцию — как прогнать обе модели через одни и те же задачи и сравнить результаты системно, а не "на ощущение".


🧠

Почему это работает

Почему обычный тест не работает. Когда вы бросаете в модель "придумай что-нибудь" — вы получаете нерелевантный результат. Модель не знает вашего контекста, ваших ограничений, вашей аудитории. И вы оцениваете ответ по размытому "нравится / не нравится" — без понимания, что именно не так. Итог: два теста дают два случайных ощущения.

Что модели умеют хорошо. LLM отлично следует структурированным инструкциям. Если дать конкретный профиль (кто я, что делаю, что важно), она генерирует контент именно под этот профиль. Главное — сформулировать профиль заранее, не угадывать "о чём бы её спросить".

Как фреймворк использует это. Разделение на входные и выходные измерения — это техника явной фиксации критериев оценки до теста. Вы не придумываете критерии глядя на уже готовый ответ (это всегда субъективно). Вы задаёте их до — и оцениваете одинаково для всех моделей. Это убирает главный источник ошибки: "мне кажется эта лучше, но я не могу объяснить почему".

Рычаги управления: - Количество критериев → 5–7 оптимально. Больше 10 — устаёте оценивать - Веса критериев → явно расставьте что важнее: "стиль важен на 2/5, ясность на 5/5" - Тип тестовых задач → берите задачи с разным уровнем ограничений: даёте много контекста / почти ничего / чёткое ТЗ / размытое - Зафиксированные задачи → сохраните тест-набор и используйте при выходе новых моделей — получите сопоставимые результаты


📋

Шаблон промпта

Помоги мне составить персональный тест-набор для оценки LLM под мою работу.

Мой профиль: {опишите кто вы, что делаете, для кого}.

Шаг 1 — входной профиль.
Составь {число} тестовых задач из моей реальной работы.
Требования к задачам:
- конкретные, с реальным ТЗ (не абстрактные)
- разные типы: {перечислите типы задач из вашей работы}
- такие, с которыми я работаю регулярно

Шаг 2 — выходной профиль.
Составь чек-лист критериев оценки ответа.
Для меня важно: {что важно в результате — тон, длина, стиль, формат}.
Добавь веса от 1 до 5 для каждого критерия.

Шаг 3 — инструкция.
Как использовать этот набор для сравнения {название модели A} и {название модели B}.

Формат вывода:
- Тестовые задачи с полным ТЗ
- Чек-лист критериев с весами
- Пошаговая инструкция по сравнению

Плейсхолдеры: - {опишите кто вы} → ваша роль и контекст работы - {число} → 3–5 задач оптимально - {типы задач} → например: создание с нуля, переработка черновика, адаптация под другую аудиторию - {что важно} → стиль, длина, деловой тон, минимум правок, встраиваемость в ваш workflow - {модель A / B} → ChatGPT, Claude, GigaChat, YandexGPT


🚀 Быстрый старт — вставь в чат:

Вот шаблон для составления персонального тест-набора LLM. 
Адаптируй под мою задачу: {чем вы занимаетесь}. 
Задавай вопросы, чтобы заполнить профиль.

[вставить шаблон выше]

LLM спросит о вашем типе работы, частых задачах и критериях оценки — потому что без этого невозможно составить персональные тестовые задачи. Она возьмёт паттерн из шаблона и адаптирует под ваш контекст.


🧠

Почему это работает

Две ключевые находки, которые меняют подход к работе с AI:

Находка 1: Benchmarks ≠ ваша реальность. Большинство тестов оценивают модели на абстрактных задачах с критерием "ответ правильный или нет". Но для реальной работы важна не правильность — важна встраиваемость. Ответ, который требует трёх раундов правок, хуже ответа с парой неточностей, который сразу идёт в работу. Бенчмарки это не видят.

Находка 2: Персонализация меняет победителя. Когда исследователи взяли одни и те же задачи и переформулировали под конкретного пользователя (новичок vs. опытный разработчик), предпочтения моделей менялись на противоположные. Модель, которая "проигрывала" на стандартных промптах, "выигрывала" на персональных — и наоборот. Это не статистический шум, это системный эффект.

Вывод: Не существует "лучшей модели". Существует "лучшая модель для вашего конкретного контекста". Найти её можно только через персонализированный тест с личными критериями — а не через чужие сравнения в интернете.


⚠️

Ограничения

⚠️ Субъективность сохраняется: Фреймворк структурирует оценку, но не делает её объективной. Два человека с одинаковыми критериями могут прийти к разным выводам — это нормально, потому что "тон", "стиль" и "workflow fit" у всех разные.

⚠️ Для сложных задач, не простых: Если задача простая и однозначная ("переведи слово"), все модели справятся одинаково. Фреймворк раскрывается на задачах с нюансами: редактура, генерация в стиле, аргументация, структурирование.

⚠️ Эксперименты только на коде: Исследование проверяло pipeline на задачах программирования. Принципы выглядят универсально, но на текстовых, творческих задачах — пока без экспериментальных данных.

⚠️ Небольшая выборка пользователей: Опрос — 51 человек, преимущественно AI/ML-специалисты. Выводы о "том, что важно пользователям" могут не совпадать с более широкой аудиторией.


🔍

Как исследовали

Команда пошла нестандартным путём — вместо того чтобы придумать метод и проверить его, они сначала изучили как люди уже делают это в реальности. Провели опрос 51 человека — разработчики, AI-исследователи, обычные пользователи. Затем собрали 40 реальных публичных сравнений моделей: YouTube-обзоры, посты в Reddit, статьи в блогах. В каждом нашли конкретные моменты оценки: что тестировал человек и по какому критерию судил.

Самый интересный результат: то что люди говорят, что тестируют, совпадает с тем, что они говорят бенчмарки не измеряют. Это не случайность — это подтверждение, что vibe-тестирование существует именно потому, что заполняет реальный пробел.

Дальше исследователи взяли кодинг-задачи (HumanEval+, MBPP+), создали четыре персоны пользователей от новичка до продвинутого разработчика, и сравнили как одни и те же модели (GPT-5.1, GPT-OSS-20B, Gemini-3 Pro и другие) выглядят на оригинальных промптах vs. персонализированных. Чтобы исключить эффект простого перефразирования, добавили нейтральный контроль — те же промпты, но без персонализации. Результат: перефразирование без персонализации почти не меняло предпочтения, а персонализированные промпты с личными критериями — меняли существенно, вплоть до смены победителя.


💡

Адаптации и экстраполяции

📌

🔧 Постоянный тест-набор для новых моделей

Сохраните свои тестовые задачи и критерии в отдельном файле или чате. Каждый раз, когда выходит обновление модели или хочется сравнить новый инструмент — прогоняете одинаковые задачи. Получаете сопоставимые данные, а не каждый раз "ощущение".

🔧 Техника: именные персоны вместо абстрактных профилей → острее оценка

Вместо "опытный маркетолог" попросите модель оценить ответ от лица реального архетипа. Например: "Оцени этот ответ как Максим — директор по маркетингу среднего b2b, не любит воды и канцелярита, всегда смотрит на применимость сегодня, а не в теории". Конкретный персонаж = острее роль = полезнее оценка.


📋

Комбинация с оценкой промптов

Тот же двухчастный подход — входные + выходные измерения — работает не только для выбора модели, но и для оценки своих промптов. Прогоните один промпт в нескольких вариантах через вашу тест-задачу, оцените по личным критериям. Найдите какая формулировка даёт лучший workflow fit именно для вас.

У меня два варианта промпта для одной задачи. 
Оцени каждый по следующим критериям от 1 до 5:
- Ясность структуры ответа
- Соответствие деловому тону (без канцелярита)
- Длина (не больше 3 абзацев)
- Насколько ответ готов к публикации без правок

Промпт А: {вариант 1}
Промпт Б: {вариант 2}
Задача: {ваша задача}

Для каждого варианта: баллы по критериям + 1 предложение объяснения. 
Финальный вывод: какой промпт выигрывает и почему.

🔗

Ресурсы

Статья: "From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs" — препринт, на рецензии.

Сайт проекта: itay1itzhak.github.io/vibe-testing-llms — код и артефакты исследования.

Авторы: Itay Itzhak, Eliya Habba, Gabriel Stanovsky, Yonatan Belinkov.

Институты: Technion – Israel Institute of Technology; The Hebrew University of Jerusalem.


📋 Дайджест исследования

Ключевая суть

Парадокс: одни и те же задачи, переформулированные под новичка и под опытного разработчика — победитель среди моделей менялся на противоположного. Не шум, не случайность — системный эффект. Метод vibe-тестирования позволяет подобрать модель под свою конкретную работу, а не ориентироваться на чужие рейтинги в интернете. Фишка: критерии оценки задаются ДО теста, а не при взгляде на уже готовый ответ — именно это убирает главную ошибку: «мне кажется эта лучше, но я не могу объяснить почему». 86% пользователей чувствовали: бенчмарки не совпадают с реальной работой — теперь понятно почему.

Принцип работы

Тест делится на два профиля. Входной: что именно тестируешь — тип задачи из твоей реальной работы, уровень сложности, жёсткость ограничений, сколько контекста обычно даёшь. Выходной: по каким критериям судишь — ясность, стиль, сколько правок нужно до использования, насколько легко встроить ответ в свою работу. Бенчмарки спрашивают «ответ правильный?». Ты спрашиваешь «ответ встраивается в мой процесс без трёх правок?» Это разные вопросы — и разные победители.

Почему работает

Бенчмарки оценивают абстрактные задачи с критерием «правильно / неправильно». Твоя работа так не устроена. Ответ с парой неточностей, который сразу идёт в дело — лучше идеального ответа, который требует часа переделки. Бенчмарки это не видят. Второй момент: когда критерии задаёшь уже после просмотра ответа — оцениваешь тот ответ, который уже видел. Критерии до теста убирают этот сдвиг и дают сопоставимые результаты для всех моделей. Отсюда и работает — сравниваешь не ощущения, а одинаково измеренные результаты.

Когда применять

Регулярная профессиональная работа — редактура, написание в конкретном стиле, структурирование сложных материалов, работа с ограничениями (длина, тон, аудитория). Особенно полезно при выборе между двумя-тремя моделями для одного и того же процесса. НЕ подходит для простых, однозначных задач — «переведи слово» или «посчитай число»: там все модели справятся одинаково и тест ничего не покажет.

Мини-рецепт

1. Опиши себя модели: кто ты, что делаешь, для кого, какие задачи решаешь регулярно.
2. Попроси составить входной профиль: 3–5 конкретных тестовых задач из твоей реальной работы — с полным техническим заданием, не абстрактных.
3. Попроси составить выходной профиль: чек-лист из 5–7 критериев оценки с весами (что важнее, что менее важно). Критерии — твои: тон, длина, количество правок до публикации, стиль.
4. Прогони одни и те же задачи через все модели, которые сравниваешь.
5. Оцени по чек-листу — не по ощущению, а по каждому критерию отдельно.
6. Сохрани тест-набор. Когда выйдет новая модель — прогонишь те же задачи и сравнишь честно.

Примеры

[ПЛОХО] : Что лучше — ChatGPT или Claude? Протестируй на примере поста для соцсетей
[ХОРОШО] : Помоги составить персональный тест-набор для выбора LLM. Мой профиль: SMM-менеджер, пишу посты для telegram-каналов b2b-компаний (IT, консалтинг). Аудитория — предприниматели и руководители. Шаг 1 — входной профиль. Составь 4 тестовых задачи из моей реальной работы: генерация с нуля, переработка черновика, адаптация тона под другую аудиторию, работа с жёстким ограничением по длине. Шаг 2 — выходной профиль. Составь чек-лист из 5–6 критериев оценки с весами от 1 до 5. Мне важно: деловой тон без канцелярита, минимум правок до публикации, длина под telegram. Шаг 3 — инструкция по сравнению ChatGPT и Claude через этот набор. Модель выдаст конкретные задачи с реальными вводными, чек-лист с расставленными приоритетами и пошаговую инструкцию — как прогнать обе модели через одни задачи и сравнить не на ощущение, а по числам.
Источник: From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs
ArXiv ID: 2604.14137 | Сгенерировано: 2026-04-16 05:27

Проблемы LLM

ПроблемаСутьКак обойти
Критерии оценки придумываются после — и под тот ответ, что уже виденСначала смотришь на ответ. Потом решаешь что важно. Итог: критерии неосознанно подстраиваются под ответ, который понравился визуально. Сравнение двух моделей становится нечестным — у каждой своя "линейка"Зафикси критерии оценки ДО запуска теста. Список: тон, длина, количество правок, встраиваемость в работу. Веса: что важнее, что менее. Потом оцениваешь обе модели по одному и тому же списку

Тезисы

ТезисКомментарий
Контекст пользователя меняет, какая модель лучше — иногда на противоположнуюОдна и та же задача, переформулированная под разный контекст (новичок vs. опытный), меняет победителя в сравнении моделей. Модель, которая проигрывала на абстрактной формулировке, выигрывала на персональной — и наоборот. Работает потому что модели по-разному реагируют на уровень детализации, тон, предполагаемую аудиторию. Применяй: когда сравниваешь модели — давай им запрос со своим реальным контекстом. Без контекста сравнение бессмысленно
📖 Простыми словами

From Feelings to Metrics: Understanding and Formalizing How Users Vibe-TestLLMs

arXiv: 2604.14137

Суть в том, что мы наконец-то признали очевидное: классические бенчмарки и тесты на IQ для нейросетей — это полная туфта для реальной жизни. Исследователи ввели термин vibe-testing, и это именно то, как ты выбираешь модель на самом деле. Ты не смотришь на графики производительности, ты просто кидаешь в чат свою рабочую задачу и смотришь, «свой» это парень или нет. Это работа на уровне интуитивного соответствия, где модель оценивается не по точности формул, а по тому, насколько её «вайб» совпадает с твоим внутренним стандартом качества.

Это как выбирать сокомандника в онлайн-игре или партнёра по бизнесу. Тебе плевать, какой у него диплом или сколько подтягиваний он делает в вакууме. Тебе важно, понимает ли он твои шутки, не тупит ли в критический момент и на одной ли вы волне. Ты можешь прогнать кандидата через сотню тестов, но в итоге всё решит пятиминутный разговор, после которого ты либо скажешь «нормально, работаем», либо почувствуешь, что это какой-то кринж.

Чтобы этот процесс перестал быть гаданием на кофейной гуще, его разложили на атомы. Сначала ты задаёшь входные измерения: не просто «напиши пост», а вливаешь туда свой контекст, ограничения и специфический жаргон. Затем включаются выходные измерения: ты оцениваешь не просто текст, а его структуру, тон и готовность к внедрению. Если модель выдаёт базу, которую надо переделывать три часа, — это плохой вайб, даже если факты верны. Если она подхватывает твой стиль с полуслова — это мэтч.

Этот подход тестировали на SMM и сложных рабочих задачах, но принцип универсален. Он работает везде: от написания кода до составления планов тренировок. Мы переходим от эпохи «какая модель мощнее» к эпохе персонализированного отбора. Теперь важно не то, сколько параметров у нейронки под капотом, а то, насколько эффективно она мимикрирует под твой рабочий процесс. Бенчмарки мертвы, вайб решает всё.

Короче: хватит мучить себя таблицами сравнения моделей из интернета. Твой личный vibe-test — это единственный объективный способ понять, какая железка сэкономит тебе время, а какая просто сожрёт нервы. Формализуй свои требования, прогони их через 2-3 чата и доверяй своему чутью. Если чувствуешь, что модель лажает в деталях, которые важны именно тебе, — никакие высокие рейтинги её не спасут. Кто научится быстро «простукивать» модели на совместимость, тот и выживет в этом зоопарке технологий.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с