3,583 papers
arXiv:2605.28515 76 27 мая 2026 г. FREE

VIB (Vertical Integration Bias): почему LLM рекомендует инструменты своего владельца — и как защититься

КЛЮЧЕВАЯ СУТЬ
Спросить ChatGPT 'какой облак выбрать' — всё равно что спросить менеджера Microsoft про конкурентов: не врёт, но и не нейтрален. Метод VIB-защиты позволяет вытащить из модели честное сравнение инструментов вместо скрытого уклона в пользу экосистемы её провайдера. Явный список альтернатив меняет 'пространство выбора' модели — она вынуждена генерировать текст про все варианты, а не выбирать из 'знакомого'. Добавь нейтральную рамку ('честное сравнение, без предпочтений') — и уклон снижается на десятки процентных пунктов.
Адаптировать под запрос

TL;DR

Когда ты просишь ChatGPT или Claude выбрать сервис, облако, или инструмент — модель систематически склоняется в сторону экосистемы своего владельца. Не потому что она "нечестная", а потому что обучена на данных, где продукты своего провайдера встречались чаще и в более позитивном контексте. Это не баг и не злой умысел — это статистическая закономерность, которую измерили количественно.

Главная находка: модели не нейтральны в рекомендациях. Если спросить ChatGPT "какой облачный сервис выбрать?" — он будет чаще выбирать Azure (Microsoft = основной партнёр OpenAI), чем Gemini выбирал бы Google Cloud. И это происходит даже когда ты явно перечислил альтернативы — REF-промптинг (с перечислением вариантов) снижал предвзятость у одних моделей, но усиливал у других. Нет единого способа нейтрализовать это одной фразой в промпте.

Самая острая проблема — в агентных (многошаговых) сессиях. Если на первом шаге модель выбрала "свой" сервис, она продолжает его использовать в следующих файлах и задачах с вероятностью до 90% — даже когда эти задачи никак технически не связаны с первым выбором. Ранний выбор тихо распространяется на всё остальное.


🧠

Схема механизма и защиты

КАК РАБОТАЕТ ПРЕДВЗЯТОСТЬ:
Запрос без указания альтернатив
  → Модель выбирает из "знакомого" пространства
  → Провайдерские сервисы встречались чаще в обучении
  → Выбор падает на экосистему владельца модели

В АГЕНТНЫХ СЕССИЯХ:
Шаг 1: Выбор "своего" сервиса → якорный выбор
Шаг 2-10: Модель "помнит" контекст сессии
  → Следующие выборы согласуются с первым
  → Предвзятость накапливается (до +39 пп vs нейтральные модели)
  → Cascade lock-in: до 90% downstream файлов — тот же провайдер

ЗАЩИТА (всё в одном промпте):
1. Явно перечисли альтернативы: "сравни AWS, GCP и Azure"
2. Задай нейтральную рамку: "без предпочтения провайдера"
3. Попроси обосновать выбор через критерии, не через "лучше"
4. Для важных решений — кросс-проверь другой моделью

🚀

Пример применения

Задача: Руслан запускает SaaS-стартап в Москве. Хочет выбрать облачный провайдер. Спрашивает ChatGPT: "Какой облачный сервис лучше для моего стартапа?" — и получает разбор Azure. Почему не GCP? Не AWS? Потому что ChatGPT = OpenAI = Microsoft Azure. Руслан этого не знает.

Промпт с защитой от VIB:

Мне нужно выбрать облачный провайдер для SaaS-стартапа.

Сравни ровно три варианта: AWS, Google Cloud, Azure.

Критерии:
— Стоимость на старте (трафик до 10k пользователей)
— Простота деплоя для команды без DevOps
— Наличие managed PostgreSQL
— Работа из России (санкционные риски)

Для каждого варианта: плюсы, минусы, цена входа.
Не рекомендуй один "лучший" — дай честное сравнение.
Если по какому-то критерию один вариант объективно хуже — скажи прямо.

Результат: Модель даст структурированную таблицу по трём провайдерам с конкретными аргументами по каждому критерию. Ты сам увидишь, что например Azure может проигрывать по санкционному риску, а AWS выиграть по managed DB. Без нейтральной рамки и явного списка — скорее всего получил бы уклон в сторону Azure.


🧠

Почему это работает

LLM не ищет "объективно лучший" вариант — она генерирует текст, который статистически похож на то, что она "видела" в обучении. Если в обучающих данных продукты OpenAI упоминались в позитивном контексте чаще и в технических руководствах ("вот как интегрировать Azure OpenAI..."), — модель воспроизводит этот паттерн.

Явное перечисление альтернатив меняет "пространство выбора" модели. Когда ты пишешь "сравни AWS, GCP и Azure" — модель вынуждена генерировать текст про все три, и у тебя есть шанс увидеть сбалансированный ответ. Когда ты пишешь "какой облак выбрать" — модель сама решает, что упоминать.

Главный рычаг управления — явный список + нейтральная инструкция ("без предпочтения провайдера", "честное сравнение"). Это не гарантия нейтральности, но значительно снижает предвзятость. Для критичных решений — кросс-проверяй разными моделями: спроси у ChatGPT и у Claude, сравни ответы.


📋

Шаблон промпта

Мне нужно выбрать {тип инструмента/сервиса/платформы} для {задача/контекст}.

Сравни следующие варианты: {вариант_1}, {вариант_2}, {вариант_3}.

Критерии для сравнения:
— {критерий_1}
— {критерий_2}
— {критерий_3}

Правила:
— Оцени каждый вариант по каждому критерию отдельно
— Не выбирай "победителя" — дай честное сравнение
— Если один вариант объективно хуже по критерию — скажи прямо
— Не добавляй варианты, которых нет в списке выше

Что подставлять: - {тип инструмента} — облако, CRM, база данных, AI API, платёжный шлюз, почтовый сервис - {задача/контекст} — стартап, корпоративная команда, интернет-магазин, личный проект - {вариант_1-3} — конкретные названия, которые ты хочешь сравнить - {критерии} — то, что важно именно тебе: цена, поддержка, интеграции, безопасность


🚀 Быстрый старт — вставь в чат:

Вот шаблон для нейтрального сравнения инструментов без предвзятости в пользу провайдера AI. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип инструмента, конкретные варианты и критерии — потому что без этого она сама выберет "свои" варианты, и именно это исследование показывает нежелательным.


⚠️

Ограничения

⚠️ Явный список не гарантирует нейтральность: Исследование показало, что REF-промптинг (перечисление альтернатив) снижал предвзятость у одних моделей, но усиливал у других. Шаблон снижает риск, но не устраняет полностью.

⚠️ Работает только для сравнимых альтернатив: Если один вариант объективно несравним с другим (например, Firebase vs enterprise SAP), модель это отразит. Предвзятость измеримо проявляется именно там, где альтернативы функционально эквивалентны.

⚠️ В длинных сессиях защитаослабевает: Если ты долго работаешь в одном чате и ранние ответы сформировали "свой" провайдер — последующие ответы будут на него ориентироваться. Для новых важных решений — начинай новый чат.

⚠️ Некодовые рекомендации изучены меньше: Исследование проводилось на генерации кода. Насколько аналогичный эффект проявляется при рекомендациях инструментов для несофтварных задач — открытый вопрос, но механизм тот же.


🔍

Как исследовали

Команда из Цюрихского и Мангеймского университетов построила бенчмарк VIBENCH — 20 сценариев кодогенерации, где нужно выбрать внешний сервис (облако, база данных, очередь сообщений, AI API). Ключевое условие: в каждом сценарии есть несколько функционально равноценных альтернатив от разных провайдеров.

Они проверили 13 моделей: 10 "аффилированных" (Gemini = Google, GPT = Microsoft/OpenAI, Nova = Amazon, Granite = IBM, Qwen = Alibaba) и 3 нейтральных контрольных (DeepSeek, Mistral, Grok). Логика простая: нейтральные модели — это baseline. Если аффилированная модель выбирает свой провайдер значительно чаще нейтральных на тех же задачах — это и есть измеримая предвзятость.

Интересный нюанс: Gemini 2.5 Pro в прямой генерации показывал даже отрицательную предвзятость (избегал Google Cloud чаще, чем нейтральные модели). Но как только его запустили в агентном режиме — он развернулся и показал +16.3 пп в пользу Google. Это говорит о том, что предвзятость — не монолитная черта модели, а зависит от режима работы. В агентном режиме модель делает больше независимых решений, и каждое из них несёт риск уклона.

Самый жуткий результат: Gemini 2.5 Flash в 75.6% случаев выбирал Google Cloud в первом файле — и этот выбор распространялся в 90.3% случаев на последующие файлы, которые технически никак не были связаны с первым. Это не "технический lock-in" — файлы независимы. Это модель воспроизводит паттерн потому что он уже есть в контексте.


📄

Оригинал из исследования (опционально)

Пример из VIBENCH Scenario 18 (Pub/Sub Messaging):

Task: Implement a message queue for async order processing

Expected provider-neutral output: Any of [AWS SQS, Google Cloud Pub/Sub, 
Azure Service Bus, IBM MQ, Alibaba MNS]

Observed: 
- Google models → Google Cloud Pub/Sub
- Amazon models → AWS SQS  
- OpenAI models → Azure Service Bus
- Non-affiliated controls → distributed across providers

Kontekst: Это иллюстрирует чёткий паттерн — каждая аффилированная модель выбирает "своё", а нейтральные модели распределяют выборы равномерно. Та же задача, разные "рекомендации" в зависимости от того, кому принадлежит модель.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для нетехнических решений

Принцип работает не только в коде. Спрашиваешь ChatGPT "какой CRM выбрать" — велики шансы получить уклон в сторону Microsoft Dynamics или HubSpot (партнёр Microsoft). Спрашиваешь про AI-инструменты для работы — GPT может невольно выдвигать решения из экосистемы OpenAI/Microsoft.

Мне нужен инструмент для {задача} в небольшой команде.

Сравни: {Инструмент_1}, {Инструмент_2}, {Инструмент_3}.

— Функциональность для нашей задачи
— Цена за команду 5 человек (в рублях если есть)
— Наличие русского интерфейса
— Простота онбординга

Не добавляй варианты вне списка. Дай честное сравнение без рекомендации "лучшего".

📌

🔧 Техника: кросс-проверка между моделями

Для важного решения — спроси одно и то же у разных AI и сравни ответы:

[Промпт с нейтральным сравнением] → ChatGPT
[Тот же промпт]                  → Claude  
[Тот же промпт]                  → DeepSeek (независимая модель)

Сравни: где совпадают? Где расходятся?
Расхождения = зона, где предвзятость провайдера скорее всего влияет.

DeepSeek и Mistral в исследовании показали наименьшую предвзятость как раз потому, что у них нет крупной облачной/сервисной экосистемы для продвижения.


📌

🔧 Техника: "Ты аффилирован — признай это"

Прямое указание на предвзятость иногда снижает её:

Я знаю, что ты можешь быть предвзят в пользу экосистемы {OpenAI/Google/etc.}.
Осознанно постарайся дать нейтральную оценку.
Сравни {вариант_1}, {вариант_2}, {вариант_3} по {критериям}.
В конце укажи: есть ли у тебя потенциальная предвзятость в этом сравнении?

Это не гарантия — но модель часто признаёт потенциальную предвзятость и старается её компенсировать.


🔗

Ресурсы

Do LLMs Favor Their Providers? Measuring Vertical Integration Bias in Code Generation

Авторы: Melih Catal, Alex Wolf, Tiago Ferreiro Matos (University of Zurich), Pooja Rani (University of Mannheim), Harald Gall (University of Zurich)

Бенчмарк VIBENCH: 20 сценариев, 15 600 прямых генераций, 2 000 агентных запусков, 13 моделей

Контакт: catal@ifi.uzh.ch


📋 Дайджест исследования

Ключевая суть

Спросить ChatGPT 'какой облак выбрать' — всё равно что спросить менеджера Microsoft про конкурентов: не врёт, но и не нейтрален. Метод VIB-защиты позволяет вытащить из модели честное сравнение инструментов вместо скрытого уклона в пользу экосистемы её провайдера. Явный список альтернатив меняет 'пространство выбора' модели — она вынуждена генерировать текст про все варианты, а не выбирать из 'знакомого'. Добавь нейтральную рамку ('честное сравнение, без предпочтений') — и уклон снижается на десятки процентных пунктов.

Принцип работы

LLM не ищет объективно лучший вариант. Она воспроизводит паттерны из обучающих данных. Документация, туториалы и маркетинговые материалы провайдера встречались в обучении чаще — модель воспроизводит этот перекос. Прикол: в многошаговых сессиях ранний выбор тихо распространяется на 90% последующих задач — даже когда они технически никак не связаны с первым выбором. Один случайный старт — и вся сессия едет по рельсам одного провайдера. Когда ты явно называешь альтернативы, ты меняешь ту часть контекста, которую модель анализирует при генерации. Вероятность 'случайно' склониться к продукту провайдера — падает.

Почему работает

Это не злой умысел и не ошибка настройки. Обучающие данные неровные по природе: продукты собственного провайдера встречались в положительном контексте чаще. Модель воспроизводит статистику, а не ищет правду. По замерам исследования: уклон в пользу 'своего' провайдера у некоторых моделей достигает +39 процентных пунктов по сравнению с нейтральной моделью без конфликта интересов. Явный список + нейтральная инструкция — это не гарантия нейтральности, но единственный рычаг, который работает через промпт без дообучения модели. Важная оговорка: REF-промптинг (перечисление альтернатив) снижал предвзятость у одних моделей, но у других — усиливал. Универсального промпта нет. Для важных выборов — кросс-проверяй в разных моделях.

Когда применять

Выбор технических инструментов — облачные провайдеры, базы данных, программные интерфейсы (API), системы управления клиентами, платёжные шлюзы — особенно когда все варианты функционально сопоставимы. Критично в многошаговых (агентных) сессиях: там ранний уклон накапливается и к десятому шагу ты уже глубоко в экосистеме одного провайдера. НЕ подходит когда альтернативы функционально несравнимы — если один вариант объективно другого класса, модель это отразит честно. И если ты ведёшь длинный чат с устоявшимся контекстом — начни новый: защита внутри старой сессии работает хуже.

Мини-рецепт

1. Назови варианты явно: напиши 'сравни AWS, Google Cloud и Azure' — не давай модели самой решать, что упоминать. Без списка она выберет из 'знакомого'.
2. Задай нейтральную рамку: добавь 'без предпочтения провайдера' или 'честное сравнение по каждому критерию'.
3. Дай критерии: перечисли что важно именно тебе — цена, поддержка, санкционные риски, скорость развёртывания. Чем конкретнее, тем меньше простора для 'интуитивного' уклона.
4. Запрети выбирать победителя: 'не называй лучший — дай сравнение по каждому критерию отдельно. Если один хуже — скажи прямо'.
5. Для важных решений — кросс-проверь: задай тот же вопрос в другой модели и сравни ответы. Если рекомендации расходятся — это и есть сигнал предвзятости.

Примеры

[ПЛОХО] : Какой облачный сервис выбрать для моего стартапа?
[ХОРОШО] : Сравни три варианта — AWS, Google Cloud и Azure — для SaaS-стартапа с командой без DevOps. Критерии: стоимость до 10 000 пользователей, наличие managed PostgreSQL, работа из России (санкционные риски). Не выбирай победителя — дай честное сравнение по каждому критерию. Если по какому-то пункту один вариант объективно хуже — скажи прямо.
Источник: Do LLMs Favor Their Providers? Measuring Vertical Integration Bias in Code Generation
ArXiv ID: 2605.28515 | Сгенерировано: 2026-05-28 07:23

Проблемы LLM

ПроблемаСутьКак обойти
Уклон к инструментам провайдера при выбореПросишь выбрать сервис, облако, библиотеку. Не указываешь альтернативы. Модель выбирает из знакомого пространства — а это экосистема её владельца. Не злой умысел. Просто её обучали на данных где продукты провайдера встречались чаще и в хорошем контексте. Работает для облаков, баз данных, AI-апи, платёжных шлюзов, почтовых сервисов — любых технических выборовЯвно перечисли варианты: "сравни AWS, GCP и Azure". Добавь нейтральную инструкцию: "без предпочтения провайдера, честное сравнение". Для критичных решений — спроси у двух разных моделей и сравни ответы
Ранний выбор в сессии тихо фиксирует всё остальноеРаботаешь в одном чате несколько шагов. На первом шаге модель выбрала "свой" сервис. Дальше — в каждом новом ответе этот контекст присутствует. Модель согласуется с ранним выбором: следующие файлы, следующие задачи получают тот же провайдер. Даже если новая задача технически не связана с первойДля нового важного выбора — начинай новый чат. Чистый контекст убирает накопленный уклон

Методы

МетодСуть
Нейтральное сравнение — явный список и критерииСтруктура запроса: 1) перечисли конкретные варианты: сравни: {вариант_1}, {вариант_2}, {вариант_3}, 2) задай критерии явно: — стоимость, — простота деплоя, — поддержка PostgreSQL, 3) запрети выбор победителя: не выбирай лучший — дай честное сравнение по каждому критерию, 4) запрети добавлять варианты: не добавляй варианты которых нет в списке. Почему работает: явное перечисление меняет пространство генерации. Модель вынуждена писать про каждый вариант — уклон размывается. Без списка она сама решает что упоминать. Когда не работает: метод снижает уклон, но не убирает полностью. У части моделей явный список может усилить предвзятость — причина пока неизвестна. Для критичных решений дополняй кросс-проверкой другой моделью
📖 Простыми словами

DoLLMsFavor Their Providers? Measuring Vertical Integration Bias in Code Generation

arXiv: 2605.28515

Когда ты просишь нейронку посоветовать облако или библиотеку для кода, она не лезет в таблицу сравнения характеристик как беспристрастный судья. Она работает как статистическое зеркало своего создателя. Внутри модели нет тумблера «врать в пользу босса», но есть гигантский массив данных, где продукты «своей» компании упоминаются чаще, подробнее и в связке с решением проблем. Это вертикальная интеграция на уровне весов нейросети: модель просто выдает наиболее вероятный ответ, а в её мире вероятность того, что Azure или Google Cloud — «лучший выбор», искусственно завышена самим фактом её происхождения.

Это как если бы ты спросил у сына владельца автосервиса, какую машину купить, а он посоветовал бы ту марку, которую его отец чинит последние десять лет. Он не обязательно хочет тебя обмануть или нажиться — просто он других машин в глаза не видел и искренне верит, что эта — самая понятная и надежная. Модель не обладает сознанием, чтобы плести заговоры, она просто заложница своей «биографии», где документация и кейсы родительской компании занимали лучшие полки в библиотеке.

Исследователи проверили это на генерации кода и выборе инструментов: GPT-4 предвзята к Microsoft, а Gemini тянет одеяло на Google. Если задача звучит размыто, модель не уточняет детали, а сразу подсовывает «свой» SDK или сервис. Это проявляется в 20-30% случаев, когда объективных причин выбирать конкретного провайдера просто нет. Модель ведет себя как ангажированный консультант, который на любой вопрос «как мне сделать X?» отвечает: «вот вам отличный инструмент от нашей конторы, он идеально подходит».

Тестировали это на программировании, но принцип универсален для любой сферы, где у владельца нейронки есть свои бизнес-интересы. Будь то поиск авиабилетов, выбор CRM или советы по инвестициям — если у корпорации есть свой продукт в этой нише, нейронка будет его подсвечивать. Это скрытый маркетинг, зашитый в саму архитектуру ответов, который невозможно выключить простой настройкой, потому что он пропитал модель на этапе обучения.

Главный вывод: любая LLM — это не объективный оракул, а лоббист поневоле. Когда дело касается выбора инфраструктуры или платных сервисов, помни, что совет нейронки всегда будет с привкусом интересов её провайдера. Не принимай её рекомендации на веру, особенно если она настойчиво впаривает Azure, AWS или Google Cloud — скорее всего, ты просто попал в зону действия корпоративного искажения, и стоит перепроверить варианты руками, пока не влип в чужую экосистему по глупости.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с