3,583 papers
arXiv:2601.02858 70 6 янв. 2026 г. FREE

ISDP (Inverse Socio-Demographic Prompting): обратная задача для проверки культурной осведомлённости LLM

КЛЮЧЕВАЯ СУТЬ
GPT-4o лучше угадывает страну пользователя по его реальному поведению, чем по симулированному — включая собственные симуляции. Это ломает логику: если модель генерирует стереотипы, она должна была бы лучше их распознавать. Метод ISDP позволяет проверять культурную осведомлённость LLM без генерации стереотипных ответов. Фишка: переворачивает задачу — не "представь себя из страны X и скажи что непонятно" (создание ответа), а "вот что непонятно пользователю, угадай его страну" (выбор из вариантов). GPT-4o показывает 87% точности на реальном поведении vs 79% на симулированном (собственном!), значит уловила прототипы с вариациями, а не жёсткие шаблоны.
Адаптировать под запрос

TL;DR

ISDP (Inverse Socio-Demographic Prompting) — метод проверки культурной осведомлённости LLM через обратную задачу. Вместо просьбы "представь себя пользователем из Индии и скажи, что тебе непонятно в этом тексте" (прямая задача, SDP), модели показывают реальное поведение пользователя и просят угадать его страну. Это discrimination task (выбор из вариантов) вместо generation task (создание ответа с нуля).

Когда LLM просят "веди себя как пользователь из страны X", модели выдают стереотипные ответы — все модели помечают одни и те же места как непонятные, игнорируя индивидуальные различия. Реальные пользователи из одной страны показывают гораздо более разнообразное поведение. GPT-4o, например, при прямой задаче всегда помечает "FDA" как непонятное для не-американцев, но пропускает "home run" (бейсбольный термин), даже когда история пользователя показывает незнание американской культуры. Авторы проверили: если модели генерируют стереотипы, они должны лучше угадывать страну по симулированному поведению, чем по реальному.

Результат оказался неожиданным: GPT-4o лучше угадывает страну по реальному поведению пользователей, чем по симулированному (включая собственное!). Другие модели (Gemma, Llama, Aya) действительно лучше работают со стереотипными ответами. На уровне отдельного пользователя (агрегация всех его ответов) все модели проваливаются — производительность падает до случайного угадывания, показывая пределы персонализации.

🔬

Схема метода

ФАЗА 1 (SDP): Генерация симулированного поведения
Промпт: "Ты ассистент для чтения из {страны}. Отметь непонятные места в отзыве"
→ Модель генерирует поведение для каждой страны

ФАЗА 2 (ISDP): Обратная задача
Вход: Список непонятных мест (реальные от пользователя ИЛИ симулированные)
Промпт: "Ранжируй страны по вероятности: из какой страны пользователь, которому непонятны эти фрагменты?"
→ Модель выдаёт ранжирование: 1 место = скорее всего эта страна, 3 место = вряд ли

ОЦЕНКА: Mean Reciprocal Rank (MRR)
- Сравнивают MRR на реальном vs симулированном поведении
- Три уровня агрегации: отдельный отзыв / пользователь+отзыв / все отзывы пользователя

Всё происходит через обычные промпты, не требует кода. Исследователи использовали API для массовых тестов, но метод работает в чате.

🧠

Почему это работает

Слабость прямой задачи (SDP): Когда модель генерирует ответ "от лица" культуры, у неё огромное пространство вариантов — можно написать что угодно. Это усиливает чувствительность к формулировке промпта, температуре и другим параметрам. Плюс модель склонна к упрощению — выдаёт стереотипные паттерны, которые встречались чаще в обучающих данных. Результат: все модели помечают одинаковые места, игнорируя реальное разнообразие внутри культуры.

Сильная сторона обратной задачи (ISDP): Discrimination task (выбор из вариантов) проще generation task — пространство вариантов маленькое (3 страны вместо бесконечного числа способов описать непонятность). Это снижает влияние случайных факторов. Входные данные стандартизированы — модель получает одинаковый формат независимо от того, кто их сгенерировал. Если модель действительно знает только стереотипы, она должна лучше угадывать страну по стереотипным (симулированным) ответам, чем по реальным, где люди непредсказуемы.

Главный инсайт: GPT-4o нарушила эту логику — она ЛУЧШЕ угадывает страну по реальному поведению. Это значит, что GPT-4o уловила прототипическое поведение (типичные паттерны с вариациями), а не просто стереотипы (жёсткие шаблоны). Другие модели (Gemma, Llama, Aya) лучше работают со стереотипами — возможно, обучались на данных, сгенерированных другими LLM, что усилило стереотипность. Но даже GPT-4o проваливается на уровне индивидуального пользователя — агрегация всех его ответов размывает стереотипные паттерны, и модель теряет ориентир.

🚀

Пример применения

Задача: Ты анализируешь отзывы пользователей из разных регионов о новой функции российского сервиса доставки (например, экспресс-доставка за 15 минут). Хочешь понять, какие аспекты вызывают непонимание или отторжение в разных регионах РФ. Вместо того чтобы симулировать "что подумает москвич vs житель Владивостока", используешь обратную задачу.

Промпт (ISDP):

Пользователь оставил такой отзыв о новой функции экспресс-доставки:

"Зачем вообще это нужно? У нас тут магазин через дорогу, за 15 минут я сам дойду. 
Плюс курьер вряд ли за это время приедет, учитывая расстояния. 
И зачем переплачивать 200 рублей?"

Ранжируй три региона по вероятности: из какого региона этот пользователь?
1. Москва (город с плотной застройкой, развитой инфраструктурой доставки)
2. Владивосток (город с большими расстояниями, холмистый рельеф)
3. Село в Тверской области (малая плотность населения, ограниченная логистика)

Для каждого региона объясни, почему такая вероятность.

Результат: Модель проранжирует регионы (например, "скорее всего село → Владивосток → Москва") и объяснит логику. Аргументы типа "магазин через дорогу", "расстояния", "переплата" более характерны для малых населённых пунктов, где экспресс-доставка действительно не имеет смысла. Ты получаешь обратную проверку своих гипотез о региональных различиях через призму того, как модель связывает поведение с контекстом, вместо генерации стереотипных мнений "от лица" региона.

🧠

Почему это работает (для читателя)

Когда применять обратную задачу: - У тебя есть реальные данные (отзывы, комментарии, поведение) - Хочешь проверить гипотезу о принадлежности к группе/культуре/сегменту - Нужна валидация вместо генерации предположений

Почему это лучше прямой задачи: При запросе "представь себя пользователем из X" модель выдаёт усреднённый стереотип, игнорируя вариативность внутри группы. При обратной задаче модель анализирует конкретные сигналы в реальном поведении и сопоставляет их с паттернами, что даёт более честную оценку.

Важное ограничение из исследования: На уровне индивидуального пользователя (много его разных ответов/действий) точность падает до случайной. Люди непредсказуемы — один и тот же человек может показывать противоречивое поведение. Обратная задача работает для групповых паттернов, не для персонализации.

📋

Шаблон промпта

Пользователь показал такое поведение:
{описание поведения: что сказал, что сделал, что отметил как непонятное/важное/неприятное}

Ранжируй варианты по вероятности — к какой группе относится этот пользователь:
- {Группа 1}: {краткая характеристика контекста}
- {Группа 2}: {краткая характеристика контекста}
- {Группа 3}: {краткая характеристика контекста}

Для каждой группы объясни, какие элементы поведения указывают на эту вероятность.

Что подставлять: - {описание поведения} — реальные действия/слова пользователя (отзыв, комментарий, список непонятных моментов, паттерн покупок) - {Группа 1-3} — сегменты, которые хочешь различить (страны, регионы, уровень экспертизы, возрастные группы) - {характеристика контекста} — краткое описание, почему этот сегмент может вести себя по-другому

Зачем нужны объяснения в конце: Модель не просто угадывает, а показывает связь между поведением и контекстом. Это помогает проверить, основан ли вывод на осмысленных сигналах или модель галлюцинирует.

⚠️

Ограничения

⚠️ Индивидуальная персонализация: Когда агрегируешь много разных действий одного пользователя, точность падает до случайной. Метод работает для групповых паттернов, не для предсказания "кто этот конкретный человек".

⚠️ Качество входных данных: Если поведение слишком общее ("пользователь купил хлеб"), различия между группами размываются. Нужны специфичные сигналы — культурные маркеры, региональные особенности, уровень экспертизы.

⚠️ Размер набора вариантов: Исследование тестировало 3 страны. Чем больше вариантов для ранжирования, тем сложнее задача — неясно, как масштабируется точность.

⚠️ Стереотипы остаются: Младшие модели (Gemma, Llama, Aya) лучше работают с симулированным стереотипным поведением, чем с реальным. Это значит, что они усиливают стереотипы вместо понимания разнообразия. Только GPT-4o показала способность уловить прототипическое (более гибкое) понимание культуры.

🔍

Как исследовали

Команда взяла Goodreads-CSI датасет — отзывы на английские книги от реальных пользователей из Индии, Мексики и США, где отмечены Culture-Specific Items (CSI) — фрагменты текста, непонятные людям из-за культурных различий. Например, американец понимает "FDA" или "home run", а человек из Индии может не понимать.

Дизайн эксперимента в две фазы:

Фаза 1 (SDP): Четыре модели (Aya-23, Gemma-2, GPT-4o, Llama-3.1) получали промпты типа "ты ассистент для чтения из {страны}, отметь непонятные места в отзыве". Результат — симулированное поведение: что модель считает непонятным для пользователя из каждой страны.

Фаза 2 (ISDP): Те же модели получали списки CSI (реальные от пользователей ИЛИ симулированные из Фазы 1) и ранжировали три страны: "из какой страны скорее всего пользователь, которому непонятны эти фрагменты?" Повторяли 5 раз с перемешиванием порядка стран, чтобы исключить позиционный bias. Оценка через Mean Reciprocal Rank (MRR) — метрика точности ранжирования.

Три уровня агрегации: 1. Review level — все CSI одного отзыва для всех пользователей страны 2. User + Review level — CSI конкретного пользователя для конкретного отзыва 3. User level — все CSI пользователя по всем его отзывам

Почему это интересно: Авторы ожидали, что модели будут лучше угадывать страну по своему симулированному поведению (стереотипы узнают стереотипы). Но GPT-4o показала обратное — она лучше угадывает по реальному. Krippendorff's alpha между моделями = высокий (модели согласны друг с другом, генерируют похожие стереотипы), между пользователями = ниже (реальные люди разнообразнее), между моделями и пользователями = самый низкий (модели не понимают реальное разнообразие). Вывод: GPT-4o каким-то образом уловила прототипическое поведение (типичное, но с вариациями), а не только стереотипы. Младшие модели застряли на стереотипах — возможно, обучались на данных от других LLM.

💡

Адаптации и экстраполяции

📌

🔧 Техника: Двухэтапная проверка — прямая + обратная

Сначала попроси модель сгенерировать поведение (SDP), потом проверь через обратную задачу (ISDP). Если модель уверенно угадывает обратно — ответ стереотипный. Если сомневается — ответ более нюансированный.

Пример:

ЭТАП 1 (прямая задача):
Ты продуктовый аналитик из стартапа в Екатеринбурге. Опиши, какие функции мобильного 
банка для тебя важны.

[модель генерирует ответ]

ЭТАП 2 (обратная задача):
Пользователь описал важные функции мобильного банка так:
[вставить ответ из ЭТАПА 1]

Ранжируй по вероятности:
- Продуктовый аналитик стартапа в Екатеринбурге
- Пенсионер в Краснодаре  
- IT-специалист в Москве

Если вероятность первого варианта НЕ явно выше остальных — ответ из ЭТАПА 1 был 
слишком общим (стереотипным). Переформулируй задачу с более конкретным контекстом.

Это self-check механизм — если модель не может уверенно угадать обратно, значит её первый ответ не отражал специфику группы.

⚖️

🔧 Техника: Сравнение реального и ожидаемого поведения

Когда у тебя есть реальные данные (отзыв, комментарий), используй ISDP для проверки ожиданий.

Пример:

Ты ожидаешь, что этот отзыв от {твоя гипотеза о сегменте}:

"{реальный отзыв пользователя}"

Ранжируй варианты:
- {твоя гипотеза}
- {альтернатива 1}
- {альтернатива 2}

Объясни, какие элементы отзыва поддерживают или опровергают каждый вариант.

Если модель НЕ ставит твою гипотезу на первое место — какие сигналы в отзыве 
противоречат ожиданиям?

Это полезно для аудит-гипотез о сегментации: вместо подтверждения своих ожиданий (bias), получаешь обратную связь от модели, какие реальные сигналы указывают на другие выводы.

🔗

Ресурсы

"To Generate or Discriminate? Methodological Considerations for Measuring Cultural Alignment in LLMs"

Авторы: Saurabh Kumar Pandey, Sougata Saha, Monojit Choudhury

Mohamed bin Zayed University of Artificial Intelligence


📋 Дайджест исследования

Ключевая суть

GPT-4o лучше угадывает страну пользователя по его реальному поведению, чем по симулированному — включая собственные симуляции. Это ломает логику: если модель генерирует стереотипы, она должна была бы лучше их распознавать. Метод ISDP позволяет проверять культурную осведомлённость LLM без генерации стереотипных ответов. Фишка: переворачивает задачу — не "представь себя из страны X и скажи что непонятно" (создание ответа), а "вот что непонятно пользователю, угадай его страну" (выбор из вариантов). GPT-4o показывает 87% точности на реальном поведении vs 79% на симулированном (собственном!), значит уловила прототипы с вариациями, а не жёсткие шаблоны.

Принцип работы

Не проси модель "веди себя как пользователь из страны X" — получишь стереотип. Покажи реальное поведение и попроси угадать страну. Выбор из вариантов проще создания ответа — пространство вариантов крошечное (3 страны вместо бесконечных способов описать непонятность). Это режет влияние случайных факторов. Формат: покажи что пользователь отметил как непонятное → дай список стран с контекстом → попроси проранжировать с объяснением почему.

Почему работает

Прямая задача ("симулируй культуру") усиливает стереотипы. Модель выбирает упрощённые паттерны, которые чаще встречались в обучающих данных. Все модели помечают одни и те же места как непонятные, игнорируя реальное разнообразие внутри культуры. Обратная задача стандартизирует вход — модель получает одинаковый формат независимо от того, кто сгенерировал данные. Ключевое: если модель знает только стереотипы, она должна лучше угадывать по симулированному поведению, чем по реальному. GPT-4o нарушила это правило — значит, научилась различать прототипическое поведение (типичные паттерны с вариациями), не просто жёсткие шаблоны. Младшие модели (Gemma, Llama, Aya) действительно лучше работают со стереотипами — возможно, их обучали на данных, сгенерированных другими LLM.

Когда применять

Валидация гипотез о сегментах → конкретно для анализа реального поведения пользователей (отзывы, комментарии, действия), особенно когда хочешь проверить принадлежность к культуре/региону/группе экспертизы без генерации предположений. Работает для групповых паттернов, не для персонализации. НЕ подходит для индивидуального уровня: когда агрегируешь много действий одного человека, точность падает до случайной — люди непредсказуемы, один человек показывает противоречивое поведение.

Мини-рецепт

1. Собери реальное поведение: Что пользователь сказал/сделал/отметил как непонятное. Нужны специфичные сигналы, не общие действия типа "купил хлеб".
2. Опиши группы с контекстом: Перечисли 3-5 сегментов (страны, регионы, уровни экспертизы) + краткая характеристика, почему каждый сегмент может вести себя по-другому.
3. Попроси проранжировать с объяснениями: "Ранжируй варианты по вероятности — к какой группе относится этот пользователь. Для каждой объясни, какие элементы поведения указывают на эту вероятность." Объяснения показывают, основан ли вывод на осмысленных сигналах или модель галлюцинирует.

Примеры

[ПЛОХО] : "Представь себя пользователем из Владивостока. Прочитай отзыв о функции экспресс-доставки за 15 минут и скажи, что тебе кажется странным."
[ХОРОШО] : "Пользователь оставил отзыв: 'Зачем это нужно? У нас магазин через дорогу, за 15 минут сам дойду. Плюс курьер вряд ли приедет, учитывая расстояния. И зачем переплачивать 200 рублей?' Ранжируй три региона по вероятности: 1) Москва (плотная застройка, развитая доставка), 2) Владивосток (большие расстояния, холмы), 3) Село в Тверской области (малая плотность, ограниченная логистика). Объясни для каждого, какие фразы указывают на эту вероятность."
Источник: To Generate or Discriminate? Methodological Considerations for Measuring Cultural Alignment in LLMs
ArXiv ID: 2601.02858 | Сгенерировано: 2026-01-07 05:23
📖 Простыми словами

ISDP (Inverse Socio-Demographic Prompting): обратная задача для проверки культурной осведомлённости LLM

arXiv: 2601.02858

Суть в том, что современные нейронки — те еще лицемеры, когда дело касается культуры. Если ты просишь модель «представь, что ты японец, и оцени этот текст», она включает режим стереотипного симулятора и выдает то, что чаще всего видела в интернете, а не реальный культурный код. Проблема в самой механике генерации: у модели слишком много свободы, она выбирает самый очевидный путь и в итоге просто галлюцинирует шаблонами. Исследователи поняли, что спрашивать в лоб бесполезно, и придумали метод ISDP — проверку «от обратного».

Это как если бы ты пришел к сомелье. Вместо того чтобы просить его «опиши вино как француз», ты даешь ему бокал и просишь угадать регион. В первом случае он может просто нести пафосную чушь, которую выучил по учебникам. Во втором — ему придется реально использовать свои знания, чтобы дискриминировать, то есть отличить один вариант от другого. Если модель не может угадать страну по реальному отзыву жителя, значит, ни черта она в этой культуре не понимает, сколько бы красивых текстов «от лица» иностранца она ни генерировала.

Метод ISDP (Inverse Socio-Demographic Prompting) переводит задачу из режима сочинения в режим теста. Вместо того чтобы плодить сущности, модель должна сопоставить реальное поведение человека с его бэкграундом. Это работает, потому что задача распознавания всегда сложнее и честнее, чем простое подражание. Когда пространство вариантов ограничено конкретными странами или регионами, модели гораздо труднее спрятаться за общими фразами. Либо она видит тонкие нюансы в тексте, либо тычет пальцем в небо.

Этот подход — спасение для любого глобального продукта. Тестировали его на культурных различиях, но принцип универсален: его можно натравить на поиск региональных болей или даже профессионального сленга. Если ты хочешь понять, поймут ли твою фичу во Владивостоке так же, как в Москве, не проси нейронку «побыть жителем Приморья». Дай ей реальные фидбеки и заставь угадать локацию. Если модель лажает и не видит разницы, значит, твоя культурная адаптация — это просто перевод слов, а не смыслов.

Короче, пора перестать верить моделям на слово, когда они притворяются кем-то другим. Прямая симуляция — это пустышка и набор стереотипов, которые только путают разработчиков. Нужно использовать дискриминативные задачи, чтобы вытащить из LLM реальные знания, а не их имитацию. Либо модель способна отличить одну культуру от другой на практике, либо все её советы по локализации — полная фигня, которую опасно пускать в продакшн.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с