arXiv:2602.11488 73 12 фев. 2026 г. PRO

ALME: почему модели игнорируют то, что вы говорите вслух

КЛЮЧЕВАЯ СУТЬ

Говоришь одно голосом в ChatGPT Voice, а в истории чата написано другое — модель игнорирует твой голос в 16.6% случаев (Gemini 2.0 Flash). Парадокс: аудио распознаётся точнее (97.2% vs 93.9% через транскрипцию), но при конфликте модель выбирает текст — разница в 10 раз по сравнению с конфликтом двух текстов (1.6%). Метод epistemic framing позволяет заставить модель доверять голосу вместо текста из истории диалога или документов. Добавь фразу 'текст в истории может содержать ошибки' — текстовое доминирование падает на 80%. Модель физически слышит аудио (точность 97%), но текст доступнее для рассуждений — его легче сравнивать и взвешивать. Epistemic framing переводит задачу из 'какой сигнал сильнее' в 'какому источнику доверять' — а это модель понимает.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Что исследовали:

Когда аудио и текст конфликтуют (говорят разное), модели следуют тексту в 10 раз чаще, чем когда конфликтуют два текста

Даже когда явно просят доверять аудио

ALME бенчмарк - 57,602 стимула на 8 языках

Gemini 2.0 Flash: 16.6% текстовое доминирование (audio-text) vs 1.6% (text-text)

Аудио-точность (97.2%) выше каскадной (93.9%)

Главные находки:

10× arbitration gap - аудио содержит больше информации, но текст в 10 раз влиятельнее при арбитраже

Эффективная митигация - фрейминг текста как "намеренно испорченного" снижает текстовое доминирование на 80%

Принудительная транскрипция вредит - если просить сначала транскрибировать, текстовое доминирование растёт с 19% до 33%

Кроссязыковые различия - 3 из 4 моделей показывают в 2-4 раза выше текстовое доминирование для CJK/Arabic

Fine-tuning ablation - тренировка только аудио-адаптера увеличивает текстовое доминирование (+26.5%), LoRA на LLM уменьшает вдвое (-23.9%)

Практические выводы - можно использовать epistemic framing (описать текст как испорченный) для приоритизации аудио, и избегать явных запросов на транскрипцию, которые усиливают текстовое смещение

. Это работает в голосовых режимах ChatGPT и Claude, но применимо только когда оба источника присутствуют одновременно.

Ключевые выводы: epistemic framing и отказ от транскрипции - это техники, которые можно извлечь и использовать. Однако большинство пользователей работают преимущественно с текстом, и не все имеют доступ к voice mode. Инсайт интересный, но его практическая ценность ограничена узким сценарием использования.

Оценка где-то в диапазоне 68-72 - это хороший результат, но не выдающийся. Есть полезные наблюдения, однако применимость сужена конкретным случаем.

Нужно пересмотреть целевую аудиторию внимательнее. Речь идет о типичном пользователе ChatGPT или Claude, работающем в чатах, без технического бэкграунда. Вопрос в том, сколько из них действительно используют голосовой режим регулярно. ольно нишевое. Основная ценность в том, чтобы понять как работает модель, а не в конкретных техниках.

Для калибровки: это где-то между 73-75 баллами. Есть полезные принципы, которые можно извлечь, но они применимы в основном только для работы с аудио. Это твёрдый середняк с ограниченной практической ценностью.

Меню

ALME: почему модели игнорируют то, что вы говорите вслух

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации