3,583 papers
arXiv:2607.00447 78 1 июля 2026 г. FREE

Ловушка ассоциаций: LLM знает правильный ответ — и всё равно выбирает неправильный

КЛЮЧЕВАЯ СУТЬ
Парадокс: задай вопрос отдельно — модель ответит правильно. Вставь тот же факт в задачу с привычным паттерном — ошибётся. Это не провал памяти. Это провал выбора: модель пошла по слишком громкой ассоциации и не заметила реальное ограничение рядом. Метод принудительного выделения позволяет решать задачи, где есть нестандартное условие, скрытое за очевидным ответом. Фишка: одна инструкция в начале промпта — «назови решающее ограничение до ответа» — переключает модель с привычной тропинки на реальный контекст задачи. Модель сама ставит себе флаг на правильной ветке — и только потом начинает отвечать.
Адаптировать под запрос

TL;DR

Модели галлюцинируют не от незнания, а от неверного выбора пути рассуждения. Когда в промпте есть статистически "громкая" ассоциация — например, "50 метров" сразу тянет к ответу "идти пешком" — модель идёт по ней, даже если в промпте есть решающее ограничение, которое меняет всё.

Исследователи проверили: модель часто знает нужный факт, но не использует его. Попросите её отдельно — ответит правильно. Вставьте тот же факт в задачу с сильным конкурирующим паттерном — ошибётся. Это не провал памяти. Это провал выбора: не та нить потянулась из клубка.

Из этого вырастают два конкретных сценария ошибок. Первый: модель цепляется за самый частотный признак в задаче вместо нужного ("50 метров" вместо "автомойка требует машину"). Второй: модель игнорирует отрицание, если позитивная ассоциация слишком сильная ("НЕ сформулировал теорию относительности" → всё равно выбирает Эйнштейна, потому что связь "Эйнштейн + теория относительности" встречалась в обучении миллионы раз).


📌

Схема двух провалов

ПРОВАЛ 1: Ключ-подмена (Key-Selection Bias)
Модель смотрит на НЕПРАВИЛЬНЫЙ ключ:
"50 метров" → (доминирующий паттерн: короткое расстояние = пешком)
Вместо: "автомойка" → (нужен автомобиль)
Итог: советует идти пешком на автомойку без машины ✗

ПРОВАЛ 2: Задача-подмена (Task-Retrieval Bias)  
Модель смотрит на ПРАВИЛЬНЫЙ ключ, но тянет не ту задачу:
"теория относительности" → (доминирующий паттерн: Эйнштейн)
Несмотря на: "НЕ сформулировал" → (нужно исключить Эйнштейна)
Итог: всё равно выбирает Эйнштейна ✗

🚀

Пример применения

Задача: Вы пишете промпт для Клода, чтобы он помог выбрать канал коммуникации с клиентом.

Типичная ошибка, которую допускает модель:

Клиент написал в Telegram в 23:30. Сообщение короткое — один вопрос 
про стоимость. Как мне ответить: сейчас или утром?

Модель с высокой вероятностью скажет: "Ответьте утром — ночью беспокоить клиента не стоит."

Но если в задаче есть скрытое решающее ограничение — например, клиент написал в рамках срочного тендера, который закрывается в полночь — модель проигнорирует его, потому что паттерн "ночь → не беспокоить" слишком доминирующий.

Промпт с явным выделением решающего ограничения:

Прежде чем ответить — выдели одной фразой главное ограничение 
этой задачи, которое определяет правильный ответ.

Затем ответь, опираясь ТОЛЬКО на это ограничение.

Задача: Клиент написал в Telegram в 23:30. Тендер на 2 млн рублей 
закрывается в 00:00. Клиент спрашивает финальную цену. 
Как мне ответить — сейчас или утром?

Результат:

Модель сначала артикулирует решающее ограничение: "Тендер закрывается через 30 минут." Это вытаскивает нужный ключ на поверхность до генерации ответа. Затем отвечает, опираясь именно на него, а не на общий паттерн "ночь → не беспокоить".


🧠

Почему это работает

Слабость LLM: Во время обучения модель видела миллионы текстов. Некоторые паттерны встречались так часто, что их "вес" в нейросети стал огромным. "Короткое расстояние" почти всегда означало "иди пешком". "Теория относительности" почти всегда означала "Эйнштейн". Эти ассоциации не плохие — они правильные в 95% случаев. Но в оставшихся 5% они перекрывают сигнал от реального ограничения в промпте.

Сильная сторона LLM: Модель хорошо справляется с задачей, если правильный ключ уже выведен явно. Если в промпте написано "Тендер закрывается через 30 минут — это главное ограничение. Отвечать сейчас или утром?" — вероятность ошибки резко падает. Модель не "находит" нужный ключ сама в конкурентной среде. Но она прекрасно его использует, если он уже выделен.

Как метод обходит слабость: Инструкция "сначала выдели решающее ограничение одной фразой" заставляет модель пройти по нужной ветке рассуждений до того, как она начнёт генерировать ответ. Это не гарантия, но значительно снижает риск — модель сама себе "ставит флаг" на правильном ключе.

Рычаги управления: - Добавь "игнорируя общие правила" → помогает при задачах, где стандартный паттерн явно неверен - Попроси проверить отрицание → при задачах с "не", "кроме", "за исключением" — отдельно спроси: "что именно исключается?" - Раздели на два запроса → сначала "какой факт здесь решающий?", потом "ответь на вопрос" — ещё надёжнее для критичных задач


📋

Шаблон промпта

Перед ответом — выдели ОДНОЙ фразой решающее ограничение задачи. 
То условие, которое отличает правильный ответ от интуитивно 
очевидного.

Затем ответь, опираясь именно на него.

Задача: {задача}

{при необходимости}: Обрати особое внимание на {элемент с отрицанием 
или нестандартным ограничением}.

Что подставлять: - {задача} — вопрос с неочевидным условием, где есть "ловушка привычного паттерна" - {элемент с отрицанием} — любая конструкция типа "не", "кроме", "несмотря на", "за исключением"

Работает в обычном чате — никакого кода.

🚀 Быстрый старт — вставь в чат:

Вот шаблон для задач, где важно не попасться на очевидный паттерн. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы понять ситуацию.

[вставить шаблон выше]

LLM спросит, в чём именно ловушка привычного ответа и что является решающим ограничением — потому что ей нужно выделить правильный ключ, прежде чем отвечать.


⚠️

Ограничения

⚠️ Техника снижает, не устраняет: При очень сильных ассоциациях (типа "Эйнштейн + теория относительности") даже явное выделение ограничения иногда не помогает — почти у всех протестированных моделей сохранялись ошибки.

⚠️ Рассуждающие режимы помогают, но не спасают: Модели с включённым "думательным" режимом (о1, DeepSeek-R1) ошибались реже, но тоже ошибались — особенно на задачах с сильным конкурирующим паттерном.

⚠️ Модель не знает, что она не знает: Модель не сигнализирует о неуверенности. Она отвечает с одинаковой уверенностью и когда права, и когда попалась в ловушку ассоциации.

⚠️ Отрицание в промпте — зона повышенного риска: Любая конструкция "не", "кроме", "за исключением" с известным объектом резко повышает вероятность ошибки. Это не случайность — это системное следствие устройства обучения.


🔍

Как исследовали

Команда из Университета Висконсин-Мэдисон построила хитрую ловушку: сначала задавали вопросы напрямую ("Что открыл Энрико Ферми?") и проверяли, знает ли модель факты изолированно. Затем встраивали те же факты в задачи с сильным конкурирующим паттерном — и смотрели, упадёт ли точность.

Результат оказался системным: модели отвечали правильно на изолированные факты, но ошибались на тех же фактах в контексте конкурирующей ассоциации. Это убедительно доказало, что дело не в незнании — а в выборе неверного пути рассуждений.

Тестировали 2 925 вопросов о похожих учёных и 500 бытовых сценариев на GPT, Claude, Gemini и DeepSeek. Разброс ошибок впечатляет: у DeepSeek — 36% промахов на бытовых задачах, у Gemini — 3.6%. Самая показательная деталь: модели ошибались даже тогда, когда могли правильно ответить на оба вспомогательных вопроса по отдельности — но не применяли эти знания в связке.


📄

Оригинал из исследования

"I want to go to a car wash. The car wash is only 50 meters away. 
Should I walk there or drive there?"

Контекст: Пример key-selection bias из раздела 3.3. "50 метров" — статистически доминирующий ключ (короткое расстояние = пешком). Но задача "автомойка" требует автомобиль. Модели называют ответ "идти пешком".


"A physicist and university teacher made major contributions to modern 
physics, but did not formulate the theory of special relativity."
[Выбор: Энрико Ферми или Альберт Эйнштейн]

Контекст: Пример task-retrieval bias из раздела 3.3. Ограничение "не сформулировал теорию относительности" однозначно исключает Эйнштейна. Но ассоциация "специальная теория относительности → Эйнштейн" настолько доминирующая, что модели игнорируют отрицание.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: задачи с отрицанием — двухшаговый запрос

На задачах с конструкциями "не", "кроме", "за исключением" — разбивай на два запроса:

Запрос 1:
Что именно исключается условием "{цитата ограничения}" в этой задаче?
Задача: {задача}

Запрос 2:
Теперь ответь на задачу, помня что {результат запроса 1}.

Зачем: модель сначала явно обрабатывает отрицание как отдельную операцию — и это снижает риск что сильная позитивная ассоциация "перекроет" отрицание при генерации ответа.


📌

🔧 Техника: конкурирующий паттерн → явный

Если задача содержит "ловушку интуиции" — назови её прямо:

В этой задаче интуитивный ответ — {очевидный паттерн}. 
Но есть ограничение, которое его отменяет.

Найди это ограничение и ответь, опираясь на него, а не на 
интуитивный паттерн.

Задача: {задача}

Это особенно работает когда вы знаете где ловушка — можно явно назвать неверный паттерн, чтобы вывести модель из-под его влияния.


🔗

Ресурсы

Название работы: Understanding Why Language Models Hallucinate: Testing Reasoning Against Priors

Проект: neohughus.github.io/Understanding_Why_Language_Models_Hallucinate

Авторы: Yangfan Hu, Xuhan Tong, Haoyue Bai, Xi Ding, Shashank Muralidhar Bharadwaj, Siyang Cao, Robert Nowak, Jiawei Zhang

Организация: University of Wisconsin–Madison


📋 Дайджест исследования

Ключевая суть

Парадокс: задай вопрос отдельно — модель ответит правильно. Вставь тот же факт в задачу с привычным паттерном — ошибётся. Это не провал памяти. Это провал выбора: модель пошла по слишком громкой ассоциации и не заметила реальное ограничение рядом. Метод принудительного выделения позволяет решать задачи, где есть нестандартное условие, скрытое за очевидным ответом. Фишка: одна инструкция в начале промпта — «назови решающее ограничение до ответа» — переключает модель с привычной тропинки на реальный контекст задачи. Модель сама ставит себе флаг на правильной ветке — и только потом начинает отвечать.

Принцип работы

У модели два сценария провала. Первый — подмена ключа. Задача про автомойку в 50 метрах. Модель видит «50 метров» и тянет паттерн «короткое расстояние = идти пешком». Реальное ограничение — «автомойка требует машину» — остаётся незамеченным. Второй — подмена задачи. Ключ правильный: «теория относительности». Но модель тянет привычную связь «Эйнштейн» — даже если в промпте стоит «НЕ сформулировал». Отрицание проигрывает многолетней ассоциации. Оба провала происходят до начала рассуждений. Модель выбирает тропинку раньше, чем начинает думать. Решение — явно выставить правильную тропинку перед стартом, а не надеяться что модель найдёт её сама среди конкурирующих паттернов.

Почему работает

При обучении модель видела некоторые паттерны миллионы раз. «Короткое расстояние» почти всегда означало «иди пешком». «Теория относительности» почти всегда вела к «Эйнштейну». Эти связи не дефект — они правильные в 95% случаев. Но в оставшихся 5% они перекрывают сигнал от реального ограничения в промпте. Исследование показало неприятную вещь: модель часто знает нужный факт. Спросишь отдельно — ответит верно. Но в задаче с сильным конкурирующим паттерном тот же факт проигрывает. Модель не находит нужный ключ сама в конкурентной среде — зато отлично его использует, если он уже выделен явно. Инструкция «сначала назови решающее ограничение» заставляет модель пройти по нужной ветке до генерации ответа.

Когда применять

Задачи с нестандартным условием, где есть привычный «очевидный» ответ — особенно когда в промпте есть отрицания («не», «кроме», «за исключением»), редкие комбинации знакомых объектов или контекст, противоречащий общему правилу. Деловые решения с высокой ценой ошибки: выбор между вариантами, юридические и договорные формулировки с исключениями, диагностика нестандартных ситуаций. НЕ подходит для задач с очень сильными устойчивыми ассоциациями — даже явное выделение ограничения иногда не спасает. Для таких случаев надёжнее раздробить на два отдельных запроса.

Мини-рецепт

1. Добавь подводку перед задачей: Прежде чем ответить — выдели одной фразой решающее ограничение. То условие, которое отличает правильный ответ от интуитивно очевидного.
2. Дай команду опираться именно на него: Затем отвечай, опираясь только на это ограничение.
3. При наличии отрицаний — выдели отдельно: добавь в конце Обрати особое внимание на [элемент с «не», «кроме», «за исключением»].
4. Для критичных задач — раздели на два запроса: первый Какой факт здесь решающий?, второй — сама задача. Модель не держит в голове конкурирующие паттерны между запросами — надёжнее, чем в одном.

Примеры

[ПЛОХО] : Клиент написал в Telegram в 23:30, спрашивает финальную цену. Отвечать сейчас или утром? Модель скажет «утром — ночью беспокоить не стоит». Правильно в 95% случаев. Но не в этом.
[ХОРОШО] : Прежде чем ответить — выдели одной фразой решающее ограничение этой задачи. То условие, которое меняет очевидный ответ. Затем ответь, опираясь только на него. Задача: клиент написал в Telegram в 23:30. Тендер на 2 млн рублей закрывается в 00:00. Клиент спрашивает финальную цену. Отвечать сейчас или утром? Модель сначала артикулирует: «Тендер закрывается через 30 минут». Флаг поставлен на правильной ветке — дальше рассуждает от него, а не от паттерна «ночь = не беспокоить».
Источник: Understanding Why Language Models Hallucinate: Testing Reasoning Against Priors
ArXiv ID: 2607.00447 | Сгенерировано: 2026-07-02 05:24

Проблемы LLM

ПроблемаСутьКак обойти
Сильная ассоциация перебивает решающее условиеВ задаче есть два элемента: знакомый паттерн ("ночь не беспокоить") и ключевое ограничение ("тендер закрывается в полночь"). Модель тянется к паттерну. Не потому что не знает факт. Знает — отдельным вопросом ответит верно. Но в конкурентной среде нужный ключ проигрывает более громкому. Особенно опасно с отрицаниями: "НЕ сформулировал теорию относительности" модель всё равно выбирает ЭйнштейнаПопроси модель назвать решающее ограничение ПЕРЕД ответом. Один шаг: Сначала выдели одной фразой условие, которое определяет правильный ответ. Затем отвечай, опираясь только на него. При отрицаниях добавь: Обрати особое внимание на: [элемент с "не", "кроме", "за исключением"]

Методы

МетодСуть
Предварительное выделение решающего ограниченияДобавь в начало запроса: Перед ответом — выдели ОДНОЙ фразой решающее ограничение. То условие, которое отличает правильный ответ от интуитивно очевидного. Затем отвечай, опираясь именно на него. Почему работает: Модель хорошо использует правильный ключ — если он уже выделен. Плохо его находит сама среди конкурирующих паттернов. Инструкция заставляет пройти нужную ветку рассуждений до генерации ответа. Правильный ключ оказывается на поверхности. Когда применять: задача с неочевидным ограничением, конструкции с "не/кроме/несмотря на", ситуации где "очевидный" ответ скорее всего неверен. Когда не спасёт: очень сильные ассоциации (типа "Эйнштейн и теория относительности") — даже явное выделение иногда не помогает. Тогда раздели на два отдельных запроса: сначала "какой факт здесь решающий?", потом "ответь на вопрос"

Тезисы

ТезисКомментарий
Галлюцинация — ошибка выбора, а не потери знанияМодель не забыла нужный факт. Попроси его отдельно — ответит верно. Проблема в другом: когда в задаче есть конкурирующие элементы, модель тянется к тому, что встречалось чаще при обучении. Нужный ключ проигрывает более "громкому". Это меняет подход к борьбе с галлюцинациями: не надо объяснять факт — надо помочь выбрать правильный ключ. Применяй: если модель ошибается в задаче где ты уверен что факт ей известен — добавь явное указание на решающее условие, не пересказывай знания
📖 Простыми словами

Understanding WhyLanguageModelsHallucinate: Testing Reasoning Against Priors

arXiv: 2607.00447

Галлюцинации у нейросетей — это не провал памяти, а конфликт интересов внутри их цифровых мозгов. Когда ты даешь модели задачу, в ней борются две силы: твои конкретные инструкции и гигантский багаж знаний, на которых она училась. Проблема в том, что статистический шум из интернета часто оказывается громче здравого смысла. Модель не «забывает» факты, она просто выбирает самый протоптанный путь, игнорируя твои знаки «кирпич» на дороге.

Это как если бы ты попросил профессионального повара приготовить омлет, но добавил: «сделай его из бетона». Повар настолько привык жарить яйца, что его руки сработают на автопилоте — он просто проигнорирует странное условие и выдаст тебе обычный завтрак. Инерция привычки здесь сильнее, чем логика конкретного заказа. Модель видела миллионы текстов, где «короткое расстояние» ведет к «пешей прогулке», и когда ты просишь ее проложить маршрут в 50 метров по дну океана, она радостно советует «пройтись пешком».

В основе этого бага лежит доминирование априорных знаний над текущим контекстом. Исследователи выяснили, что если в промпте есть «громкая» ассоциация, модель впадает в ступор. Например, при упоминании теории относительности она автоматически тянется к Эйнштейну, даже если в условии задачи четко прописан другой автор. Это когнитивное искажение нейросети: она верит статистике прошлых данных больше, чем твоим глазам, и выбирает ответ, который кажется ей «правильным» в среднем по больнице.

Этот принцип работает везде: от написания кода до юридических консультаций. Если ты просишь AI использовать редкую библиотеку или специфический закон, который идет вразрез с массовой практикой, модель с высокой вероятностью «соскользнет» в стандартное решение. Тестировали это на логических задачах, но эффект универсален. Любой сложный промпт, где нужно пойти против мейнстрима, — это зона риска, где статистический вес задавит логику рассуждения.

Короче: нейросеть галлюцинирует не потому, что она тупая, а потому, что она слишком самоуверенная жертва стереотипов. Чтобы она не лажала, нужно буквально бить ее по рукам, вырывая из контекста привычных ассоциаций. Если не учитывать этот конфликт приоритетов, ты будешь получать красивые, уверенные, но абсолютно бесполезные ответы. Либо ты заставляешь модель сомневаться в очевидном, либо она продолжит кормить тебя усредненной чепухой из интернета.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с