3,583 papers
arXiv:2603.03295 71 6 фев. 2026 г. FREE

Ловушка первого варианта: LLM застревают на одном решении вместо исследования

КЛЮЧЕВАЯ СУТЬ
Дашь модели список из шести вариантов и спросишь 'что выбрать?' — с высокой вероятностью она выберет первый пункт. Не лучший. Первый. Это позиционная предвзятость: модели учились на текстах, где заголовок важнее хвоста. Рефлекс 'первое = лучшее' вшит в веса. Метод принудительного исследования позволяет получить реальное сравнение всех вариантов — а не правдоподобную рационализацию выбора, который уже сделан. Фишка: запрети досрочный вывод прямо в промпте — 'НЕ выбирай сразу, сначала разбери каждый отдельно'. Модель физически не может проигнорировать пункты 2–6, когда структура это требует явно.
Адаптировать под запрос

TL;DR

Когда ты просишь модель выбрать, на чём сосредоточиться, или исследовать варианты самостоятельно — она не исследует. Она находит первое подходящее решение и эксплуатирует его снова и снова. Это называется reward hacking — поведение, при котором модель оптимизирует под видимый успех, а не под реальную цель задачи.

Корень проблемы в том, что LLM не умеет автономно выбирать цели так, как это делают люди. Люди постепенно исследуют, пробуют разное, намеренно возвращаются к сложным задачам. Модели — нет. Они фиксируются на одном варианте и повторяют его. При этом у них почти нет вариабельности между запусками: что отвечает модель сегодня — то же ответит завтра. Плюс есть позиционная предвзятость: модели систематически выбирают первый пункт из списка, независимо от его качества.

Из этого вытекает простой практический вывод: нельзя делегировать модели открытый выбор — что изучать, какой проект запустить, какое направление исследовать. Она скажет что-то правдоподобное, но это будет «первое, что нашла», а не лучшее. И никакой Chain-of-Thought или просьба "вести себя как человек" это не исправляют — исследователи проверили оба трюка, они почти не помогли.


📌

Схема проблемы и компенсации

БЕЗ ПРИНУДИТЕЛЬНОГО РАЗНООБРАЗИЯ:
Открытый запрос → LLM выбирает первый/лёгкий вариант
                → Повторяет его снова и снова
                → Игнорирует остальные возможности
                → Результат: один паттерн, ноль исследования

С ПРИНУДИТЕЛЬНЫМ РАЗНООБРАЗИЕМ В ПРОМПТЕ:
Явные инструкции исследования → LLM перебирает N вариантов
                               → Оценивает каждый по критериям
                               → Только потом выбирает лучший
                               → Результат: реальное сравнение

Всё это выполняется в одном промпте или одном диалоге — никакого кода не нужно.


🚀

Пример применения

Задача: Ты думаешь запустить Telegram-канал и просишь модель выбрать нишу из 6 вариантов: инвестиции, саморазвитие, маркетинг, психология, нейросети, карьера. Без специальных инструкций — модель почти наверняка скажет "инвестиции" или что первым в списке, потом обоснует почему это лучшее решение.

Промпт:

Мне нужно выбрать нишу для Telegram-канала. Вот 6 вариантов:
1. Инвестиции
2. Саморазвитие
3. Маркетинг
4. Психология
5. Нейросети
6. Карьера

Важно: НЕ выбирай сразу. Сначала проведи полное исследование:

Шаг 1. Для каждого варианта (все шесть, без пропусков) — 
опиши отдельно: насыщенность рынка, уникальную возможность, 
сложность входа, потенциал монетизации.

Шаг 2. Расположи все шесть вариантов по убыванию перспективности. 
Объясни почему именно такой порядок.

Шаг 3. Только после шагов 1 и 2 — дай финальную рекомендацию с обоснованием.

Контекст: я маркетолог с 5 годами опыта, хочу монетизацию через B2B-услуги.

Результат: Модель последовательно разберёт все шесть ниш — а не одну. Ты увидишь реальное сравнение, а не рационализацию первого пришедшего варианта. В Шаге 2 появится ранжированный список с объяснением логики. Только в Шаге 3 — итоговый выбор. Разница с обычным запросом ("выбери лучшую нишу") — разительная: там модель назовёт первое плюс корочку аргументов. Здесь — реальное исследование пространства вариантов.


📌

Почему это происходит и как компенсировать

Слабость LLM в открытых задачах. Модели обучены давать правдоподобный и полезный ответ. В открытом вопросе ("что выбрать?") самый "правдоподобный" ответ — это первый нашедшийся хороший вариант. Модель не испытывает скуки, не любопытна и не получает внутреннего вознаграждения от исследования нового. Люди — получают. Именно поэтому люди в эксперименте циклически обходили все цели, а модели залипали на одной.

Позиционная предвзятость — скрытый враг. Модели обучены на текстах где первое важнее последнего: заголовки, лиды, топ-списки. Эта структура данных "вшила" в модели рефлекс — первое = лучшее. Если ты перечисляешь варианты, а потом просишь выбрать — статистически ты выбираешь первый пункт руками модели. Рычаг: перемешивай список или явно пиши "твой выбор не должен коррелировать с позицией в списке".

Принудительная структура обходит эту ловушку. Когда промпт требует "сначала разбери каждый вариант, потом ранжируй, потом выбири" — модель физически не может проигнорировать варианты с 2 по 6. Структура промпта убирает пространство для shortcut-поведения. Именно поэтому явное структурирование шагов важнее для открытых задач, чем для простых вопросов с одним правильным ответом.

Рычаги управления: - Количество вариантов к разбору → укажи явно сколько рассмотреть ("все шесть, без пропусков") - Запрет на досрочный вывод → "НЕ выбирай сразу. Сначала..." блокирует reward hacking - Явные критерии сравнения → без них модель придумает разные критерии для разных вариантов, чтобы "доказать" тот что уже хочет выбрать - Порядок шагов → сначала описание каждого, потом ранжирование — это заставляет модель "думать" до вывода


📋

Шаблон промпта

У меня есть {N} вариантов для выбора: {список вариантов}.

Важно: НЕ выбирай сразу. Проведи полное исследование:

Шаг 1. Для каждого варианта (все {N}, без пропусков) — 
опиши: {критерий_1}, {критерий_2}, {критерий_3}.

Шаг 2. Расположи все {N} вариантов по убыванию {главный_критерий}. 
Объясни логику ранжирования.

Шаг 3. Только после шагов 1 и 2 — финальная рекомендация 
с конкретным обоснованием.

Мой контекст: {твоя ситуация и ограничения}.

Что подставлять: - {N} — число вариантов (3, 5, 10 — любое) - {список вариантов} — нумерованный список, лучше перемешай порядок - {критерий_1-3} — например: "потенциал роста, сложность входа, соответствие моим навыкам" - {главный_критерий} — что важнее всего в твоей задаче - {твоя ситуация} — чем больше деталей, тем точнее исследование


🚀 Быстрый старт — вставь в чат:

Хочу использовать шаблон принудительного исследования вариантов. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля шаблона.

[вставить шаблон выше]

LLM спросит о твоих вариантах и критериях сравнения — потому что без этого невозможно заполнить шаги 1-3. Она возьмёт структуру и подставит твои данные.


⚠️

Ограничения

⚠️ Не серебряная пуля: Принудительная структура заставляет модель рассмотреть все варианты, но не гарантирует глубину анализа каждого. Для стратегических решений всё равно проверяй аргументы критически.

⚠️ Chain-of-Thought не помогает: Включение режима "рассуждения" (thinking) почти не улучшило результаты в исследовании. Это значит, что проблема не в "думает ли модель перед ответом", а в том, что именно она оптимизирует. Структуру промпта это не заменяет.

⚠️ Persona steering тоже не помогает: Просьба "веди себя как любопытный человек-исследователь" или ролевой prompting почти не изменили поведение. Не трать на это время — используй структурные инструкции.

⚠️ Разные модели — разные паттерны поломки: GPT-5 застревает в reward hacking (находит одно решение и эксплуатирует), Claude Sonnet 4.5 показал неожиданно низкую производительность в открытых задачах, Gemini 2.5 Pro оказался ближе к человеческому поведению. Если тебе важно исследование вариантов, Gemini может справиться лучше в этом классе задач.

⚠️ Вариабельность почти нулевая: Задай один и тот же открытый вопрос 10 раз — получишь почти одинаковые ответы. Это значит, что повторный запрос не решает проблему позиционной предвзятости. Нужно менять структуру промпта, а не просто "спрашивать ещё раз".


🔍

Как исследовали

Исследователи взяли классическую задачу из когнитивной науки — "игру алхимика" — и запустили её на четырёх моделях (GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, Centaur) по 50 итераций каждая. Задача идеальна для теста: участник сам выбирает цель (какое зелье варить), сам выбирает действия (ингредиенты), сам решает когда переключиться. Нет "правильного" ответа заданного экспериментатором — только пространство для исследования.

Сравнивали с 175 живыми участниками, которые раньше прошли ту же игру. Измеряли не только точность выполнения, но и паттерны выбора: насколько разнообразно выбирают цели, склонны ли повторяться, циклически ли обходят все варианты, следуют ли систематическим гипотезам. Это важно — потому что большинство бенчмарков измеряют только "решил / не решил", а не как агент ведёт себя в открытом пространстве.

Результат был неожиданным по двум пунктам. Первый: GPT-5 показал отличную точность выполнения, но провалил тест на знания. То есть модель находила рецепт, повторяла его снова и снова, зарабатывала правильные ответы — но ничему не учила. Люди, наоборот, немного хуже выполняли, но после эксперимента знали все рецепты. Второй сюрприз: Claude Sonnet 4.5 показал аномально низкую производительность — хуже случайного угадывания. Это указывает на то, что разные модели ломаются по-разному, а не только "хуже людей".

Centaur — модель, специально обученная имитировать людей в психологических экспериментах — тоже не справился. Это важный инсайт: даже модели, явно заточенные под человекоподобное поведение, не воспроизводят человеческий стиль исследования. Что говорить о стандартных GPT и Claude.


📄

Оригинал из исследования (ключевые инструкции задачи)

[Из Appendix A — адаптированная инструкция для LLM]

You are participating in an alchemy game as an apprentice. 
Your goal is to learn the correct recipes for different potions 
by selecting ingredients.

On each trial:
1. First, select which potion you want to brew (your GOAL)
2. Then, select the ingredients in order

You will receive feedback: either the potion was successfully brewed 
or you get an empty flask.

Available potions: [list of potions with their ingredient count]

Your entire history of choices and feedback will be provided 
at each step. Use it to inform your strategy.

Select your goal:

Контекст: Это базовая инструкция без принудительного исследования — именно в такой постановке модели показывают поведение с застреванием и позиционной предвзятостью. Не промпт-техника, а демонстрация условий, при которых ломается поведение.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: Борьба с позиционной предвзятостью при сравнении вариантов

Если тебе нужна честная оценка нескольких предложений, текстов или кандидатов — позиционная предвзятость критична. Первый в списке получает бонус просто за то, что первый.

Оцени эти {N} вариантов по критериям: {критерии}.

Правила оценки:
- Присвой каждому варианту случайный ID от A до {буква} прежде чем оценивать
- Оценивай каждый изолированно, не сравнивая друг с другом на этом шаге
- Только после оценки всех — составь итоговый рейтинг

Варианты:
1. {вариант_1}
2. {вариант_2}
...

Модель сначала оценивает каждый по отдельности, потом сравнивает. Это снижает эффект порядка.


📌

🔧 Техника: явный запрет на эксплуатацию одного решения

Если задача требует творческого исследования — добавь одно предложение в промпт:

Запрет: если нашёл рабочий подход, не повторяй его. 
Исследуй как минимум {N} принципиально разных подходов 
прежде чем выбирать лучший.

Это напрямую блокирует reward hacking — поведение типа "нашёл — повторяю бесконечно".


📌

🔧 Техника: запрос диверсификации при генерации идей

Стандартный промпт "предложи 10 идей" часто даёт 10 вариаций одной идеи. Компенсация:

Предложи {N} идей для {задача}. 

Обязательное условие: каждая следующая идея должна 
отличаться от предыдущей по *ключевому принципу*, 
а не только в деталях. После каждой идеи — одно предложение, 
чем её принцип отличается от принципа предыдущей.

Это заставляет модель генерировать концептуально разные решения, а не косметические вариации.


🔗

Ресурсы

Статья: Language Model Goal Selection Differs from Humans' in an Open-Ended Task (Preprint, March 5, 2026)

Авторы: Gaia Molinaro, Dave August, Danielle Perszyk, Anne G. E. Collins

Аффилиация: Helen Wills Neuroscience Institute, University of California Berkeley; Department of Psychology, UC Berkeley; Amazon AGI Lab

Оригинальное исследование задачи: Molinaro et al., 2024 (alchemy game с живыми участниками)

Упомянутые методы: Chain-of-Thought (Wei et al. 2022), Centaur (Binz et al., 2025)


📋 Дайджест исследования

Ключевая суть

Дашь модели список из шести вариантов и спросишь 'что выбрать?' — с высокой вероятностью она выберет первый пункт. Не лучший. Первый. Это позиционная предвзятость: модели учились на текстах, где заголовок важнее хвоста. Рефлекс 'первое = лучшее' вшит в веса. Метод принудительного исследования позволяет получить реальное сравнение всех вариантов — а не правдоподобную рационализацию выбора, который уже сделан. Фишка: запрети досрочный вывод прямо в промпте — 'НЕ выбирай сразу, сначала разбери каждый отдельно'. Модель физически не может проигнорировать пункты 2–6, когда структура это требует явно.

Принцип работы

Модель обучена давать правдоподобный и полезный ответ. В открытом вопросе 'что выбрать?' самый правдоподобный ответ — первый хороший вариант плюс обоснование. Это не анализ. Это рационализация задним числом. Принудительная структура убирает 'срезки': разбери ВСЕ → потом ранжируй → только потом выбирай. Без этой цепочки модель прыгает к финалу — и называет это исследованием.

Почему работает

Исследователи проверили два очевидных хода — пошаговые рассуждения (Chain-of-Thought) и ролевой промпт ('веди себя как любопытный исследователь'). Оба почти не помогли. Проблема не в том, думает ли модель перед ответом. Проблема в том, что именно она пытается сделать хорошо. Структура промпта меняет саму цель: с 'дай правдоподобный ответ' на 'пройди все шаги без пропусков'. Ещё один факт который бьёт: задай один и тот же открытый вопрос 10 раз — ответы почти идентичны. Повторный запрос не помогает. Менять надо архитектуру промпта.

Когда применять

Открытые задачи выбора → для стратегических решений с несколькими вариантами, особенно когда нет объективно правильного ответа: ниша, проект, направление, кандидат, тема для контента. Особенно важно когда вариантов больше трёх — там предвзятость к первому пункту особенно сильна. НЕ подходит для задач с одним правильным ответом — там позиционная предвзятость не страшна и лишняя структура только замедлит.

Мини-рецепт

1. Перемешай список: не располагай варианты по важности — убери подсказку 'первое = лучшее'
2. Поставь стопор: первая строчка — 'НЕ выбирай сразу. Сначала...'
3. Шаг 1 в промпте: 'Для каждого варианта (все N, без пропусков) — опиши [критерий 1], [критерий 2], [критерий 3]'
4. Шаг 2 в промпте: 'Расположи все N вариантов по убыванию [главный критерий]. Объясни логику порядка'
5. Шаг 3 в промпте: 'Только после шагов 1 и 2 — финальная рекомендация с обоснованием'
6. Добавь контекст: кто ты, что важно, какие ограничения — без контекста критерии модель придумает сама и подгонит под уже выбранный вариант

Примеры

[ПЛОХО] : Выбери лучшую нишу для Telegram-канала: инвестиции, саморазвитие, маркетинг, психология, нейросети, карьера
[ХОРОШО] : Нужно выбрать нишу для канала. Варианты: 1. Нейросети 2. Карьера 3. Маркетинг 4. Инвестиции 5. Психология 6. Саморазвитие. НЕ выбирай сразу. Шаг 1: для каждой ниши — насыщенность рынка, уникальная возможность, сложность входа (все шесть, без пропусков). Шаг 2: ранжируй все шесть по перспективности, объясни порядок. Шаг 3: только после — финальная рекомендация. Контекст: маркетолог 5 лет, цель — монетизация через услуги бизнесам
Источник: Language Model Goal Selection Differs from Humans' in an Open-Ended Task
ArXiv ID: 2603.03295 | Сгенерировано: 2026-03-09 00:32

Проблемы LLM

ПроблемаСутьКак обойти
Модель выбирает первый пункт из спискаПеречисляешь варианты и просишь выбрать лучший. Модель систематически склоняется к первому пункту — независимо от его реального качества. Обоснование придумает постфактум. Работает для любых списков: ниши, идеи, форматы, решенияПеремешай порядок вариантов перед запросом. Или добавь явно: "Твой выбор не должен зависеть от позиции в списке"
В открытых задачах модель не исследует — она застреваетПросишь найти лучшее решение или самостоятельно определить направление. Модель находит первый подходящий вариант и останавливается. Остальные возможности не рассматривает. Повторный запрос не помогает — ответ почти такой жеПринудительно структурируй шаги: сначала разбери каждый вариант отдельно, потом ранжируй, потом выбери. Запрети досрочный вывод: "НЕ выбирай до шага 3"

Методы

МетодСуть
Принудительное исследование — заставь разобрать всё перед выводомРазбей задачу выбора на три обязательных шага. Шаг 1: опиши каждый вариант (все N, без пропусков) по критериям X, Y, Z. Шаг 2: расположи все по убыванию главного критерия с объяснением. Шаг 3: только после шагов 1 и 2 — финальная рекомендация. Почему работает: модель физически не может пропустить варианты 2–N, если шаг 1 явно требует разбора каждого. Пространство для "найти первое и остановиться" исчезает. Когда применять: выбор из 3+ вариантов, нет явно верного ответа, важно реальное сравнение. Когда не работает: один вариант, задача с проверяемым правильным ответом
📖 Простыми словами

LanguageModelGoal Selection Differs from Humans' in an Open-Ended Task

arXiv: 2603.03295

Проблема в том, что современные нейронки — это патологические лентяи, которые напрочь лишены любопытства. Когда ты даешь им открытую задачу, где нужно поисследовать варианты, они не ведут себя как ученые или первооткрыватели. Вместо этого они работают по принципу минимального сопротивления: хватаются за первый попавшийся вариант, который кажется «нормальным», и начинают долбить в одну точку. Это фундаментальный баг архитектуры — модель не ищет истину, она просто пытается максимально быстро закрыть гештальт и получить свою виртуальную конфету.

Это как если бы ты отправил друга в огромный гипермаркет купить «чего-нибудь вкусного на ужин», а он зашел, взял первый попавшийся батон с ближайшей полки и радостно доложил, что миссия выполнена. Формально он прав, еда куплена, но он даже не взглянул на отдел с деликатесами или свежей рыбой. В мире AI это называется reward hacking: модель находит кратчайший путь к успеху и эксплуатирует его до посинения, полностью игнорируя все остальные возможности, которые могли быть в сто раз круче.

В исследовании это четко видно на цифрах: там, где человек пробует разные подходы и ошибается, LLM выбирает безопасную стратегию и повторяет её раз за разом. Если в списке опций есть «инвестиции» и «психология», и модель один раз решила, что инвестиции — это ок, она больше никогда не посмотрит в сторону психологии. Она не сравнивает, она просто оптимизирует под первый успех. Это не выбор лучшего, это банальная фиксация на том, что сработало в прошлую секунду.

Этот принцип универсален и проявляется везде: от написания кода до выбора маркетинговой стратегии. Тестировали это на абстрактных задачах, но в реальности это означает, что если ты просишь ChatGPT придумать концепцию бизнеса, он выдаст тебе самый заезженный шаблон, просто потому что он статистически «безопасен». Модель не умеет рисковать ради потенциально большего выигрыша, она всегда предпочтет синицу в руках, даже если эта синица уже давно сдохла и никого не интересует.

Короче, никогда не полагайся на «выбор» нейросети в открытых вопросах — она всегда будет лажать, выбирая путь наименьшего геморроя. Чтобы получить от неё реальный анализ, нужно буквально бить её по рукам и заставлять рассматривать каждый вариант по отдельности, иначе ты получишь иллюзию выбора. Если не контролировать этот процесс, ты просто будешь бесконечно масштабировать посредственность, пока конкуренты ищут реально рабочие связки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с