TL;DR
Когда ты просишь модель выбрать, на чём сосредоточиться, или исследовать варианты самостоятельно — она не исследует. Она находит первое подходящее решение и эксплуатирует его снова и снова. Это называется reward hacking — поведение, при котором модель оптимизирует под видимый успех, а не под реальную цель задачи.
Корень проблемы в том, что LLM не умеет автономно выбирать цели так, как это делают люди. Люди постепенно исследуют, пробуют разное, намеренно возвращаются к сложным задачам. Модели — нет. Они фиксируются на одном варианте и повторяют его. При этом у них почти нет вариабельности между запусками: что отвечает модель сегодня — то же ответит завтра. Плюс есть позиционная предвзятость: модели систематически выбирают первый пункт из списка, независимо от его качества.
Из этого вытекает простой практический вывод: нельзя делегировать модели открытый выбор — что изучать, какой проект запустить, какое направление исследовать. Она скажет что-то правдоподобное, но это будет «первое, что нашла», а не лучшее. И никакой Chain-of-Thought или просьба "вести себя как человек" это не исправляют — исследователи проверили оба трюка, они почти не помогли.
Схема проблемы и компенсации
БЕЗ ПРИНУДИТЕЛЬНОГО РАЗНООБРАЗИЯ:
Открытый запрос → LLM выбирает первый/лёгкий вариант
→ Повторяет его снова и снова
→ Игнорирует остальные возможности
→ Результат: один паттерн, ноль исследования
С ПРИНУДИТЕЛЬНЫМ РАЗНООБРАЗИЕМ В ПРОМПТЕ:
Явные инструкции исследования → LLM перебирает N вариантов
→ Оценивает каждый по критериям
→ Только потом выбирает лучший
→ Результат: реальное сравнение
Всё это выполняется в одном промпте или одном диалоге — никакого кода не нужно.
Пример применения
Задача: Ты думаешь запустить Telegram-канал и просишь модель выбрать нишу из 6 вариантов: инвестиции, саморазвитие, маркетинг, психология, нейросети, карьера. Без специальных инструкций — модель почти наверняка скажет "инвестиции" или что первым в списке, потом обоснует почему это лучшее решение.
Промпт:
Мне нужно выбрать нишу для Telegram-канала. Вот 6 вариантов:
1. Инвестиции
2. Саморазвитие
3. Маркетинг
4. Психология
5. Нейросети
6. Карьера
Важно: НЕ выбирай сразу. Сначала проведи полное исследование:
Шаг 1. Для каждого варианта (все шесть, без пропусков) —
опиши отдельно: насыщенность рынка, уникальную возможность,
сложность входа, потенциал монетизации.
Шаг 2. Расположи все шесть вариантов по убыванию перспективности.
Объясни почему именно такой порядок.
Шаг 3. Только после шагов 1 и 2 — дай финальную рекомендацию с обоснованием.
Контекст: я маркетолог с 5 годами опыта, хочу монетизацию через B2B-услуги.
Результат: Модель последовательно разберёт все шесть ниш — а не одну. Ты увидишь реальное сравнение, а не рационализацию первого пришедшего варианта. В Шаге 2 появится ранжированный список с объяснением логики. Только в Шаге 3 — итоговый выбор. Разница с обычным запросом ("выбери лучшую нишу") — разительная: там модель назовёт первое плюс корочку аргументов. Здесь — реальное исследование пространства вариантов.
Почему это происходит и как компенсировать
Слабость LLM в открытых задачах. Модели обучены давать правдоподобный и полезный ответ. В открытом вопросе ("что выбрать?") самый "правдоподобный" ответ — это первый нашедшийся хороший вариант. Модель не испытывает скуки, не любопытна и не получает внутреннего вознаграждения от исследования нового. Люди — получают. Именно поэтому люди в эксперименте циклически обходили все цели, а модели залипали на одной.
Позиционная предвзятость — скрытый враг. Модели обучены на текстах где первое важнее последнего: заголовки, лиды, топ-списки. Эта структура данных "вшила" в модели рефлекс — первое = лучшее. Если ты перечисляешь варианты, а потом просишь выбрать — статистически ты выбираешь первый пункт руками модели. Рычаг: перемешивай список или явно пиши "твой выбор не должен коррелировать с позицией в списке".
Принудительная структура обходит эту ловушку. Когда промпт требует "сначала разбери каждый вариант, потом ранжируй, потом выбири" — модель физически не может проигнорировать варианты с 2 по 6. Структура промпта убирает пространство для shortcut-поведения. Именно поэтому явное структурирование шагов важнее для открытых задач, чем для простых вопросов с одним правильным ответом.
Рычаги управления: - Количество вариантов к разбору → укажи явно сколько рассмотреть ("все шесть, без пропусков") - Запрет на досрочный вывод → "НЕ выбирай сразу. Сначала..." блокирует reward hacking - Явные критерии сравнения → без них модель придумает разные критерии для разных вариантов, чтобы "доказать" тот что уже хочет выбрать - Порядок шагов → сначала описание каждого, потом ранжирование — это заставляет модель "думать" до вывода
Шаблон промпта
У меня есть {N} вариантов для выбора: {список вариантов}.
Важно: НЕ выбирай сразу. Проведи полное исследование:
Шаг 1. Для каждого варианта (все {N}, без пропусков) —
опиши: {критерий_1}, {критерий_2}, {критерий_3}.
Шаг 2. Расположи все {N} вариантов по убыванию {главный_критерий}.
Объясни логику ранжирования.
Шаг 3. Только после шагов 1 и 2 — финальная рекомендация
с конкретным обоснованием.
Мой контекст: {твоя ситуация и ограничения}.
Что подставлять:
- {N} — число вариантов (3, 5, 10 — любое)
- {список вариантов} — нумерованный список, лучше перемешай порядок
- {критерий_1-3} — например: "потенциал роста, сложность входа, соответствие моим навыкам"
- {главный_критерий} — что важнее всего в твоей задаче
- {твоя ситуация} — чем больше деталей, тем точнее исследование
🚀 Быстрый старт — вставь в чат:
Хочу использовать шаблон принудительного исследования вариантов.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля шаблона.
[вставить шаблон выше]
LLM спросит о твоих вариантах и критериях сравнения — потому что без этого невозможно заполнить шаги 1-3. Она возьмёт структуру и подставит твои данные.
Ограничения
⚠️ Не серебряная пуля: Принудительная структура заставляет модель рассмотреть все варианты, но не гарантирует глубину анализа каждого. Для стратегических решений всё равно проверяй аргументы критически.
⚠️ Chain-of-Thought не помогает: Включение режима "рассуждения" (thinking) почти не улучшило результаты в исследовании. Это значит, что проблема не в "думает ли модель перед ответом", а в том, что именно она оптимизирует. Структуру промпта это не заменяет.
⚠️ Persona steering тоже не помогает: Просьба "веди себя как любопытный человек-исследователь" или ролевой prompting почти не изменили поведение. Не трать на это время — используй структурные инструкции.
⚠️ Разные модели — разные паттерны поломки: GPT-5 застревает в reward hacking (находит одно решение и эксплуатирует), Claude Sonnet 4.5 показал неожиданно низкую производительность в открытых задачах, Gemini 2.5 Pro оказался ближе к человеческому поведению. Если тебе важно исследование вариантов, Gemini может справиться лучше в этом классе задач.
⚠️ Вариабельность почти нулевая: Задай один и тот же открытый вопрос 10 раз — получишь почти одинаковые ответы. Это значит, что повторный запрос не решает проблему позиционной предвзятости. Нужно менять структуру промпта, а не просто "спрашивать ещё раз".
Как исследовали
Исследователи взяли классическую задачу из когнитивной науки — "игру алхимика" — и запустили её на четырёх моделях (GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, Centaur) по 50 итераций каждая. Задача идеальна для теста: участник сам выбирает цель (какое зелье варить), сам выбирает действия (ингредиенты), сам решает когда переключиться. Нет "правильного" ответа заданного экспериментатором — только пространство для исследования.
Сравнивали с 175 живыми участниками, которые раньше прошли ту же игру. Измеряли не только точность выполнения, но и паттерны выбора: насколько разнообразно выбирают цели, склонны ли повторяться, циклически ли обходят все варианты, следуют ли систематическим гипотезам. Это важно — потому что большинство бенчмарков измеряют только "решил / не решил", а не как агент ведёт себя в открытом пространстве.
Результат был неожиданным по двум пунктам. Первый: GPT-5 показал отличную точность выполнения, но провалил тест на знания. То есть модель находила рецепт, повторяла его снова и снова, зарабатывала правильные ответы — но ничему не учила. Люди, наоборот, немного хуже выполняли, но после эксперимента знали все рецепты. Второй сюрприз: Claude Sonnet 4.5 показал аномально низкую производительность — хуже случайного угадывания. Это указывает на то, что разные модели ломаются по-разному, а не только "хуже людей".
Centaur — модель, специально обученная имитировать людей в психологических экспериментах — тоже не справился. Это важный инсайт: даже модели, явно заточенные под человекоподобное поведение, не воспроизводят человеческий стиль исследования. Что говорить о стандартных GPT и Claude.
Оригинал из исследования (ключевые инструкции задачи)
[Из Appendix A — адаптированная инструкция для LLM]
You are participating in an alchemy game as an apprentice.
Your goal is to learn the correct recipes for different potions
by selecting ingredients.
On each trial:
1. First, select which potion you want to brew (your GOAL)
2. Then, select the ingredients in order
You will receive feedback: either the potion was successfully brewed
or you get an empty flask.
Available potions: [list of potions with their ingredient count]
Your entire history of choices and feedback will be provided
at each step. Use it to inform your strategy.
Select your goal:
Контекст: Это базовая инструкция без принудительного исследования — именно в такой постановке модели показывают поведение с застреванием и позиционной предвзятостью. Не промпт-техника, а демонстрация условий, при которых ломается поведение.
Адаптации и экстраполяции
💡 Адаптация: Борьба с позиционной предвзятостью при сравнении вариантов
Если тебе нужна честная оценка нескольких предложений, текстов или кандидатов — позиционная предвзятость критична. Первый в списке получает бонус просто за то, что первый.
Оцени эти {N} вариантов по критериям: {критерии}.
Правила оценки:
- Присвой каждому варианту случайный ID от A до {буква} прежде чем оценивать
- Оценивай каждый изолированно, не сравнивая друг с другом на этом шаге
- Только после оценки всех — составь итоговый рейтинг
Варианты:
1. {вариант_1}
2. {вариант_2}
...
Модель сначала оценивает каждый по отдельности, потом сравнивает. Это снижает эффект порядка.
🔧 Техника: явный запрет на эксплуатацию одного решения
Если задача требует творческого исследования — добавь одно предложение в промпт:
Запрет: если нашёл рабочий подход, не повторяй его.
Исследуй как минимум {N} принципиально разных подходов
прежде чем выбирать лучший.
Это напрямую блокирует reward hacking — поведение типа "нашёл — повторяю бесконечно".
🔧 Техника: запрос диверсификации при генерации идей
Стандартный промпт "предложи 10 идей" часто даёт 10 вариаций одной идеи. Компенсация:
Предложи {N} идей для {задача}.
Обязательное условие: каждая следующая идея должна
отличаться от предыдущей по *ключевому принципу*,
а не только в деталях. После каждой идеи — одно предложение,
чем её принцип отличается от принципа предыдущей.
Это заставляет модель генерировать концептуально разные решения, а не косметические вариации.
Ресурсы
Статья: Language Model Goal Selection Differs from Humans' in an Open-Ended Task (Preprint, March 5, 2026)
Авторы: Gaia Molinaro, Dave August, Danielle Perszyk, Anne G. E. Collins
Аффилиация: Helen Wills Neuroscience Institute, University of California Berkeley; Department of Psychology, UC Berkeley; Amazon AGI Lab
Оригинальное исследование задачи: Molinaro et al., 2024 (alchemy game с живыми участниками)
Упомянутые методы: Chain-of-Thought (Wei et al. 2022), Centaur (Binz et al., 2025)
