3,583 papers
arXiv:2605.30094 74 28 мая 2026 г. FREE

PokerSkill: структурированная привязка контекста как решение "ошибки выбора концепции" в LLM

КЛЮЧЕВАЯ СУТЬ
Claude Opus 4.6 держит тройку четвёрок — и пишет «у меня KQo, полный воздух»: не потому что не знает правил покера, а потому что не может выбрать какой из десяти одновременно релевантных принципов важен прямо сейчас. Метод PokerSkill позволяет получать последовательные, структурированные решения в любой задаче, где несколько принципов конкурируют за приоритет — без дообучения и специальных решателей. Фишка: три шага разбивают задачу — детерминированная классификация навешивает метки на ситуацию, по меткам достаётся ровно один принцип из библиотеки, и только потом модель принимает решение в его рамках. LLM не занимается арбитражем «что важнее» — она применяет уже выбранное, и качество резко растёт.
Адаптировать под запрос

TL;DR

Проблема привязки решения (decision-binding problem) — когда LLM знает все нужные концепции, но не может выбрать правильную в конкретный момент. Именно это убивает качество ответов в сложных ситуациях с несколькими конкурирующими принципами. PokerSkill — система, которая решает эту проблему через трёхэтапный конвейер: сначала детерминированный анализ ситуации, затем инъекция только нужного фрагмента знаний, затем решение в рамках ограниченного набора вариантов.

Модель знает всё — но это "всё" и является проблемой. Claude Opus 4.6 в покере буквально галлюцинирует другие карты: держа тройку четвёрок, пишет "у меня KQo и нет пары, полный воздух". Проблема не в незнании. Проблема в том, что одновременно релевантны десятки принципов — текстура доски, позиция, история ставок, размер стека — и модель вынуждена самостоятельно решить, какой принцип главный сейчас. При стандартном промпте она систематически ошибается в этом выборе.

Решение: убрать у модели задачу арбитража. Шаг 1 — детерминированные правила анализируют состояние и навешивают структурированные метки (тип доски, класс руки, сценарий действий). Шаг 2 — по меткам достаётся только релевантный фрагмент из библиотеки экспертных знаний. Шаг 3 — LLM выбирает среди ограниченного набора стратегически обоснованных действий. Модель не занимается отбором принципов — она применяет уже отобранный.


🔬

Схема метода

ШАГ 1 — КЛАССИФИКАЦИЯ [отдельный запрос или инструкция]
  Анализируй ситуацию по фиксированным измерениям
  → Структурированные метки: [тип_A][уровень_B][роль_C][ограничения_D]

ШАГ 2 — ИНЪЕКЦИЯ ЗНАНИЯ [подставляется в следующий промпт]
  По меткам из Шага 1 → выбор ОДНОГО релевантного принципа
  из подготовленной библиотеки (не "думай обо всём", а "вот что 
  применимо именно здесь")
  → Один принцип + обоснование выбора

ШАГ 3 — ОГРАНИЧЕННОЕ РЕШЕНИЕ [финальный запрос]
  Используя выбранный принцип → оценка предложенных вариантов
  Модель работает в рамках, а не в открытом пространстве
  → Выбор + объяснение через единственный принцип

Шаги 1–3 выполняются последовательно — либо тремя отдельными запросами, либо как явные пронумерованные инструкции в одном промпте.


🚀

Пример применения

⚠️ Сильная зона метода: сложные многофакторные решения, где одновременно применимы несколько конкурирующих принципов. Слабая зона: простые задачи (там конкурирующих принципов нет и арбитраж не нужен).


Задача: Артём — основатель B2B-стартапа, получил два оффера на инвестиции. Первый: венчурный фонд, 15 млн рублей за 20% со стандартным term sheet. Второй: стратег из его отрасли, 12 млн за 15%, но с правом вето на ключевые партнёрства. Артём хочет понять, как правильно думать об этом выборе.

Промпт:

Анализируй инвестиционное предложение в три чётких шага. 
Не перескакивай между шагами.

---

ШАГ 1. КЛАССИФИКАЦИЯ СИТУАЦИИ
Прочитай описание. Определи по каждому измерению:
- Стадия компании: [pre-seed / seed / series A]
- Основная потребность сейчас: [капитал / экспертиза / рынок / контакты]
- Тип риска № 1: [dilution / контроль / execution / market]
- Позиция фаундера на переговорах: [слабая / нейтральная / сильная]

Выведи ТОЛЬКО метки. Никаких выводов пока.

---

ШАГ 2. ВЫБОР ПРИНЦИПА
На основе меток из Шага 1 — выбери ОДИН из принципов ниже,
который применим сейчас. Объясни в одном предложении, почему
именно этот, а не остальные.

Принципы:
A) Капитал важнее условий на ранней стадии — денег в моменте.
B) Smart money важнее суммы — инвестор с экспертизой ценнее.
C) Контроль важнее денег — сохрани право принимать ключевые решения.
D) Оптимизируй под следующий раунд — смотри что привлекательно
   для Series A, не для текущего момента.

---

ШАГ 3. РЕШЕНИЕ В РАМКАХ ПРИНЦИПА
Используя ТОЛЬКО выбранный принцип из Шага 2 — 
оцени два оффера. Скажи какой предпочтительнее и почему.
Не апеллируй к другим принципам.

---

СИТУАЦИЯ:
Стартап — B2B SaaS, автоматизация HR-документооборота.
12 месяцев, ARR 4 млн рублей, растём 15% в месяц.
Команда 6 человек, деньги кончатся через 4 месяца.
Оффер 1: венчурный фонд, 15 млн за 20%, стандартный term sheet.
Оффер 2: стратег (HR-холдинг), 12 млн за 15%, вето на партнёрства.

Результат: Модель покажет три явных блока. В Шаге 1 — только метки без вывода: [seed] [капитал] [execution] [нейтральная]. В Шаге 2 — выбор одного принципа (скорее всего A или D) с объяснением почему именно он, а не B или C. В Шаге 3 — анализ обоих офферов строго через этот принцип, без смешения соображений. Качество ответа вырастет: модель не будет взвешивать всё сразу и выдавать "с одной стороны... с другой стороны... зависит от ситуации".


🧠

Почему это работает

LLM — плохой арбитр конкурирующих принципов. Когда задача требует одновременно оценить пять измерений и выбрать, какое главное — модель делает этот выбор неявно, часто ошибочно. Это не баг, это архитектура: токен за токеном, без явного механизма "остановись и выбери фокус". Результат — выглядит как взвешенный анализ, а на деле случайный арбитраж.

LLM — отличный исполнитель в рамках заданного принципа. Когда принцип уже выбран и зафиксирован явно, модель применяет его последовательно и точно. "Оценивай только через эту линзу" — гораздо лучше, чем "думай обо всём". Уменьшаешь пространство задачи → растёт качество внутри этого пространства.

Метод использует модель там, где она сильна. Классификация ситуации + выбор принципа — это структурированное следование инструкции, модель с этим справляется. Применение принципа к конкретным вариантам — тоже понятная задача. Ломается именно неявный арбитраж "что важнее всего прямо сейчас". PokerSkill убирает этот шаг из задачи модели и делает его явным и отдельным.

Рычаги управления: - Количество принципов в библиотеке Шага 2 → больше принципов = точнее попадание, но сложнее промпт; начни с 3–5 для своей задачи - Жёсткость ограничения в Шаге 3 → "используй ТОЛЬКО выбранный принцип" vs "используй преимущественно" → первое даёт более чёткий ответ, второе — чуть более мягкий - Детализация меток в Шаге 1 → больше измерений = точнее выбор принципа, но есть риск слишком сложной классификации - Явность номеров шагов → помогает модели не смешивать этапы; убери нумерацию — и польза снизится


📋

Шаблон промпта

Анализируй {задача} в три чётких шага. 
Не перескакивай между шагами.

---

ШАГ 1. КЛАССИФИКАЦИЯ СИТУАЦИИ
Прочитай описание. Определи по каждому измерению:
- {измерение_1}: [{вариант_A} / {вариант_B} / {вариант_C}]
- {измерение_2}: [{вариант_A} / {вариант_B} / {вариант_C}]
- {измерение_3}: [{вариант_A} / {вариант_B} / {вариант_C}]

Выведи ТОЛЬКО метки. Никаких выводов пока.

---

ШАГ 2. ВЫБОР ПРИНЦИПА
На основе меток из Шага 1 — выбери ОДИН принцип,
который применим сейчас. Объясни в одном предложении, почему
именно этот, а не остальные.

Принципы:
A) {принцип_A}
B) {принцип_B} 
C) {принцип_C}
D) {принцип_D}

---

ШАГ 3. РЕШЕНИЕ В РАМКАХ ПРИНЦИПА
Используя ТОЛЬКО выбранный принцип из Шага 2 —
{что нужно сделать: оценить / написать / выбрать / проанализировать}.
Не апеллируй к другим принципам.

---

СИТУАЦИЯ:
{описание ситуации}

ВАРИАНТЫ (если нужно):
{вариант_1}
{вариант_2}

Что подставлять: - {задача} — тип задачи: "инвестиционное решение", "переговорную стратегию", "структуру аргументации" - {измерение_N} — оси классификации, релевантные вашей задаче. Для бизнеса: стадия, тип риска, позиция. Для текста: аудитория, тональность, цель - {принципы A-D} — конкурирующие подходы, из которых нужно выбрать один. Это ключ: принципы должны действительно противоречить друг другу, иначе арбитраж не нужен - {что нужно сделать} — конкретный глагол: "оцени", "напиши", "выбери между", "сформулируй позицию"


🚀 Быстрый старт — вставь в чат:

Вот шаблон трёхшагового метода привязки решения. 
Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про измерения классификации и набор конкурирующих принципов — потому что это ядро метода, без которого шаблон не работает. Она возьмёт трёхшаговую структуру и адаптирует её под твою задачу.


⚠️

Ограничения

⚠️ Требует экспертной библиотеки принципов: Метод настолько хорош, насколько хороши принципы в Шаге 2. В оригинале их разрабатывали профессиональные покерные игроки годами. Для новой задачи принципы нужно составить самостоятельно — это требует экспертизы в теме.

⚠️ Зависимость от качества классификации: Если Шаг 1 неправильно навесил метки — Шаг 2 выберет не тот принцип, и Шаг 3 применит его идеально, но не к той ситуации. Garbage in → garbage out, только оформленный красиво.

⚠️ Не работает для простых задач: Если ситуация не требует арбитража конкурирующих принципов — три шага только усложнят и замедлят. Метод для сложных многофакторных решений.

⚠️ Полная система требует кода: Детерминированный движок состояния, бюджетная система, автоматическая библиотека на 60+ сценариев — это Python и инфраструктура. Описанный выше ручной вариант — это принцип метода, не полная реализация.

⚠️ Оценивается на покере: Насколько точно принцип переносится на деловые задачи — вопрос открытый. Покер более детерминирован и формализован, чем большинство реальных решений.


🔍

Как исследовали

Команда Цинхуа использовала GTOWizard — текущий эталон покерного ИИ, который обыгрывает лучшего открытого бота (Slumbot) на 194 mbb/hand (mbb/hand — условная единица покерного выигрыша). Это своего рода "тест на знание столицы" для покерных агентов: игра с GTOWizard = игра против почти оптимального соперника.

Исходная картина без PokerSkill была катастрофической: Claude Opus 4.6 проигрывал −204 mbb/hand, GPT-5.4 — −178 mbb/hand. Для контекста: Slumbot проигрывает GTOWizard примерно −100–120 mbb/hand. То есть топовые LLM проигрывали хуже, чем устаревший бот девятилетней давности.

С PokerSkill GPT-5.5 XHigh достиг −57 mbb/hand, что лучше Slumbot. Это первый случай, когда LLM-агент конкурентен с исторически сильными покерными системами — без тренировки и без решателей. Особенно интересно, что авторы проверили гипотезу о "правилах без LLM" и "LLM без правил" — оба варианта слабее. Стратегия экспертных правил без LLM: примерно −150 mbb/hand. LLM без правил: −170–200 mbb/hand. Сочетание: −57–87 mbb/hand. Синергия реальная, не аддитивная — сумма оказалась лучше, чем можно было ожидать от сложения.


💡

Адаптации и экстраполяции

🔧 Техника: добавь "запрещённые принципы" в Шаг 2 → снижение контаминации

Если хочешь, чтобы модель действительно придерживалась одного принципа — явно укажи какие НЕ применять в этот раз:

ШАГ 2. ВЫБОР ПРИНЦИПА
[...]
Принципы A и B в данной ситуации НЕ применяются — 
ситуация уже прошла эту стадию. Выбирай только из C и D.

🔧 Техника: используй Шаг 1 отдельно как диагностику

Можно использовать только первый шаг как отдельный инструмент — попросить LLM классифицировать ситуацию по структурированным измерениям, не переходя к решению. Это помогает понять: "а что вообще здесь происходит?" — прежде чем думать о том, что делать.

Классифицируй ситуацию ниже по измерениям: 
[тип конфликта / стадия / власть / срочность].
Только метки, без выводов.

{ситуация}

Полезно для сложных деловых ситуаций, где не ясно под каким углом смотреть.


🔧 Техника: несколько прогонов с разными принципами → сравнение

Запусти Шаг 3 несколько раз, каждый раз принудительно фиксируя разный принцип — и сравни результаты:

Прогон 1: Используй ТОЛЬКО принцип A. [оцени ситуацию]
Прогон 2: Используй ТОЛЬКО принцип B. [оцени ту же ситуацию]
Прогон 3: Используй ТОЛЬКО принцип C. [оцени ту же ситуацию]

Это даёт несколько несмешанных перспектив вместо одной усреднённой. Полезно для стратегических решений, где важно видеть логику каждого подхода отдельно.


🔗

Ресурсы

PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers (май 2026)

Авторы: Boning Li, Baoxiang Wang, Longbo Huang

Организации: IIIS Tsinghua University; The Chinese University of Hong Kong, Shenzhen

Код: github.com/lbn187/PokerSkill

Бенчмарк: GTOWizard — gtowizard.com

Сравнение: Slumbot (открытый покерный бот, SoTA до 2025)


📋 Дайджест исследования

Ключевая суть

Claude Opus 4.6 держит тройку четвёрок — и пишет «у меня KQo, полный воздух»: не потому что не знает правил покера, а потому что не может выбрать какой из десяти одновременно релевантных принципов важен прямо сейчас. Метод PokerSkill позволяет получать последовательные, структурированные решения в любой задаче, где несколько принципов конкурируют за приоритет — без дообучения и специальных решателей. Фишка: три шага разбивают задачу — детерминированная классификация навешивает метки на ситуацию, по меткам достаётся ровно один принцип из библиотеки, и только потом модель принимает решение в его рамках. LLM не занимается арбитражем «что важнее» — она применяет уже выбранное, и качество резко растёт.

Принцип работы

Стандартный подход: один большой промпт с полным контекстом, «учти всё и реши». Трёхшаговый конвейер: сначала зафиксируй ситуацию через метки, потом выбери один принцип явно, потом работай исключительно внутри него. Арбитраж принципов — это скрытый шаг, который модель делает сама, токен за токеном, без паузы. PokerSkill вытаскивает этот шаг наружу и делает его явным, отдельным, видимым. То что раньше было неявным выбором "на ходу" — теперь Шаг 2 с конкретным вопросом: какой из четырёх принципов применим здесь и почему не остальные три? Ключевая механика — ограничение пространства задачи. Меньше пространство → выше качество внутри него. Не «думай обо всём» — а «вот единственная линза, оцени через неё».

Почему работает

LLM генерирует токен за токеном — без встроенного механизма «остановись и выбери фокус». Когда задача требует одновременно взвесить пять измерений и решить какое главное, модель делает этот выбор неявно, по ходу генерации. Выглядит как взвешенный анализ — «с одной стороны... с другой стороны...» — а на деле случайный арбитраж, оформленный красиво. Когда принцип уже зафиксирован явно, модель применяет его последовательно и точно — это её настоящая сильная сторона. Классификация ситуации через фиксированные измерения — модель справляется. Применение выбранного принципа к конкретным вариантам — тоже. Ломается именно неявный арбитраж «что важнее всего прямо сейчас». PokerSkill убирает этот шаг из зоны ответственности модели и делает его явным и отдельным — с обоснованием выбора в одном предложении.

Когда применять

Сложные многофакторные решения → особенно когда несколько принципов применимы одновременно и противоречат друг другу: переговорные стратегии, инвестиционные решения, медицинская диагностика с конкурирующими гипотезами, приоритизация задач при ограниченных ресурсах, разбор спорных кейсов. НЕ подходит для простых задач: если ситуация не требует арбитража конкурирующих принципов — три шага только замедлят и запутают. Метод для задач с реальной неоднозначностью, а не там где «и так понятно». Также — задачи с заранее известной библиотекой принципов работают лучше: самый слабый элемент метода не в промпте, а в качестве самих принципов. Плохие принципы → красиво оформленный неправильный ответ.

Мини-рецепт

1. Составь библиотеку принципов: выпиши 3–5 конкурирующих подходов к своей задаче. Они должны реально противоречить друг другу — иначе арбитраж не нужен. Для инвестиций: «капитал важнее условий» vs «контроль важнее суммы» vs «оптимизируй под следующий раунд».

2. Определи оси классификации: 3–4 измерения, по которым можно однозначно описать ситуацию. Для каждого — фиксированные варианты в скобках. Например, [стадия: seed / series A], [тип риска: размытие доли / потеря контроля / execution].

3. Собери трёхшаговый промпт: явные заголовки «ШАГ 1», «ШАГ 2», «ШАГ 3» — они не дают модели смешать этапы. В Шаге 1 — «выведи ТОЛЬКО метки, никаких выводов». В Шаге 2 — «выбери ОДИН принцип, объясни в одном предложении почему не остальные». В Шаге 3 — «используй ТОЛЬКО выбранный принцип, не апеллируй к другим».

4. Запусти и проверь Шаг 2: если модель выбрала принцип и объяснение звучит убедительно — конвейер работает. Если выбор кажется странным — проблема в метках из Шага 1 или в самих формулировках принципов.

Примеры

[ПЛОХО] : Посоветуй, какой из двух инвестиционных офферов выбрать: первый — 15 млн за 20% от венчурного фонда, второй — 12 млн за 15% от стратега с правом вето на партнёрства
[ХОРОШО] : Анализируй инвестиционное решение в три чётких шага. Не перескакивай между шагами. ШАГ 1. КЛАССИФИКАЦИЯ Определи по каждому измерению: - Стадия: [pre-seed / seed / series A] - Основная потребность сейчас: [капитал / экспертиза / рынок] - Тип риска #1: [размытие доли / потеря контроля / execution] - Позиция на переговорах: [слабая / нейтральная / сильная] Выведи ТОЛЬКО метки. ШАГ 2. ВЫБОР ПРИНЦИПА Выбери ОДИН принцип из списка. Объясни в одном предложении почему именно он. A) Капитал важнее условий — деньги нужны в моменте B) Контроль важнее суммы — сохрани право на ключевые решения C) Оптимизируй под следующий раунд — что привлекательно для Series A ШАГ 3. РЕШЕНИЕ Используя ТОЛЬКО выбранный принцип — оцени оба оффера. Не апеллируй к другим принципам. СИТУАЦИЯ: B2B SaaS, 12 месяцев, ARR 4 млн, рост 15%/месяц, деньги через 4 месяца кончатся. Оффер 1: фонд, 15 млн за 20%, стандартный договор. Оффер 2: стратег из отрасли, 12 млн за 15%, право вето на партнёрства. Разница в ответах: стандартный промпт даёт «с одной стороны... с другой стороны... зависит от ситуации». Трёхшаговый — чёткие метки в Шаге 1, явный выбор принципа с обоснованием в Шаге 2, и анализ строго через него в Шаге 3.
Источник: PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers
ArXiv ID: 2605.30094 | Сгенерировано: 2026-05-29 15:27

Проблемы LLM

ПроблемаСутьКак обойти
Модель плохо выбирает главный принцип когда их многоЗадача требует нескольких знаний одновременно. Например: тип риска, позиция, срочность, ресурс. Модель знает все принципы. Но должна сама решить что важнее прямо сейчас. Именно здесь ломается. Делает выбор незаметно для пользователя — и часто ошибается. Итог выглядит как взвешенный анализ. По факту — случайный арбитраж. Проблема для любой задачи где одновременно применимы несколько конкурирующих подходовСделай выбор принципа явным шагом. Не жди что модель сама разберётся. Дай список принципов и попроси выбрать один — до того как начнёт решать задачу

Методы

МетодСуть
Трёхшаговый конвейер: классификация выбор принципа решениеШаг 1. Попроси модель классифицировать ситуацию по фиксированным осям. Выводить только метки, без выводов. Пример: - Тип риска: [dilution / контроль / execution]. Шаг 2. Дай список из 3–5 конкурирующих принципов. Попроси выбрать ONE и объяснить в одном предложении почему именно он. Шаг 3. Попроси решить задачу используя ТОЛЬКО выбранный принцип. Запрети апеллировать к остальным. Ключевая техника: явно пронумеруй шаги и напиши Не перескакивай между шагами. Почему работает: Модель хорошо классифицирует и хорошо применяет заданный принцип. Плохо делает одно — сама решает что важнее прямо сейчас. Метод убирает этот шаг из неявного и делает его явным и отдельным. Когда да: сложные многофакторные решения, несколько принципов реально конкурируют. Когда нет: простые задачи без конкурирующих подходов — там три шага только замедлят
📖 Простыми словами

PokerSkill:LLMsCan Play Expert-Level Poker without Training or Solvers

arXiv: 2605.30094

Суть проблемы в том, что нейронки страдают от кризиса выбора. Это называется decision-binding problem: модель может знать все учебники по покеру наизусть, но в конкретной раздаче она тупит, потому что не понимает, какой именно принцип применить прямо сейчас — блефовать или сбрасывать. LLM генерирует текст токен за токеном и делает выбор неявно, на ходу. В итоге вместо холодного расчета получается случайный арбитраж, где модель просто болтает, надеясь угадать правильную линию поведения.

Это как если бы ты пришел на экзамен по вождению, зная все правила, но в момент, когда перед тобой вылетает грузовик, начал бы вспоминать главу про экологичную парковку. Формально ты эксперт, но в моменте — абсолютно бесполезен. PokerSkill лечит этот маразм, разделяя процесс на три жестких этапа: сначала сухая математика ситуации, потом принудительная «инъекция» только тех знаний, которые важны сейчас, и в конце — выбор из строго ограниченного списка действий.

Система работает через трехэтапный конвейер, который не дает модели растекаться мыслью по древу. Сначала идет детерминированный анализ: мы скармливаем нейронке голые цифры и факты о раздаче. Затем — инъекция знаний, когда мы буквально тыкаем модель носом в нужный фрагмент стратегии, отсекая лишний шум. И финал — ограниченный набор вариантов, чтобы у AI не было шанса выдумать какую-нибудь дичь. Это превращает LLM из болтливого теоретика в хладнокровного профи, который играет на уровне экспертов без всяких солверов и дообучения.

Тестировали это на покере, но принцип универсален для любой сложной задачи, где сталкиваются лбами разные правила. Это сработает в юридических консультациях, медицинской диагностике или управлении рисками — везде, где нужно не просто «поговорить», а выбрать одну верную траекторию из десяти возможных. LLM — плохой арбитр, если оставить её наедине со своими мыслями, но если зажать её в рамки этого метода, она начинает выдавать результат уровня топовых специалистов.

Короче: если твоя задача сложнее, чем написание поста в соцсети, забудь про обычные промпты. Нужно внедрять архитектурный фильтр, который заставляет модель сначала анализировать, а потом выбирать из конкретных опций. Без этого нейронка так и будет выдавать взвешенный бред вместо экспертного решения. PokerSkill доказал, что интеллект модели упирается не в объем знаний, а в умение вовремя заткнуть лишние мысли и сфокусироваться на главном.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с