TL;DR
Проблема привязки решения (decision-binding problem) — когда LLM знает все нужные концепции, но не может выбрать правильную в конкретный момент. Именно это убивает качество ответов в сложных ситуациях с несколькими конкурирующими принципами. PokerSkill — система, которая решает эту проблему через трёхэтапный конвейер: сначала детерминированный анализ ситуации, затем инъекция только нужного фрагмента знаний, затем решение в рамках ограниченного набора вариантов.
Модель знает всё — но это "всё" и является проблемой. Claude Opus 4.6 в покере буквально галлюцинирует другие карты: держа тройку четвёрок, пишет "у меня KQo и нет пары, полный воздух". Проблема не в незнании. Проблема в том, что одновременно релевантны десятки принципов — текстура доски, позиция, история ставок, размер стека — и модель вынуждена самостоятельно решить, какой принцип главный сейчас. При стандартном промпте она систематически ошибается в этом выборе.
Решение: убрать у модели задачу арбитража. Шаг 1 — детерминированные правила анализируют состояние и навешивают структурированные метки (тип доски, класс руки, сценарий действий). Шаг 2 — по меткам достаётся только релевантный фрагмент из библиотеки экспертных знаний. Шаг 3 — LLM выбирает среди ограниченного набора стратегически обоснованных действий. Модель не занимается отбором принципов — она применяет уже отобранный.
Схема метода
ШАГ 1 — КЛАССИФИКАЦИЯ [отдельный запрос или инструкция]
Анализируй ситуацию по фиксированным измерениям
→ Структурированные метки: [тип_A][уровень_B][роль_C][ограничения_D]
ШАГ 2 — ИНЪЕКЦИЯ ЗНАНИЯ [подставляется в следующий промпт]
По меткам из Шага 1 → выбор ОДНОГО релевантного принципа
из подготовленной библиотеки (не "думай обо всём", а "вот что
применимо именно здесь")
→ Один принцип + обоснование выбора
ШАГ 3 — ОГРАНИЧЕННОЕ РЕШЕНИЕ [финальный запрос]
Используя выбранный принцип → оценка предложенных вариантов
Модель работает в рамках, а не в открытом пространстве
→ Выбор + объяснение через единственный принцип
Шаги 1–3 выполняются последовательно — либо тремя отдельными запросами, либо как явные пронумерованные инструкции в одном промпте.
Пример применения
⚠️ Сильная зона метода: сложные многофакторные решения, где одновременно применимы несколько конкурирующих принципов. Слабая зона: простые задачи (там конкурирующих принципов нет и арбитраж не нужен).
Задача: Артём — основатель B2B-стартапа, получил два оффера на инвестиции. Первый: венчурный фонд, 15 млн рублей за 20% со стандартным term sheet. Второй: стратег из его отрасли, 12 млн за 15%, но с правом вето на ключевые партнёрства. Артём хочет понять, как правильно думать об этом выборе.
Промпт:
Анализируй инвестиционное предложение в три чётких шага.
Не перескакивай между шагами.
---
ШАГ 1. КЛАССИФИКАЦИЯ СИТУАЦИИ
Прочитай описание. Определи по каждому измерению:
- Стадия компании: [pre-seed / seed / series A]
- Основная потребность сейчас: [капитал / экспертиза / рынок / контакты]
- Тип риска № 1: [dilution / контроль / execution / market]
- Позиция фаундера на переговорах: [слабая / нейтральная / сильная]
Выведи ТОЛЬКО метки. Никаких выводов пока.
---
ШАГ 2. ВЫБОР ПРИНЦИПА
На основе меток из Шага 1 — выбери ОДИН из принципов ниже,
который применим сейчас. Объясни в одном предложении, почему
именно этот, а не остальные.
Принципы:
A) Капитал важнее условий на ранней стадии — денег в моменте.
B) Smart money важнее суммы — инвестор с экспертизой ценнее.
C) Контроль важнее денег — сохрани право принимать ключевые решения.
D) Оптимизируй под следующий раунд — смотри что привлекательно
для Series A, не для текущего момента.
---
ШАГ 3. РЕШЕНИЕ В РАМКАХ ПРИНЦИПА
Используя ТОЛЬКО выбранный принцип из Шага 2 —
оцени два оффера. Скажи какой предпочтительнее и почему.
Не апеллируй к другим принципам.
---
СИТУАЦИЯ:
Стартап — B2B SaaS, автоматизация HR-документооборота.
12 месяцев, ARR 4 млн рублей, растём 15% в месяц.
Команда 6 человек, деньги кончатся через 4 месяца.
Оффер 1: венчурный фонд, 15 млн за 20%, стандартный term sheet.
Оффер 2: стратег (HR-холдинг), 12 млн за 15%, вето на партнёрства.
Результат:
Модель покажет три явных блока. В Шаге 1 — только метки без вывода: [seed] [капитал] [execution] [нейтральная]. В Шаге 2 — выбор одного принципа (скорее всего A или D) с объяснением почему именно он, а не B или C. В Шаге 3 — анализ обоих офферов строго через этот принцип, без смешения соображений. Качество ответа вырастет: модель не будет взвешивать всё сразу и выдавать "с одной стороны... с другой стороны... зависит от ситуации".
Почему это работает
LLM — плохой арбитр конкурирующих принципов. Когда задача требует одновременно оценить пять измерений и выбрать, какое главное — модель делает этот выбор неявно, часто ошибочно. Это не баг, это архитектура: токен за токеном, без явного механизма "остановись и выбери фокус". Результат — выглядит как взвешенный анализ, а на деле случайный арбитраж.
LLM — отличный исполнитель в рамках заданного принципа. Когда принцип уже выбран и зафиксирован явно, модель применяет его последовательно и точно. "Оценивай только через эту линзу" — гораздо лучше, чем "думай обо всём". Уменьшаешь пространство задачи → растёт качество внутри этого пространства.
Метод использует модель там, где она сильна. Классификация ситуации + выбор принципа — это структурированное следование инструкции, модель с этим справляется. Применение принципа к конкретным вариантам — тоже понятная задача. Ломается именно неявный арбитраж "что важнее всего прямо сейчас". PokerSkill убирает этот шаг из задачи модели и делает его явным и отдельным.
Рычаги управления: - Количество принципов в библиотеке Шага 2 → больше принципов = точнее попадание, но сложнее промпт; начни с 3–5 для своей задачи - Жёсткость ограничения в Шаге 3 → "используй ТОЛЬКО выбранный принцип" vs "используй преимущественно" → первое даёт более чёткий ответ, второе — чуть более мягкий - Детализация меток в Шаге 1 → больше измерений = точнее выбор принципа, но есть риск слишком сложной классификации - Явность номеров шагов → помогает модели не смешивать этапы; убери нумерацию — и польза снизится
Шаблон промпта
Анализируй {задача} в три чётких шага.
Не перескакивай между шагами.
---
ШАГ 1. КЛАССИФИКАЦИЯ СИТУАЦИИ
Прочитай описание. Определи по каждому измерению:
- {измерение_1}: [{вариант_A} / {вариант_B} / {вариант_C}]
- {измерение_2}: [{вариант_A} / {вариант_B} / {вариант_C}]
- {измерение_3}: [{вариант_A} / {вариант_B} / {вариант_C}]
Выведи ТОЛЬКО метки. Никаких выводов пока.
---
ШАГ 2. ВЫБОР ПРИНЦИПА
На основе меток из Шага 1 — выбери ОДИН принцип,
который применим сейчас. Объясни в одном предложении, почему
именно этот, а не остальные.
Принципы:
A) {принцип_A}
B) {принцип_B}
C) {принцип_C}
D) {принцип_D}
---
ШАГ 3. РЕШЕНИЕ В РАМКАХ ПРИНЦИПА
Используя ТОЛЬКО выбранный принцип из Шага 2 —
{что нужно сделать: оценить / написать / выбрать / проанализировать}.
Не апеллируй к другим принципам.
---
СИТУАЦИЯ:
{описание ситуации}
ВАРИАНТЫ (если нужно):
{вариант_1}
{вариант_2}
Что подставлять:
- {задача} — тип задачи: "инвестиционное решение", "переговорную стратегию", "структуру аргументации"
- {измерение_N} — оси классификации, релевантные вашей задаче. Для бизнеса: стадия, тип риска, позиция. Для текста: аудитория, тональность, цель
- {принципы A-D} — конкурирующие подходы, из которых нужно выбрать один. Это ключ: принципы должны действительно противоречить друг другу, иначе арбитраж не нужен
- {что нужно сделать} — конкретный глагол: "оцени", "напиши", "выбери между", "сформулируй позицию"
🚀 Быстрый старт — вставь в чат:
Вот шаблон трёхшагового метода привязки решения.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про измерения классификации и набор конкурирующих принципов — потому что это ядро метода, без которого шаблон не работает. Она возьмёт трёхшаговую структуру и адаптирует её под твою задачу.
Ограничения
⚠️ Требует экспертной библиотеки принципов: Метод настолько хорош, насколько хороши принципы в Шаге 2. В оригинале их разрабатывали профессиональные покерные игроки годами. Для новой задачи принципы нужно составить самостоятельно — это требует экспертизы в теме.
⚠️ Зависимость от качества классификации: Если Шаг 1 неправильно навесил метки — Шаг 2 выберет не тот принцип, и Шаг 3 применит его идеально, но не к той ситуации. Garbage in → garbage out, только оформленный красиво.
⚠️ Не работает для простых задач: Если ситуация не требует арбитража конкурирующих принципов — три шага только усложнят и замедлят. Метод для сложных многофакторных решений.
⚠️ Полная система требует кода: Детерминированный движок состояния, бюджетная система, автоматическая библиотека на 60+ сценариев — это Python и инфраструктура. Описанный выше ручной вариант — это принцип метода, не полная реализация.
⚠️ Оценивается на покере: Насколько точно принцип переносится на деловые задачи — вопрос открытый. Покер более детерминирован и формализован, чем большинство реальных решений.
Как исследовали
Команда Цинхуа использовала GTOWizard — текущий эталон покерного ИИ, который обыгрывает лучшего открытого бота (Slumbot) на 194 mbb/hand (mbb/hand — условная единица покерного выигрыша). Это своего рода "тест на знание столицы" для покерных агентов: игра с GTOWizard = игра против почти оптимального соперника.
Исходная картина без PokerSkill была катастрофической: Claude Opus 4.6 проигрывал −204 mbb/hand, GPT-5.4 — −178 mbb/hand. Для контекста: Slumbot проигрывает GTOWizard примерно −100–120 mbb/hand. То есть топовые LLM проигрывали хуже, чем устаревший бот девятилетней давности.
С PokerSkill GPT-5.5 XHigh достиг −57 mbb/hand, что лучше Slumbot. Это первый случай, когда LLM-агент конкурентен с исторически сильными покерными системами — без тренировки и без решателей. Особенно интересно, что авторы проверили гипотезу о "правилах без LLM" и "LLM без правил" — оба варианта слабее. Стратегия экспертных правил без LLM: примерно −150 mbb/hand. LLM без правил: −170–200 mbb/hand. Сочетание: −57–87 mbb/hand. Синергия реальная, не аддитивная — сумма оказалась лучше, чем можно было ожидать от сложения.
Адаптации и экстраполяции
🔧 Техника: добавь "запрещённые принципы" в Шаг 2 → снижение контаминации
Если хочешь, чтобы модель действительно придерживалась одного принципа — явно укажи какие НЕ применять в этот раз:
ШАГ 2. ВЫБОР ПРИНЦИПА
[...]
Принципы A и B в данной ситуации НЕ применяются —
ситуация уже прошла эту стадию. Выбирай только из C и D.
🔧 Техника: используй Шаг 1 отдельно как диагностику
Можно использовать только первый шаг как отдельный инструмент — попросить LLM классифицировать ситуацию по структурированным измерениям, не переходя к решению. Это помогает понять: "а что вообще здесь происходит?" — прежде чем думать о том, что делать.
Классифицируй ситуацию ниже по измерениям:
[тип конфликта / стадия / власть / срочность].
Только метки, без выводов.
{ситуация}
Полезно для сложных деловых ситуаций, где не ясно под каким углом смотреть.
🔧 Техника: несколько прогонов с разными принципами → сравнение
Запусти Шаг 3 несколько раз, каждый раз принудительно фиксируя разный принцип — и сравни результаты:
Прогон 1: Используй ТОЛЬКО принцип A. [оцени ситуацию]
Прогон 2: Используй ТОЛЬКО принцип B. [оцени ту же ситуацию]
Прогон 3: Используй ТОЛЬКО принцип C. [оцени ту же ситуацию]
Это даёт несколько несмешанных перспектив вместо одной усреднённой. Полезно для стратегических решений, где важно видеть логику каждого подхода отдельно.
Ресурсы
PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers (май 2026)
Авторы: Boning Li, Baoxiang Wang, Longbo Huang
Организации: IIIS Tsinghua University; The Chinese University of Hong Kong, Shenzhen
Код: github.com/lbn187/PokerSkill
Бенчмарк: GTOWizard — gtowizard.com
Сравнение: Slumbot (открытый покерный бот, SoTA до 2025)
