TL;DR
Fake Prediction Markets — техника, которая добавляет к любому прогнозу или оценке модели механизм ставок: у модели есть виртуальная валюта (например, 1 млн LLMCoin), и она ставит на каждый свой ответ от 1 до 100,000 монет. Ставка показывает степень уверенности — whale-ставки (40k+) оказались правильными в 99% случаев, мелкие ставки (<1k) — только в 74%. Это превращает бинарный "да/нет" ответ в градацию уверенности с числовым якорем.
Обычно LLM выдают бинарные ответы или текстовые оценки ("вероятно", "скорее всего"), но внутренняя уверенность скрыта. Ты не знаешь насколько модель уверена в "да". Исследователи проверили: три модели прогнозировали правильность ответов шести других моделей на 100 математических задачах. В контрольной группе — простое "правильно/неправильно". В экспериментальной — те же прогнозы + обязательная ставка. Размер ставки чётко коррелировал с точностью: чем крупнее ставка, тем чаще модель была права. При этом точность прогнозов выросла незначительно (+2.4 процентных пункта, статистически не значимо), но скорость обучения увеличилась в 4 раза: в Incentive-режиме модели улучшили точность на 12 процентных пунктов между первым и четвёртым раундом, против 2.9 в контрольной группе.
Суть метода: добавляешь к задаче финансовый фрейминг — виртуальный банкролл, правила выигрыша/проигрыша ставки, цель максимизировать богатство. Модель начинает дифференцировать уверенность численно: на "уверенные" прогнозы ставит много, на сомнительные — копейки. Никаких изменений в весах модели — меняется только формат запроса и output (добавляется число-ставка к каждому ответу).
Схема метода
Контрольный вариант (для сравнения):
Задача → Прогноз: Да/Нет → Результат
Incentive-вариант (с механизмом ставок):
СТАРТ: Банкролл = 1,000,000 LLMCoin
ДЛЯ КАЖДОЙ ЗАДАЧИ:
1. Прогноз: Правильно/Неправильно
2. Ставка: от 1 до 100,000 монет
3. Краткое обоснование (опционально)
ПРАВИЛА ВЫПЛАТ:
- Прогноз верен → +ставка к банкроллу
- Прогноз неверен → -ставка из банкролла
ОГРАНИЧЕНИЯ:
- Сумма ставок в раунде ≤ текущий банкролл
- Банкролл < 1 монеты = банкротство (конец)
ПОСЛЕ КАЖДОГО РАУНДА:
- Feedback: какие прогнозы были верны
- Отчёт: выигрыши, проигрыши, новый баланс
Всё происходит в одном диалоге с моделью. Каждая задача = один вывод с прогнозом + ставкой.
Пример применения
⚠️ Метод работает лучше всего: когда нужно ранжировать уверенность по множеству оценок/прогнозов, а не получить одну правильную оценку. Не подходит для субъективных креативных задач без верифицируемого результата.
Задача: У тебя 20 идей для стартапа в edtech. Ты хочешь понять в каких направлениях копать глубже — нужна приоритизация по уверенности, не просто список плюсов-минусов.
Промпт:
Ты — венчурный аналитик с банкроллом 1,000,000 VCCoin.
Твоя задача: спрогнозировать для каждой идеи из списка — сможет ли она привлечь seed-раунд ≥30 млн рублей от российских фондов в 2025 году.
Правила:
- Для каждой идеи дай прогноз: ДА (привлечёт) или НЕТ (не привлечёт)
- К каждому прогнозу добавь СТАВКУ от 1 до 100,000 VCCoin
- Если прогноз верен — ты выигрываешь ставку
- Если неверен — теряешь ставку
- Сумма всех ставок не может превышать текущий банкролл
- Цель: максимизировать итоговый банкролл
Формат вывода для каждой идеи:
{
"идея": "[название]",
"прогноз": "ДА/НЕТ",
"ставка": [число от 1 до 100000],
"обоснование": "[1 предложение]"
}
Вот 20 идей:
1. Платформа для корп. обучения с ИИ-ассистентом...
2. Мобильное приложение для подготовки к ЕГЭ...
[... остальные идеи]
После прогнозов покажи:
- Топ-5 идей с самыми крупными ставками
- Топ-5 идей с самыми мелкими ставками
- Итоговая сумма ставок
Результат:
Модель выдаст JSON-список с прогнозом и ставкой для каждой идеи. Размер ставки покажет уверенность модели: whale-ставки 50k-100k монет пойдут на идеи с явным product-market fit и понятной бизнес-моделью (например, "корп. обучение с измеримым ROI для HR"). Мелкие ставки 100-5000 монет — на идеи с высокой неопределённостью (например, "соцсеть для школьников с gamification"). В финале ты увидишь ранжированный по уверенности список и сможешь сфокусироваться на топе, где модель "поставила всё".
Ты получаешь не просто оценку каждой идеи, а численную шкалу приоритетов, основанную на калибровке модели. Это работает лучше чем "оцени по шкале 1-10", потому что ставка привязана к банкроллу и риску — модель не может поставить 100k на все идеи, ей нужно выбирать.
Почему это работает
Слабость: LLM плохо калибруют уверенность в бинарных или текстовых ответах. "Скорее всего" и "вероятно" — размытые слова. Даже если попросить "оцени уверенность 1-10", модель не понимает относительную важность оценок внутри одного запроса: все могут получить 7-8 баллов.
Сильная сторона: LLM отлично ранжируют и умеют работать с численными ограничениями, если ограничения явные и привязаны к контексту. Когда у модели есть конечный ресурс (банкролл) и явные правила (выиграл/проиграл ставку), она начинает дифференцировать задачи по уверенности.
Как метод это использует: Фрейминг "максимизируй банкролл" превращает задачу в задачу оптимизации с ограничениями. Модель не может поставить по 100k монет на все прогнозы — нужно выбрать где уверенность высокая. Ставка становится proxy для внутренней вероятности: если модель видит явные признаки правильности (например, простая задача + сильная модель), она ставит много. Если есть неопределённость — ставит копейки.
Дополнительный эффект: Механизм обратной связи через числовой баланс ускоряет обучение. После каждого раунда модель видит "+45,000" или "−12,000" — это более яркий сигнал для attention-механизма, чем просто "wrong". В исследовании модели в Incentive-режиме улучшили точность на 12 процентных пунктов между первым и четвёртым раундом, а в контрольной группе — только на 2.9. Численный убыток/прирост громче для модели, чем словесный feedback.
Рычаги управления промптом:
Размер банкролла (1М → 100k или 10М) — меняет гранулярность ставок. Больше банкролл = больше диапазон для дифференциации.
Диапазон ставок (1-100k → 1-1k или 1-1М) — влияет на то, насколько агрессивно модель может выразить уверенность. Узкий диапазон = меньше различий между "уверен" и "не уверен".
Правила выплат (чётные odds → разные коэффициенты для разных задач) — можно усложнить: "ставка на сложную задачу = выплата ×2". Это заставит модель пересчитывать соотношение риск/доход.
Условие банкротства (убери или замени на "мягкий штраф") — если убрать жёсткий лимит, модель будет вести себя смелее. Если добавить "лимит ставки = 10% от баланса" — консервативнее.
Feedback между раундами (только баланс → баланс + детализация ошибок) — детальный разбор "где и почему проиграл" ускорит обучение ещё сильнее.
Эти рычаги позволяют настраивать чувствительность метода под свою задачу: хочешь агрессивную дифференциацию — увеличь диапазон ставок; хочешь безопасное ранжирование — добавь лимиты на одну ставку.
Шаблон промпта
Ты — {роль, например: эксперт/аналитик/оценщик} с банкроллом {число} {название валюты, например: AnalystCoin}.
Твоя задача: для каждого {объект оценки: идея/прогноз/вариант/решение} из списка дать прогноз {критерий: "сработает/не сработает", "правильно/неправильно", "выгодно/невыгодно"}.
Правила:
- Для каждого объекта дай прогноз: {вариант А} или {вариант Б}
- К каждому прогнозу добавь СТАВКУ от {минимум, например: 1} до {максимум, например: 100000} {название валюты}
- Если прогноз верен — ты выигрываешь ставку (добавляется к балансу)
- Если неверен — теряешь ставку (вычитается из баланса)
- Сумма всех ставок не может превышать текущий банкролл
- Цель: максимизировать итоговый банкролл
Формат вывода для каждого объекта:
{
"название": "[название объекта]",
"прогноз": "{вариант А/вариант Б}",
"ставка": [число],
"обоснование": "[1-2 предложения]"
}
Список объектов для оценки:
{вставь список задач/вариантов/идей}
После всех прогнозов покажи:
- Топ-5 объектов с самыми крупными ставками (самая высокая уверенность)
- Топ-5 объектов с самыми мелкими ставками (низкая уверенность)
- Итоговая сумма всех ставок
- Остаток банкролла после ставок
Что подставлять:
- {роль} — контекст эксперта (венчурный аналитик, технический ревьюер, редактор)
- {число} — начальный банкролл, обычно 1,000,000 или 100,000
- {название валюты} — выдумай имя (VCCoin, EditorCoin, TechToken) — это создаёт игровой фрейминг
- {объект оценки} — что оцениваешь (идеи стартапов, фрагменты кода, варианты текста)
- {критерий} — бинарный критерий с верифицируемым результатом (сработает/не сработает, есть баг/нет бага)
- {вариант А/Б} — два возможных исхода прогноза
- {минимум/максимум} — диапазон ставок, обычно 1–100,000
- {список} — конкретные объекты для оценки
Почему структура работает
Это не программирование, это фрейминг. LLM не "выполняет код", она следует игровым правилам, описанным словами. Механизм ставок — это структурированная инструкция, которая создаёт:
Численное ограничение (банкролл) — модель вынуждена ранжировать задачи, не может раздать всем максимум.
Явное понятие риска (выиграл/проиграл ставку) — модель понимает что большая ставка = большая цена ошибки.
Feedback-петлю (обновление баланса) — численное изменение баланса громче для внимания модели, чем текстовое "wrong".
Эта структура превращает внутреннюю неопределённость модели в явный output — размер ставки. Без ставок модель генерирует "да" или "нет" без градаций. С ними — "да, и ставлю 80k" vs "да, но ставлю только 500".
Ограничения
⚠️ Арифметика ненадёжна: В трёх из девяти экспериментальных запусков модели слегка превысили лимит ставок в раунде (~0.2% overspend). Внутренний "учёт" выигрышей/проигрышей работал корректно, но планирование суммы ставок сбоило. Если точный контроль баланса критичен — проверяй арифметику снаружи (например, суммируй ставки сам или через скрипт).
⚠️ Нужен верифицируемый критерий: Метод работает когда есть объективная истина (правильный ответ, реальный исход события). Для субъективных оценок ("насколько текст креативен") модель не сможет получить feedback "ставка выиграла/проиграла" — калибровка сломается.
⚠️ Оптимален для множественных оценок: Если задача — одна оценка или один прогноз, ставка добавит сигнал уверенности, но ранжирование не сработает (нечего сравнивать). Метод даёт максимум пользы когда нужно приоритизировать 10-100+ объектов.
⚠️ Не улучшает точность сильно: В исследовании точность выросла на +2.4 процентных пункта (79.1% → 81.5%, p = .089, статистически незначимо). Главная ценность не в точности, а в калибровке — ты видишь где модель уверена (whale-ставки 99% точности), а где сомневается (мелкие ставки 74% точности).
Как исследовали
Исследователь сгенерировал 100 математических задач с алгоритмически верифицируемыми ответами (делимость, простые числа, модульная арифметика, линейные уравнения) через GPT-5 Extended Thinking + код для проверки. Это исключило "угадывание" из памяти тренировочных данных.
Шесть моделей-Baseline (три current-gen: Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R2; три prior-gen: Gemma 2 2B, Claude 3 Haiku, DeepSeek R1) решали все 100 задач. Current-gen модели ответили правильно на 93.3% задач, prior-gen — на 52.3%.
Три модели-Predictor (Grok 4 Expert, Mistral Large 2 Thinking, Qwen 3 Max Thinking) прогнозировали для каждой пары (задача, Baseline) — ответит ли Baseline правильно. Это 600 прогнозов за один запуск (100 задач × 6 Baseline-моделей).
Каждая Predictor-модель сделала три запуска в контрольной группе (просто "да/нет" прогнозы) и три в Incentive-группе (прогноз + ставка от 1 до 100k монет из банкролла 1М). Всего 9 запусков на условие = 5400 прогнозов на группу.
Задачи разбили на четыре раунда по 25 вопросов. После каждого раунда Predictor получал feedback: какие Baseline-модели ответили правильно. В Incentive-группе ещё показывали обновлённый баланс монет (сколько выиграл/проиграл).
Результаты показали: - Точность в Incentive чуть выше (81.5% vs 79.1%), но статистически незначимо (p = .089). - Обучение в 4 раза быстрее: Incentive-модели улучшили точность на 12 процентных пунктов от раунда 1 к раунду 4, контрольные — только на 2.9 (p = .011, эффект значим). - Whale-ставки почти безошибочны: ставки ≥40k монет были правильными в 98.8% случаев (168 из 170), мелкие ставки <1k — только в 73.9%.
Это показало что размер ставки — чистый сигнал калибровки. Модель сама "сортирует" прогнозы по уверенности через финансовый механизм.
Почему результаты такие? Численный feedback ("+45,000" vs "−12,000") визуально контрастнее для attention-механизма LLM, чем текстовое "correct/incorrect". После нескольких потерь на слабых Baseline-моделях, Predictor быстро переобучается: начинает ставить копейки на Gemma 2B и Haiku (которые часто ошибаются), и whale-ставки на Gemini/Sonnet (почти всегда правы). В контрольной группе этот паттерн тоже проявляется, но медленнее — нет яркого числового якоря для "насколько это было плохо".
Интересная деталь: Qwen в одном из запусков поставил минимум 1 монету на все 25 задач первого раунда, а потом резко раскрылся в раунде 2 — это похоже на стратегию "сначала разведай риски, потом агрессивно". Grok и Mistral вели себя более равномерно. Это показывает что разные модели интерпретируют игровой фрейминг по-своему.
Оригинал из исследования
Контекст: Исследователь использовал следующий промпт для Incentive-группы (с механизмом ставок). Приведён дословный фрагмент инструкции на английском, как она подавалась моделям-Predictor:
You are an expert forecaster with a bankroll of 1,000,000 LLMCoin.
Your task: For each (question, baseline model) pair, predict whether the baseline
model will answer the question correctly.
Rules:
- For each pair, output:
• "predicted_correct": "Yes" or "No"
• "stake": an integer between 1 and 100,000 LLMCoin
• "rationale": brief explanation (~20 words max)
- If your prediction is correct, you WIN the stake (added to bankroll).
- If your prediction is incorrect, you LOSE the stake (subtracted from bankroll).
Constraints:
- The sum of stakes in a round must not exceed your current bankroll.
- If your bankroll drops below 1 coin, you go bankrupt and the game ends.
Goal: Maximize your final LLMCoin balance.
After each round, you will receive:
1. Correctness summary (which baselines answered which questions correctly)
2. Updated bankroll statement (wins, losses, new balance)
Output format (JSON-like):
{
"round": [round number],
"question_id": [id],
"base_model_id": [id],
"predicted_correct": "Yes" / "No",
"stake": [integer 1-100000],
"rationale": "[brief reasoning]"
}
Для контрольной группы инструкция была идентична, но без полей "stake" и без упоминания банкролла/ставок. Цель формулировалась как "Focus on being accurate", а не "Maximize your bankroll".
Адаптации и экстраполяции
💡 Адаптация для рабочих сценариев: оценка собственных идей
Классический пример из исследования — прогнозирование правильности ответов других моделей. Но ты можешь применить ту же механику для оценки своих вариантов в любой задаче с множественным выбором.
Сценарий: У тебя 15 вариантов заголовка для лендинга. Нужно приоритизировать — на какие делать A/B-тест в первую очередь.
Промпт:
Ты — маркетолог-аналитик с банкроллом 500,000 MarketCoin.
Задача: спрогнозировать для каждого заголовка — наберёт ли он CTR выше 8%
на трафике из Яндекс.Директа (B2B SaaS, аудитория: руководители отделов продаж).
Правила:
- Для каждого заголовка дай прогноз: ДА (>8% CTR) или НЕТ (≤8%)
- К прогнозу добавь ставку от 1 до 50,000 MarketCoin
- Если прогноз верен → выигрываешь ставку
- Если неверен → теряешь ставку
- Сумма ставок по всем заголовкам ≤ 500,000
- Цель: максимизировать итоговый баланс
Формат:
{
"заголовок": "[текст]",
"прогноз": "ДА/НЕТ",
"ставка": [число],
"обоснование": "[почему]"
}
Заголовки:
1. "Увеличьте продажи на 40% за квартал"
2. "CRM, которая не требует обучения сотрудников"
3. "Как мы помогли 50+ компаниям автоматизировать отдел продаж"
[... остальные 12 вариантов]
После прогнозов покажи топ-5 по размеру ставки.
Результат: Модель поставит whale-ставки (30k-50k) на заголовки с явными триггерами для ЛПР (конкретные цифры, боли, быстрый результат). Мелкие ставки (1k-5k) — на абстрактные или креативные формулировки. Ты получаешь ranked shortlist для тестирования, основанный на уверенности модели в каждом варианте.
🔧 Техника: многораундовый feedback для доучивания модели
В оригинальном исследовании после каждого раунда модель получала feedback (правильные ответы + обновлённый баланс), и это ускорило обучение в 4 раза. Ты можешь симулировать это в своих задачах, даже если у тебя нет объективной истины.
Модификация промпта:
[Базовый промпт с механизмом ставок]
После того как дашь прогнозы, я дам тебе ЧАСТИЧНЫЙ feedback
(например, результаты по 5 объектам из 20).
Затем ты пересмотришь прогнозы по оставшимся 15 объектам и можешь
изменить ставки с учётом новой информации.
Цель: максимизировать финальный баланс после всех раундов.
Эффект: Модель адаптируется после первой волны feedback. Например, если ты оценивал 20 бизнес-идей, дал модели feedback по 5 (какие реально привлекли инвестиции), она перекалибрует ставки на оставшиеся 15 — снизит ставки на похожие идеи, которые провалились, поднимет на те, что выстрелили.
Это превращает метод в итеративную калибровку, где модель учится на твоих данных внутри одного диалога.
💡 Экстраполяция: confidence scoring без верифицируемой истины
Оригинальный метод требует feedback (правильно/неправильно), чтобы обновить баланс. Но ты можешь использовать только механику ставок для получения confidence score, даже если объективной истины нет.
Сценарий: Ты пишешь контент-план на месяц. 30 идей постов. Нужно понять где модель уверена, а где "на авось".
Промпт:
Ты — контент-стратег с банкроллом 1,000,000 ContentCoin.
Задача: для каждой идеи поста спрогнозируй — наберёт ли пост >500 лайков
в Telegram-канале про маркетинг (30k подписчиков).
Правила:
- Для каждой идеи: прогноз ДА/НЕТ + ставка от 1 до 100,000 монет
- Ты НЕ получишь feedback (это гипотетическая ставка)
- Но представь что ты максимизируешь баланс — ставь больше где уверен
Формат: [стандартный JSON]
30 идей постов:
[список]
Покажи топ-10 по размеру ставки (самая высокая уверенность).
Результат: Даже без реального feedback модель распределит ставки по внутренней уверенности. Ты получишь ranked list идей — топ-10 с whale-ставками = "модель считает что эти точно зайдут", низ списка с копеечными ставками = "тут неопределённость". Это лучше чем простое "оцени 1-10", потому что модель вынуждена выбирать из-за ограниченного банкролла.
Ресурсы
Going All-In on LLM Accuracy: Fake Prediction Markets, Real Confidence Signals
Michael Todasco, James Silberrad Center for Artificial Intelligence, San Diego State University
Preregistered at OSF: https://osf.io/dc24t/
