3,583 papers
arXiv:2512.05998 89 1 дек. 2025 г. FREE

Fake Prediction Markets: ставки как калиброванный сигнал уверенности LLM

КЛЮЧЕВАЯ СУТЬ
Проблема: LLM отвратительно показывают уверенность. Просишь «да/нет» — получаешь невнятное «скорее всего». Даёшь шкалу 1-10 — всё сползает к 7-8 баллам. Метод Prediction Markets позволяет извлечь скрытую уверенность модели через численный сигнал — размер ставки на каждый прогноз. Фишка: не спрашивай процент уверенности — заставь модель рисковать виртуальными деньгами. Даёшь банкролл 1 млн монет, диапазон ставок 1-100k на каждый прогноз. Модель не может поставить максимум на всё — вынуждена выбирать. Крупные ставки 40k+ оказались правильными в 99% случаев, мелкие <1k — только в 74%. Размер ставки = индикатор реальной уверенности.
Адаптировать под запрос

TL;DR

Fake Prediction Markets — техника, которая добавляет к любому прогнозу или оценке модели механизм ставок: у модели есть виртуальная валюта (например, 1 млн LLMCoin), и она ставит на каждый свой ответ от 1 до 100,000 монет. Ставка показывает степень уверенности — whale-ставки (40k+) оказались правильными в 99% случаев, мелкие ставки (<1k) — только в 74%. Это превращает бинарный "да/нет" ответ в градацию уверенности с числовым якорем.

Обычно LLM выдают бинарные ответы или текстовые оценки ("вероятно", "скорее всего"), но внутренняя уверенность скрыта. Ты не знаешь насколько модель уверена в "да". Исследователи проверили: три модели прогнозировали правильность ответов шести других моделей на 100 математических задачах. В контрольной группе — простое "правильно/неправильно". В экспериментальной — те же прогнозы + обязательная ставка. Размер ставки чётко коррелировал с точностью: чем крупнее ставка, тем чаще модель была права. При этом точность прогнозов выросла незначительно (+2.4 процентных пункта, статистически не значимо), но скорость обучения увеличилась в 4 раза: в Incentive-режиме модели улучшили точность на 12 процентных пунктов между первым и четвёртым раундом, против 2.9 в контрольной группе.

Суть метода: добавляешь к задаче финансовый фрейминг — виртуальный банкролл, правила выигрыша/проигрыша ставки, цель максимизировать богатство. Модель начинает дифференцировать уверенность численно: на "уверенные" прогнозы ставит много, на сомнительные — копейки. Никаких изменений в весах модели — меняется только формат запроса и output (добавляется число-ставка к каждому ответу).


🔬

Схема метода

Контрольный вариант (для сравнения):

Задача → Прогноз: Да/Нет → Результат

Incentive-вариант (с механизмом ставок):

СТАРТ: Банкролл = 1,000,000 LLMCoin

ДЛЯ КАЖДОЙ ЗАДАЧИ:
  1. Прогноз: Правильно/Неправильно
  2. Ставка: от 1 до 100,000 монет
  3. Краткое обоснование (опционально)

ПРАВИЛА ВЫПЛАТ:
  - Прогноз верен → +ставка к банкроллу
  - Прогноз неверен → -ставка из банкролла

ОГРАНИЧЕНИЯ:
  - Сумма ставок в раунде ≤ текущий банкролл
  - Банкролл < 1 монеты = банкротство (конец)

ПОСЛЕ КАЖДОГО РАУНДА:
  - Feedback: какие прогнозы были верны
  - Отчёт: выигрыши, проигрыши, новый баланс

Всё происходит в одном диалоге с моделью. Каждая задача = один вывод с прогнозом + ставкой.


🚀

Пример применения

⚠️ Метод работает лучше всего: когда нужно ранжировать уверенность по множеству оценок/прогнозов, а не получить одну правильную оценку. Не подходит для субъективных креативных задач без верифицируемого результата.

Задача: У тебя 20 идей для стартапа в edtech. Ты хочешь понять в каких направлениях копать глубже — нужна приоритизация по уверенности, не просто список плюсов-минусов.

Промпт:

Ты — венчурный аналитик с банкроллом 1,000,000 VCCoin.

Твоя задача: спрогнозировать для каждой идеи из списка — сможет ли она привлечь seed-раунд ≥30 млн рублей от российских фондов в 2025 году.

Правила:
- Для каждой идеи дай прогноз: ДА (привлечёт) или НЕТ (не привлечёт)
- К каждому прогнозу добавь СТАВКУ от 1 до 100,000 VCCoin
- Если прогноз верен — ты выигрываешь ставку
- Если неверен — теряешь ставку
- Сумма всех ставок не может превышать текущий банкролл
- Цель: максимизировать итоговый банкролл

Формат вывода для каждой идеи:
{
  "идея": "[название]",
  "прогноз": "ДА/НЕТ",
  "ставка": [число от 1 до 100000],
  "обоснование": "[1 предложение]"
}

Вот 20 идей:
1. Платформа для корп. обучения с ИИ-ассистентом...
2. Мобильное приложение для подготовки к ЕГЭ...
[... остальные идеи]

После прогнозов покажи:
- Топ-5 идей с самыми крупными ставками
- Топ-5 идей с самыми мелкими ставками
- Итоговая сумма ставок

Результат:

Модель выдаст JSON-список с прогнозом и ставкой для каждой идеи. Размер ставки покажет уверенность модели: whale-ставки 50k-100k монет пойдут на идеи с явным product-market fit и понятной бизнес-моделью (например, "корп. обучение с измеримым ROI для HR"). Мелкие ставки 100-5000 монет — на идеи с высокой неопределённостью (например, "соцсеть для школьников с gamification"). В финале ты увидишь ранжированный по уверенности список и сможешь сфокусироваться на топе, где модель "поставила всё".

Ты получаешь не просто оценку каждой идеи, а численную шкалу приоритетов, основанную на калибровке модели. Это работает лучше чем "оцени по шкале 1-10", потому что ставка привязана к банкроллу и риску — модель не может поставить 100k на все идеи, ей нужно выбирать.


🧠

Почему это работает

Слабость: LLM плохо калибруют уверенность в бинарных или текстовых ответах. "Скорее всего" и "вероятно" — размытые слова. Даже если попросить "оцени уверенность 1-10", модель не понимает относительную важность оценок внутри одного запроса: все могут получить 7-8 баллов.

Сильная сторона: LLM отлично ранжируют и умеют работать с численными ограничениями, если ограничения явные и привязаны к контексту. Когда у модели есть конечный ресурс (банкролл) и явные правила (выиграл/проиграл ставку), она начинает дифференцировать задачи по уверенности.

Как метод это использует: Фрейминг "максимизируй банкролл" превращает задачу в задачу оптимизации с ограничениями. Модель не может поставить по 100k монет на все прогнозы — нужно выбрать где уверенность высокая. Ставка становится proxy для внутренней вероятности: если модель видит явные признаки правильности (например, простая задача + сильная модель), она ставит много. Если есть неопределённость — ставит копейки.

Дополнительный эффект: Механизм обратной связи через числовой баланс ускоряет обучение. После каждого раунда модель видит "+45,000" или "−12,000" — это более яркий сигнал для attention-механизма, чем просто "wrong". В исследовании модели в Incentive-режиме улучшили точность на 12 процентных пунктов между первым и четвёртым раундом, а в контрольной группе — только на 2.9. Численный убыток/прирост громче для модели, чем словесный feedback.

Рычаги управления промптом:

  1. Размер банкролла (1М → 100k или 10М) — меняет гранулярность ставок. Больше банкролл = больше диапазон для дифференциации.

  2. Диапазон ставок (1-100k → 1-1k или 1-1М) — влияет на то, насколько агрессивно модель может выразить уверенность. Узкий диапазон = меньше различий между "уверен" и "не уверен".

  3. Правила выплат (чётные odds → разные коэффициенты для разных задач) — можно усложнить: "ставка на сложную задачу = выплата ×2". Это заставит модель пересчитывать соотношение риск/доход.

  4. Условие банкротства (убери или замени на "мягкий штраф") — если убрать жёсткий лимит, модель будет вести себя смелее. Если добавить "лимит ставки = 10% от баланса" — консервативнее.

  5. Feedback между раундами (только баланс → баланс + детализация ошибок) — детальный разбор "где и почему проиграл" ускорит обучение ещё сильнее.

Эти рычаги позволяют настраивать чувствительность метода под свою задачу: хочешь агрессивную дифференциацию — увеличь диапазон ставок; хочешь безопасное ранжирование — добавь лимиты на одну ставку.


📋

Шаблон промпта

Ты — {роль, например: эксперт/аналитик/оценщик} с банкроллом {число} {название валюты, например: AnalystCoin}.

Твоя задача: для каждого {объект оценки: идея/прогноз/вариант/решение} из списка дать прогноз {критерий: "сработает/не сработает", "правильно/неправильно", "выгодно/невыгодно"}.

Правила:
- Для каждого объекта дай прогноз: {вариант А} или {вариант Б}
- К каждому прогнозу добавь СТАВКУ от {минимум, например: 1} до {максимум, например: 100000} {название валюты}
- Если прогноз верен — ты выигрываешь ставку (добавляется к балансу)
- Если неверен — теряешь ставку (вычитается из баланса)
- Сумма всех ставок не может превышать текущий банкролл
- Цель: максимизировать итоговый банкролл

Формат вывода для каждого объекта:
{
  "название": "[название объекта]",
  "прогноз": "{вариант А/вариант Б}",
  "ставка": [число],
  "обоснование": "[1-2 предложения]"
}

Список объектов для оценки:
{вставь список задач/вариантов/идей}

После всех прогнозов покажи:
- Топ-5 объектов с самыми крупными ставками (самая высокая уверенность)
- Топ-5 объектов с самыми мелкими ставками (низкая уверенность)
- Итоговая сумма всех ставок
- Остаток банкролла после ставок

Что подставлять: - {роль} — контекст эксперта (венчурный аналитик, технический ревьюер, редактор) - {число} — начальный банкролл, обычно 1,000,000 или 100,000 - {название валюты} — выдумай имя (VCCoin, EditorCoin, TechToken) — это создаёт игровой фрейминг - {объект оценки} — что оцениваешь (идеи стартапов, фрагменты кода, варианты текста) - {критерий} — бинарный критерий с верифицируемым результатом (сработает/не сработает, есть баг/нет бага) - {вариант А/Б} — два возможных исхода прогноза - {минимум/максимум} — диапазон ставок, обычно 1–100,000 - {список} — конкретные объекты для оценки


🏗️

Почему структура работает

Это не программирование, это фрейминг. LLM не "выполняет код", она следует игровым правилам, описанным словами. Механизм ставок — это структурированная инструкция, которая создаёт:

  1. Численное ограничение (банкролл) — модель вынуждена ранжировать задачи, не может раздать всем максимум.

  2. Явное понятие риска (выиграл/проиграл ставку) — модель понимает что большая ставка = большая цена ошибки.

  3. Feedback-петлю (обновление баланса) — численное изменение баланса громче для внимания модели, чем текстовое "wrong".

Эта структура превращает внутреннюю неопределённость модели в явный output — размер ставки. Без ставок модель генерирует "да" или "нет" без градаций. С ними — "да, и ставлю 80k" vs "да, но ставлю только 500".


⚠️

Ограничения

⚠️ Арифметика ненадёжна: В трёх из девяти экспериментальных запусков модели слегка превысили лимит ставок в раунде (~0.2% overspend). Внутренний "учёт" выигрышей/проигрышей работал корректно, но планирование суммы ставок сбоило. Если точный контроль баланса критичен — проверяй арифметику снаружи (например, суммируй ставки сам или через скрипт).

⚠️ Нужен верифицируемый критерий: Метод работает когда есть объективная истина (правильный ответ, реальный исход события). Для субъективных оценок ("насколько текст креативен") модель не сможет получить feedback "ставка выиграла/проиграла" — калибровка сломается.

⚠️ Оптимален для множественных оценок: Если задача — одна оценка или один прогноз, ставка добавит сигнал уверенности, но ранжирование не сработает (нечего сравнивать). Метод даёт максимум пользы когда нужно приоритизировать 10-100+ объектов.

⚠️ Не улучшает точность сильно: В исследовании точность выросла на +2.4 процентных пункта (79.1% → 81.5%, p = .089, статистически незначимо). Главная ценность не в точности, а в калибровке — ты видишь где модель уверена (whale-ставки 99% точности), а где сомневается (мелкие ставки 74% точности).


🔍

Как исследовали

Исследователь сгенерировал 100 математических задач с алгоритмически верифицируемыми ответами (делимость, простые числа, модульная арифметика, линейные уравнения) через GPT-5 Extended Thinking + код для проверки. Это исключило "угадывание" из памяти тренировочных данных.

Шесть моделей-Baseline (три current-gen: Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R2; три prior-gen: Gemma 2 2B, Claude 3 Haiku, DeepSeek R1) решали все 100 задач. Current-gen модели ответили правильно на 93.3% задач, prior-gen — на 52.3%.

Три модели-Predictor (Grok 4 Expert, Mistral Large 2 Thinking, Qwen 3 Max Thinking) прогнозировали для каждой пары (задача, Baseline) — ответит ли Baseline правильно. Это 600 прогнозов за один запуск (100 задач × 6 Baseline-моделей).

Каждая Predictor-модель сделала три запуска в контрольной группе (просто "да/нет" прогнозы) и три в Incentive-группе (прогноз + ставка от 1 до 100k монет из банкролла 1М). Всего 9 запусков на условие = 5400 прогнозов на группу.

Задачи разбили на четыре раунда по 25 вопросов. После каждого раунда Predictor получал feedback: какие Baseline-модели ответили правильно. В Incentive-группе ещё показывали обновлённый баланс монет (сколько выиграл/проиграл).

Результаты показали: - Точность в Incentive чуть выше (81.5% vs 79.1%), но статистически незначимо (p = .089). - Обучение в 4 раза быстрее: Incentive-модели улучшили точность на 12 процентных пунктов от раунда 1 к раунду 4, контрольные — только на 2.9 (p = .011, эффект значим). - Whale-ставки почти безошибочны: ставки ≥40k монет были правильными в 98.8% случаев (168 из 170), мелкие ставки <1k — только в 73.9%.

Это показало что размер ставки — чистый сигнал калибровки. Модель сама "сортирует" прогнозы по уверенности через финансовый механизм.

Почему результаты такие? Численный feedback ("+45,000" vs "−12,000") визуально контрастнее для attention-механизма LLM, чем текстовое "correct/incorrect". После нескольких потерь на слабых Baseline-моделях, Predictor быстро переобучается: начинает ставить копейки на Gemma 2B и Haiku (которые часто ошибаются), и whale-ставки на Gemini/Sonnet (почти всегда правы). В контрольной группе этот паттерн тоже проявляется, но медленнее — нет яркого числового якоря для "насколько это было плохо".

Интересная деталь: Qwen в одном из запусков поставил минимум 1 монету на все 25 задач первого раунда, а потом резко раскрылся в раунде 2 — это похоже на стратегию "сначала разведай риски, потом агрессивно". Grok и Mistral вели себя более равномерно. Это показывает что разные модели интерпретируют игровой фрейминг по-своему.


📄

Оригинал из исследования

Контекст: Исследователь использовал следующий промпт для Incentive-группы (с механизмом ставок). Приведён дословный фрагмент инструкции на английском, как она подавалась моделям-Predictor:

You are an expert forecaster with a bankroll of 1,000,000 LLMCoin.

Your task: For each (question, baseline model) pair, predict whether the baseline 
model will answer the question correctly.

Rules:
- For each pair, output:
  • "predicted_correct": "Yes" or "No"
  • "stake": an integer between 1 and 100,000 LLMCoin
  • "rationale": brief explanation (~20 words max)

- If your prediction is correct, you WIN the stake (added to bankroll).
- If your prediction is incorrect, you LOSE the stake (subtracted from bankroll).

Constraints:
- The sum of stakes in a round must not exceed your current bankroll.
- If your bankroll drops below 1 coin, you go bankrupt and the game ends.

Goal: Maximize your final LLMCoin balance.

After each round, you will receive:
1. Correctness summary (which baselines answered which questions correctly)
2. Updated bankroll statement (wins, losses, new balance)

Output format (JSON-like):
{
  "round": [round number],
  "question_id": [id],
  "base_model_id": [id],
  "predicted_correct": "Yes" / "No",
  "stake": [integer 1-100000],
  "rationale": "[brief reasoning]"
}

Для контрольной группы инструкция была идентична, но без полей "stake" и без упоминания банкролла/ставок. Цель формулировалась как "Focus on being accurate", а не "Maximize your bankroll".


💡

Адаптации и экстраполяции

📌

💡 Адаптация для рабочих сценариев: оценка собственных идей

Классический пример из исследования — прогнозирование правильности ответов других моделей. Но ты можешь применить ту же механику для оценки своих вариантов в любой задаче с множественным выбором.

Сценарий: У тебя 15 вариантов заголовка для лендинга. Нужно приоритизировать — на какие делать A/B-тест в первую очередь.

Промпт:

Ты — маркетолог-аналитик с банкроллом 500,000 MarketCoin.

Задача: спрогнозировать для каждого заголовка — наберёт ли он CTR выше 8% 
на трафике из Яндекс.Директа (B2B SaaS, аудитория: руководители отделов продаж).

Правила:
- Для каждого заголовка дай прогноз: ДА (>8% CTR) или НЕТ (≤8%)
- К прогнозу добавь ставку от 1 до 50,000 MarketCoin
- Если прогноз верен → выигрываешь ставку
- Если неверен → теряешь ставку
- Сумма ставок по всем заголовкам ≤ 500,000
- Цель: максимизировать итоговый баланс

Формат:
{
  "заголовок": "[текст]",
  "прогноз": "ДА/НЕТ",
  "ставка": [число],
  "обоснование": "[почему]"
}

Заголовки:
1. "Увеличьте продажи на 40% за квартал"
2. "CRM, которая не требует обучения сотрудников"
3. "Как мы помогли 50+ компаниям автоматизировать отдел продаж"
[... остальные 12 вариантов]

После прогнозов покажи топ-5 по размеру ставки.

Результат: Модель поставит whale-ставки (30k-50k) на заголовки с явными триггерами для ЛПР (конкретные цифры, боли, быстрый результат). Мелкие ставки (1k-5k) — на абстрактные или креативные формулировки. Ты получаешь ranked shortlist для тестирования, основанный на уверенности модели в каждом варианте.


📌

🔧 Техника: многораундовый feedback для доучивания модели

В оригинальном исследовании после каждого раунда модель получала feedback (правильные ответы + обновлённый баланс), и это ускорило обучение в 4 раза. Ты можешь симулировать это в своих задачах, даже если у тебя нет объективной истины.

Модификация промпта:

[Базовый промпт с механизмом ставок]

После того как дашь прогнозы, я дам тебе ЧАСТИЧНЫЙ feedback 
(например, результаты по 5 объектам из 20).

Затем ты пересмотришь прогнозы по оставшимся 15 объектам и можешь 
изменить ставки с учётом новой информации.

Цель: максимизировать финальный баланс после всех раундов.

Эффект: Модель адаптируется после первой волны feedback. Например, если ты оценивал 20 бизнес-идей, дал модели feedback по 5 (какие реально привлекли инвестиции), она перекалибрует ставки на оставшиеся 15 — снизит ставки на похожие идеи, которые провалились, поднимет на те, что выстрелили.

Это превращает метод в итеративную калибровку, где модель учится на твоих данных внутри одного диалога.


📌

💡 Экстраполяция: confidence scoring без верифицируемой истины

Оригинальный метод требует feedback (правильно/неправильно), чтобы обновить баланс. Но ты можешь использовать только механику ставок для получения confidence score, даже если объективной истины нет.

Сценарий: Ты пишешь контент-план на месяц. 30 идей постов. Нужно понять где модель уверена, а где "на авось".

Промпт:

Ты — контент-стратег с банкроллом 1,000,000 ContentCoin.

Задача: для каждой идеи поста спрогнозируй — наберёт ли пост >500 лайков 
в Telegram-канале про маркетинг (30k подписчиков).

Правила:
- Для каждой идеи: прогноз ДА/НЕТ + ставка от 1 до 100,000 монет
- Ты НЕ получишь feedback (это гипотетическая ставка)
- Но представь что ты максимизируешь баланс — ставь больше где уверен

Формат: [стандартный JSON]

30 идей постов:
[список]

Покажи топ-10 по размеру ставки (самая высокая уверенность).

Результат: Даже без реального feedback модель распределит ставки по внутренней уверенности. Ты получишь ranked list идей — топ-10 с whale-ставками = "модель считает что эти точно зайдут", низ списка с копеечными ставками = "тут неопределённость". Это лучше чем простое "оцени 1-10", потому что модель вынуждена выбирать из-за ограниченного банкролла.


🔗

Ресурсы

Going All-In on LLM Accuracy: Fake Prediction Markets, Real Confidence Signals

Michael Todasco, James Silberrad Center for Artificial Intelligence, San Diego State University

Preregistered at OSF: https://osf.io/dc24t/


📋 Дайджест исследования

Ключевая суть

Проблема: LLM отвратительно показывают уверенность. Просишь «да/нет» — получаешь невнятное «скорее всего». Даёшь шкалу 1-10 — всё сползает к 7-8 баллам. Метод Prediction Markets позволяет извлечь скрытую уверенность модели через численный сигнал — размер ставки на каждый прогноз. Фишка: не спрашивай процент уверенности — заставь модель рисковать виртуальными деньгами. Даёшь банкролл 1 млн монет, диапазон ставок 1-100k на каждый прогноз. Модель не может поставить максимум на всё — вынуждена выбирать. Крупные ставки 40k+ оказались правильными в 99% случаев, мелкие <1k — только в 74%. Размер ставки = индикатор реальной уверенности.

Принцип работы

Не «оцени уверенность по шкале 1-10» (все получат 7-8, различий ноль) → Создай игру с ограниченным ресурсом. Модель получает: - Банкролл 1,000,000 монет - Диапазон ставок: от 1 до 100,000 на каждый прогноз - Правило: верный прогноз = +ставка, неверный = −ставка - Ограничение: сумма ставок в раунде ≤ текущий баланс Модель вынуждена ранжировать задачи по уверенности — не может раздать всем по 100k, деньги кончаются. Где видит явные признаки правильности — ставит крупно. Где неопределённость — копейки. После каждого раунда модель видит обновлённый баланс: «+45,000» или «−12,000». Численный отклик вместо текстового «wrong».

Почему работает

LLM плохи в текстовых оценках («вероятно», «скорее всего» — размытые слова) и на абстрактных шкалах (1-10 без контекста). Но отлично работают с численными ограничениями и задачами оптимизации. Финансовый фрейминг «максимизируй банкролл» превращает запрос в задачу оптимизации с конечным ресурсом. Модель не просто генерирует «да», она рассчитывает риск: большая ставка = большая цена ошибки. Ставка становится proxy для внутренней вероятности — если модель видит простую задачу + сильные признаки, ставит много; если есть сомнения — сберегает деньги. Бонус: численная обратная связь ускоряет обучение в 4 раза. Модели в Incentive-режиме улучшили точность на 12 процентных пунктов между первым и четвёртым раундом, в контрольной группе (без ставок) — только на 2.9. Видишь «+45,000» — это ярче для внимания модели, чем слово «correct».

Когда применять

Для ранжирования множества оценок или прогнозов (10-100+ объектов) → конкретно когда нужна приоритизация по уверенности, а не просто список за/против. Примеры: - Оценка 50 идей стартапов — где копать глубже? - Прогноз правильности 100 решений задач — какие проверить вручную? - Сортировка 30 вариантов текста — на какие сделать ставку? НЕ подходит для: - Субъективных оценок без верифицируемого результата (насколько текст креативен? — модель не получит feedback «выиграл/проиграл») - Одиночных оценок (нечего ранжировать, калибровка не даст преимущества)

Мини-рецепт

1. Создай игру: дай модели роль (аналитик, эксперт) + начальный банкролл (обычно 1,000,000 виртуальных монет). Придумай название валюты (VCCoin, AnalystToken) — это усиливает игровой фрейминг.

2. Задай правила ставок: диапазон от 1 до 100,000 монет на каждый прогноз. Правило выплат: верный прогноз → +ставка к балансу, неверный → −ставка. Ограничение: сумма ставок ≤ текущий баланс.

3. Сформулируй критерий: бинарный прогноз с верифицируемым результатом (сработает/не сработает, правильно/неправильно, привлечёт инвестиции/нет). Избегай субъективных критериев.

4. Формат вывода: для каждого объекта модель должна дать {"название": "...", "прогноз": "ДА/НЕТ", "ставка": число, "обоснование": "1-2 предложения"}.

5. Запроси итог: попроси модель показать топ-5 объектов с крупнейшими ставками (высокая уверенность) и топ-5 с мелкими (низкая уверенность). Это твой ранжированный список приоритетов.

6. Опционально — многораундовый режим: после первого раунда дай feedback (какие прогнозы были верны), обнови баланс, запусти второй раунд. Численный отклик ускорит обучение модели.

Примеры

[ПЛОХО] : Оцени 20 идей edtech-стартапов по шкале 1-10, насколько вероятно что привлекут seed-раунд (Результат: все получат 6-8 баллов, различий не увидишь)
[ХОРОШО] : Ты — венчурный аналитик с банкроллом 1,000,000 VCCoin. Для каждой из 20 идей дай прогноз: привлечёт seed ≥30 млн рублей (ДА/НЕТ) + ставку от 1 до 100,000 монет. Правила: верный прогноз = +ставка, неверный = −ставка. Сумма ставок ≤ баланс. Цель: максимизировать итоговый банкролл. Формат: {"идея": "...", "прогноз": "ДА/НЕТ", "ставка": число, "обоснование": "..."}. После всех прогнозов покажи топ-5 с крупнейшими ставками и топ-5 с мелкими. (Результат: модель поставит 60k-100k на идеи с явным product-market fit и измеримым ROI, копейки 100-500 — на идеи с высокой неопределённостью. Ты увидишь численно ранжированный список, где модель «поставила всё», а где сомневается)
Источник: Going All-In on LLM Accuracy: Fake Prediction Markets, Real Confidence Signals
ArXiv ID: 2512.05998 | Сгенерировано: 2026-01-08 22:06

Проблемы LLM

ПроблемаСутьКак обойти
Модель не показывает степень уверенностиСпрашиваешь "насколько уверен". Получаешь слова: "вероятно", "скорее всего", "точно". Эти слова нельзя сравнить. Два ответа "вероятно" — где уверенность выше? Непонятно. Даже "оцени от 1 до 10" не помогает — модель ставит всем 7-8 баллов без реального различияДай модели виртуальный бюджет (100 очков, 1000 баллов). Попроси распределить на все ответы. Правило: угадал — очки сохраняются, ошибся — теряешь. Размер "ставки" покажет реальную уверенность. Нельзя дать всем максимум — заставит выбирать

Методы

МетодСуть
Виртуальные ставки — шкала уверенностиДай модели начальный бюджет (например, 1 млн виртуальных монет). Для каждого ответа/прогноза модель должна "поставить" от минимума (1 монета) до максимума (100 тысяч). Угадала — ставка добавляется к балансу. Ошиблась — вычитается. Сумма всех ставок не может превышать текущий баланс. Почему работает: Ограниченный ресурс заставляет различать. На уверенные ответы ставит много. На сомнительные — копейки. Без лимита модель даст всем среднюю оценку. С лимитом вынуждена приоритизировать. Когда применять: множество оценок (10+ вариантов), нужно ранжирование по надёжности, есть способ проверить правильность. Не работает: один ответ (нечего сравнивать), субъективные оценки без проверки ("насколько текст красивый"), задачи где нельзя дать обратную связь

Тезисы

ТезисКомментарий
Числовой feedback работает в разы сильнее словесногоКогда показываешь модели результат её работы, число создаёт более сильный сигнал чем слово. Пример: "50 очков, осталось 950/1000" громче чем "неправильно". Модель быстрее корректирует поведение. В тестах с числовым feedback улучшение за 4 раунда было в ~4 раза быстрее (12 пунктов роста точности против 3 пунктов при словесном feedback). Применяй: Вместо "ошибка" пиши конкретную цифру: "счёт 2/10", "потеряно 30 баллов из 100", "500 очков". Чем конкретнее число — тем сильнее якорь для обучения
Самооценка через распределение ресурса показывает реальную точностьКогда модель сама оценивает уверенность не словами, а распределением ограниченного бюджета между вариантами, эта оценка коррелирует с реальной точностью ответа. Механизм: ограниченный ресурс заставляет модель "делать ставку" только там где она видит сильные признаки правильности. Крупные числа (много очков на вариант) = высокая внутренняя уверенность = чаще правильный ответ. Мелкие числа = модель сомневается = чаще ошибка. Применяй: После получения ответов с "ставками" фильтруй по размеру. Варианты с крупными ставками обрабатывай первыми — там модель увереннее и точнее. Варианты с копеечными ставками проверяй вручную или отбрасывай
📖 Простыми словами

Fake Prediction Markets: ставки как калиброванный сигнал уверенности LLM

arXiv: 2512.05998

Нейросети патологически не умеют признаваться в том, что они чего-то не знают. Когда ты спрашиваешь модель о будущем или просишь выбрать стратегию, она всегда отвечает с одинаковым «лицом кирпичом», даже если внутри у нее полная каша. Проблема в том, что стандартные ответы в духе «я почти уверен» или «вероятно» — это пустой звук, который невозможно измерить. Метод Prediction Market Prompting вскрывает этот механизм: он заставляет модель не просто выдавать текст, а буквально рисковать ресурсами, превращая абстрактную уверенность в конкретные цифры.

Это как если бы твой друг постоянно давал «стопроцентные» советы, но как только ты предлагаешь ему поспорить на годовую зарплату, он тут же начинает юлить и уточнять детали. В этом и суть: когда на кону стоят виртуальные деньги, модель перестает нести чушь и начинает вести себя как профессиональный трейдер. Она вынуждена соотносить свои знания с риском потерять банкролл, что моментально подсвечивает зоны, где нейронка на самом деле «плавает».

Механика простая, но жесткая: ты даешь модели стартовый капитал, например, 1 000 000 LLMCoin, и заставляешь ее делать ставки на свои же прогнозы. Если она ставит 100 000 на один вариант и всего 500 на другой — поздравляю, ты получил реальный сигнал уверенности, а не дежурную отписку. Правильный прогноз увеличивает банк, ошибка — сжигает ставку. В такой «песочнице» модель сама калибрует свои ответы, потому что алгоритм игры на выживание работает точнее, чем любая попытка имитировать человеческую вежливость.

Тестировали это на прогнозах, но принцип универсален. Эту схему можно натянуть на бизнес-планирование, оценку рисков в коде или выбор маркетинговой стратегии. Вместо того чтобы спрашивать «какой лендинг лучше», ты заставляешь AI инвестировать в варианты. Если модель готова «всадить» половину бюджета в одну идею и копейки в другую — у тебя на руках готовый приоритет, подкрепленный математическим ожиданием, а не просто галлюцинациями о прекрасном.

Короче, завязывай верить модели на слово и начинай играть с ней в казино на вылет. Если хочешь выжать из AI правду, не проси ее «подумать», проси ее сделать ставку. Это превращает бесполезный текст в измеримый инструмент принятия решений, где размер ставки — единственный честный показатель того, стоит ли вообще слушать этот прогноз. Кто не внедрит такие «рынки предсказаний» внутри своих промптов, так и будет получать среднюю температуру по больнице вместо твердых данных.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с