Все концепты

1

Fake Prediction Markets: ставки как калиброванный сигнал уверенности LLM

4 концепта

89

Проблемы (1)

Модель не показывает степень уверенности

Спрашиваешь "насколько уверен". Получаешь слова: "вероятно", "скорее всего", "точно". Эти слова нельзя сравнить. Два ответа "вероятно" — где уверенность выше? Непонятно. Даже "оцени от 1 до 10" не помогает — модель ставит всем 7-8 баллов без реального различия

Как обойти

Дай модели виртуальный бюджет (100 очков, 1000 баллов). Попроси распределить на все ответы. Правило: угадал — очки сохраняются, ошибся — теряешь. Размер "ставки" покажет реальную уверенность. Нельзя дать всем максимум — заставит выбирать

Методы (1)

Виртуальные ставки — шкала уверенности

Дай модели начальный бюджет (например, 1 млн виртуальных монет). Для каждого ответа/прогноза модель должна "поставить" от минимума (1 монета) до максимума (100 тысяч). Угадала — ставка добавляется к балансу. Ошиблась — вычитается. Сумма всех ставок не может превышать текущий баланс. Почему работает: Ограниченный ресурс заставляет различать. На уверенные ответы ставит много. На сомнительные — копейки. Без лимита модель даст всем среднюю оценку. С лимитом вынуждена приоритизировать. Когда применять: множество оценок (10+ вариантов), нужно ранжирование по надёжности, есть способ проверить правильность. Не работает: один ответ (нечего сравнивать), субъективные оценки без проверки ("насколько текст красивый"), задачи где нельзя дать обратную связь

Тезисы (2)

Числовой feedback работает в разы сильнее словесного

Когда показываешь модели результат её работы, число создаёт более сильный сигнал чем слово. Пример: "−50 очков, осталось 950/1000" громче чем "неправильно". Модель быстрее корректирует поведение. В тестах с числовым feedback улучшение за 4 раунда было в ~4 раза быстрее (12 пунктов роста точности против 3 пунктов при словесном feedback). Применяй: Вместо "ошибка" пиши конкретную цифру: "счёт 2/10", "потеряно 30 баллов из 100", "−500 очков". Чем конкретнее число — тем сильнее якорь для обучения

Самооценка через распределение ресурса показывает реальную точность

Когда модель сама оценивает уверенность не словами, а распределением ограниченного бюджета между вариантами, эта оценка коррелирует с реальной точностью ответа. Механизм: ограниченный ресурс заставляет модель "делать ставку" только там где она видит сильные признаки правильности. Крупные числа (много очков на вариант) = высокая внутренняя уверенность = чаще правильный ответ. Мелкие числа = модель сомневается = чаще ошибка. Применяй: После получения ответов с "ставками" фильтруй по размеру. Варианты с крупными ставками обрабатывай первыми — там модель увереннее и точнее. Варианты с копеечными ставками проверяй вручную или отбрасывай

2

Model-First Reasoning: явная модель задачи перед решением

2 концепта

PRO

Fake Prediction Markets: ставки как калиброванный сигнал уверенности LLM

Model-First Reasoning: явная модель задачи перед решением

Prompt Perturbation & Fraction Facilitation: как мелкие изменения промпта дают разные результаты

Analytic Hints: усиление LLM-судьи через структурированные подсказки

AI-реклама превосходит экспертов: authority и consensus как главное оружие

Stepwise Think-Critique (STC): встроенная самопроверка на каждом шаге рассуждения

Reasoning Overconfidence: почему LLM останавливается на первом решении и как это обойти

MAR (Multi-Agent Reflexion): дебаты персон вместо самокритики

Point-Label-Count: последовательный подсчёт объектов в мультимодальных моделях

U-кривая соблюдения ограничений: почему промпты средней длины — худший вариант

ICE (Invasive Context Engineering): контроль LLM через периодические напоминания в контексте

Confessions: отделение награды за честность от награды за результат

Prompt Repetition: удвоение промпта для лучшей точности без reasoning

Структурированный CoT против глубоких рассуждений: когда "думай пошагово" вредит генерации кода

"Лень" LLM: почему модели дают короче и меньше, чем просишь

Test-Time Scaling для Vision-Language моделей: когда усилия окупаются, а когда вредят

Холистическая оценка LLM для генерации кода: какие модели пишут лучше и почему добавление слова "оптимизируй" снижает ошибки на 30%

Population-Evolve: параллельная эволюция популяции решений

Декларативная генерация кода: когда символьные решатели побеждают Chain-of-Thought

HBLR: обратное логическое рассуждение с гибридным переводом в формальную логику

Orchestrator Multi-Agent: координация экспертов через агента-диспетчера

Экспертные персоны в промптах: не улучшают фактическую точность

Dual-Agent UAV-GPT: разделение планирования и исполнения через двух LLM-агентов

RT-ICA: обратное мышление для поиска недостающих данных

The Forecast Critic: визуальная оценка прогнозов через LLM

CoDA: разделение контекстов Планировщика и Исполнителя

Четыре парадигмы поиска в больших базах данных через LLM

RF-SeqBoN: последовательная генерация с фильтрацией по качеству

Agentic XAI: итеративное улучшение объяснений через многораундовую обработку

BRAID: структурированное рассуждение через диаграммы вместо текста

Разблокируйте все концепты с PRO