Рассуждение, управляемое уверенностью, в больших языковых моделях: Подход с динамическим бюджетом мышления
КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM генерируют ответы токен за токеном, но не умеют самостоятельно оценивать «достаточно ли я подумала». Отсюда либо галлюцинации (остановились слишком рано), либо пустая болтовня (продолжили слишком долго). CGR позволяет модели самостоятельно балансировать между скоростью и точностью — давать быстрый ответ, когда она уверена, и продолжать рассуждать, когда сомневается. Механизм работает через периодическую самопроверку: модель останавливается и спрашивает себя «насколько я уверена в текущем ответе?» Если вероятность следующего токена выше порога (97%+) — она выдает результат. Если ниже — вводится специальный токен "Wait" (Подожди), заставляющий продолжить размышления. Результат: 95% точности вместо уверенных, но ошибочных ответов.