3,583 papers
arXiv:2511.12063 74 15 нояб. 2025 г. PRO

T-BoN BO: самосовершенствующийся AI через оптимистичный выбор улучшений

КЛЮЧЕВАЯ СУТЬ
Парадокс: Генерация стала дешёвой (LLM выдаёт 100 вариантов за минуты), а оценка — дорогой (A/B-тест тех же вариантов стоит недели и тысячи рублей на трафик). Методы типа GEPA оптимизируют скорость генерации, но игнорируют цену оценки — требуют протестировать 50+ вариантов для результата. T-BoN BO позволяет найти сильное решение за минимум реальных оценок — вдвое меньше чем state-of-the-art. Фишка: оптимистичный выбор — модель выбирает не "лучший сейчас", а "самый перспективный с учётом неопределённости". Баланс между "точно хорошо" (exploitation) и "может быть отлично" (exploration). Результат: 5-7 реальных оценок вместо 20-30.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с