3,583 papers
arXiv:2506.01341 95 1 июня 2025 г. PRO

TurnBench-MS: Бенчмарк для оценки многоповоротного многопроцессного рассуждения в крупных языковых моделях.

КЛЮЧЕВАЯ СУТЬ
Заставляй модель ДУМАТЬ ВСЛУХ перед финальным ответом и немедленно перезапускай диалог при обнаружении ранних ошибок. LLM работают как ЦЕПОЧКА РАССУЖДЕНИЙ – если одно звено неверно, вся цепь ломается. Пошаговое мышление создает внутренний контекст и снижает ошибки, но модель практически не способна самостоятельно исправить неверный ход мысли.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с