Погоня за согласованностью: количественная оценка и оптимизация соответствия человека и модели в рассуждениях по цепочке мыслей
КЛЮЧЕВАЯ СУТЬ
LLM проваливает сложные рассуждения не из-за нехватки знаний, а из-за накопления ошибок в длинных логических цепочках — как в игре «испорченный телефон». Метод 2-Hop Reasoning позволяет получать стабильно логичные ответы, структурируя задачу так, чтобы модель делала ровно два последовательных шага: Анализ → Вывод. Исследование выявило 4 типа «смертных грехов» в рассуждениях LLM: смещение темы (модель «съезжает» на нерелевантное), избыточность (топчется на месте), логический разрыв (вывод не следует из шагов) и инверсия причины-следствия. Эксперименты показали: 2-шаговые рассуждения дают на 40% меньше ошибок, чем цепочки из 3+ шагов.