Reddit
Moonshot открыла исходники FlashKDA: CUTLASS-ядро для Kimi Delta Attention с ускорением до 2.22x на H20
Moonshot AI открыла исходный код FlashKDA — оптимизированной на CUTLASS реализации ядра для линейного внимания Kimi Delta Attention. Библиотека интегрируется с flash-linear-attention и показывает до 2.22x ускорение на GPU H20 по сравнению с базовым Triton-решением. Это критически важно для эффективного развертывания линейных архитектур LLM на реальном железе.
score 97r/LocalLLaMA