Reddit22 апреля 2026 г.

Moonshot открыла исходники FlashKDA: CUTLASS-ядро для Kimi Delta Attention с ускорением до 2.22x на H20

Moonshot AI открыла исходный код FlashKDA — оптимизированной на CUTLASS реализации ядра для линейного внимания Kimi Delta Attention. Библиотека интегрируется с flash-linear-attention и показывает до 2.22x ускорение на GPU H20 по сравнению с базовым Triton-решением. Это критически важно для эффективного развертывания линейных архитектур LLM на реальном железе.

score 97r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1ss5j2x/moonshot_opensourced_flashkda_cutlass_kernels_for/