GitHub
AutoMegaKernel: компилятор моделей в CUDA-ядра
Инструмент от RightNow-AI, который компилирует нейросети в единые самонастраивающиеся CUDA-мега-ядра. Система гарантирует доказанную корректность кода и превосходит cuBLAS по скорости декодирования LLM при батче 1. Проект сопровождается научной статьёй с детальным описанием алгоритмов.
595 forksPythonscore 81.4
cudagpumegakernelagent-harnessgpu-programmingmlsysllm-inferencekernel-fusionmachine-learning