Reddit25 апреля 2026 г.

Оптимизация CUDA в llama.cpp: снижение накладных расходов MMQ stream-k

В библиотеку llama.cpp добавлен пулл-реквест, ускоряющий обработку промптов на GPU NVIDIA для MoE-моделей. Изменения направлены на уменьшение накладных расходов в потоке MMQ, что критично для производительности современных LLM. Это важный апдейт для разработчиков, развертывающих нейросети локально.

score 42r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1svdjfa/cuda_reduce_mmq_streamk_overhead_by/