Reddit
Оптимизация CUDA в llama.cpp: снижение накладных расходов MMQ stream-k
В библиотеку llama.cpp добавлен пулл-реквест, ускоряющий обработку промптов на GPU NVIDIA для MoE-моделей. Изменения направлены на уменьшение накладных расходов в потоке MMQ, что критично для производительности современных LLM. Это важный апдейт для разработчиков, развертывающих нейросети локально.
score 42r/LocalLLaMA