Назад к дайджесту
Reddit

Оптимизация CUDA в llama.cpp: снижение накладных расходов MMQ stream-k

В библиотеку llama.cpp добавлен пулл-реквест, ускоряющий обработку промптов на GPU NVIDIA для MoE-моделей. Изменения направлены на уменьшение накладных расходов в потоке MMQ, что критично для производительности современных LLM. Это важный апдейт для разработчиков, развертывающих нейросети локально.

score 42r/LocalLLaMA