Reddit
В llama.cpp объединили предварительную поддержку нативного NVFP4 MMQ для SM120
Библиотека llama.cpp получила предварительную поддержку нативного формата квантования NVFP4 MMQ для архитектуры NVIDIA Blackwell (SM120). Это позволяет запускать LLM с повышенной эффективностью на новом железе. В материале также указаны примеры GGUF-моделей (Gemma, Nemotron, Qwen), уже конвертированных под этот стандарт.
score 61r/LocalLLaMA