Reddit29 апреля 2026 г.

Бенчмарк llama.cpp: нативный NVFP4 на Blackwell против версии без поддержки

Сравнение сборок llama.cpp с нативной поддержкой NVFP4 и без неё на GPU NVIDIA Blackwell (RTX 5090) показало значительный рост скорости обработки промптов на 57% для модели Qwen3.6-27B. Однако скорость генерации токенов осталась неизменной, что делает обновление приоритетным для задач с длинными контекстами и RAG.

score 83r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1syxckc/llamacpp_benchmark_native_vs_non_native_nvfp4_on/