Reddit
Бенчмарк llama.cpp: нативный NVFP4 на Blackwell против версии без поддержки
Сравнение сборок llama.cpp с нативной поддержкой NVFP4 и без неё на GPU NVIDIA Blackwell (RTX 5090) показало значительный рост скорости обработки промптов на 57% для модели Qwen3.6-27B. Однако скорость генерации токенов осталась неизменной, что делает обновление приоритетным для задач с длинными контекстами и RAG.
score 83r/LocalLLaMA