Reddit
llama.cpp: нативная поддержка NVFP4 на архитектуре Blackwell
Библиотека llama.cpp выпустила обновление с нативной поддержкой формата квантования NVFP4 для GPU NVIDIA Blackwell. Опубликованы результаты тестов производительности модели Qwen 27B, демонстрирующие высокую скорость генерации токенов при полном использовании видеопамяти.
score 40r/LocalLLaMA