Назад к дайджесту
Reddit

FP4-инференс в llama.cpp и ik_llama.cpp: NVFP4 и MXFP4 наконец-то доступны

Библиотеки llama.cpp и ik_llama.cpp получили поддержку FP4-инференса с использованием форматов NVFP4 и MXFP4. Это обеспечивает значительную экономию VRAM и ускоряет работу моделей на CUDA и CPU. В репозиториях уже доступны ядра для вычислений и примеры квантованных моделей.

score 27r/LocalLLaMA