Reddit25 апреля 2026 г.

FP4-инференс в llama.cpp и ik_llama.cpp: NVFP4 и MXFP4 наконец-то доступны

Библиотеки llama.cpp и ik_llama.cpp получили поддержку FP4-инференса с использованием форматов NVFP4 и MXFP4. Это обеспечивает значительную экономию VRAM и ускоряет работу моделей на CUDA и CPU. В репозиториях уже доступны ядра для вычислений и примеры квантованных моделей.

score 27r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1svfjyv/fp4_inference_in_llamacpp_nvfp4_and_ik_llamacpp/