GitHub18 июня 2026 г.

Новый движок imp для инференса LLM на RTX 5090

Создан новый движок инференса LLM imp на C++/CUDA, специально заточенный под NVIDIA RTX 5090. Проект поддерживает нативный формат NVFP4 и обещает скорость выше, чем у llama.cpp и vLLM. Весь код написан ИИ-ассистентом Claude Code.

212 forksCudascore 67.5

nvfp4qwenggufquantizationllama-cppllm-inferencevllmcppfp4inference-engine

kekzl/imphttps://github.com/kekzl/imp