Назад к дайджесту
GitHub

Новый движок imp для инференса LLM на RTX 5090

Создан новый движок инференса LLM imp на C++/CUDA, специально заточенный под NVIDIA RTX 5090. Проект поддерживает нативный формат NVFP4 и обещает скорость выше, чем у llama.cpp и vLLM. Весь код написан ИИ-ассистентом Claude Code.

212 forksCudascore 67.5
nvfp4qwenggufquantizationllama-cppllm-inferencevllmcppfp4inference-engine