Reddit
MiMo V2.5: поддержка в llama.cpp и релиз GGUF-квантований
Разработчик добавил поддержку модели MiMo V2.5 в библиотеку llama.cpp и выложил квантованные версии на Hugging Face. Доступны оптимизированные для MoE-архитектуры квантования Q8_0 и Q6_K, при этом исправлена ошибка с NaN в версии Q4_K_M.
score 16r/LocalLLaMA