Reddit5 мая 2026 г.

vLLM добавил исправление TurboQuant для Qwen 3.5+

vLLM объединила PR с исправлением TurboQuant для моделей Qwen 3.5+, ранее вызывавших ошибку Not Implemented из-за Mamba-слоёв. Теперь квантование доступно через аргумент --kv-cache-dtype turboquant_4bit_nc при условии настройки батча токенов. Обновление устраняет барьеры для эффективного инференса Qwen в среде vLLM.

score 71r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t3zu7u/vllm_just_merged_turboquant_fix_for_qwen_35/