Назад к дайджесту
Reddit

vLLM добавил исправление TurboQuant для Qwen 3.5+

vLLM объединила PR с исправлением TurboQuant для моделей Qwen 3.5+, ранее вызывавших ошибку Not Implemented из-за Mamba-слоёв. Теперь квантование доступно через аргумент --kv-cache-dtype turboquant_4bit_nc при условии настройки батча токенов. Обновление устраняет барьеры для эффективного инференса Qwen в среде vLLM.

score 71r/LocalLLaMA