Reddit
Бенчмарки Qwen3.5-122B: сравнение квантования Q5 и Q6 с MTP
Пользователь публикует детальные замеры скорости генерации для модели Qwen3.5-122B с применением Multi-Token Prediction (MTP) в llama.cpp. Результаты показывают эффективность квантования Q5 и Q6 на платформе Strix Halo с использованием ROCm. Информация полезна для разработчиков, оптимизирующих инференс больших языковых моделей.
score 31r/LocalLLaMA