Reddit17 мая 2026 г.

Бенчмарки Qwen3.5-122B: сравнение квантования Q5 и Q6 с MTP

Пользователь публикует детальные замеры скорости генерации для модели Qwen3.5-122B с применением Multi-Token Prediction (MTP) в llama.cpp. Результаты показывают эффективность квантования Q5 и Q6 на платформе Strix Halo с использованием ROCm. Информация полезна для разработчиков, оптимизирующих инференс больших языковых моделей.

score 31r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tf6qeb/qwen35122bq5mtp_qwen35122bq6mtp/