Reddit20 мая 2026 г.

Qwen 3.6 35B GGUF: Сравнение квантования NTP и MTP на GPU и CPU

ByteShape выпустила квантованные версии модели Qwen 3.6 35B в форматах NTP и MTP с детальным бенчмарком на различных GPU и CPU. Результаты показали, что MTP ускоряет генерацию на видеокартах на 20–40%, но на процессорах преимущество отсутствует, а выбор более крупного квантования часто выгоднее минимизации битности.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tipihx/qwen_36_35b_gguf_ntp_vs_mtp_quantization_results/