Reddit
Qwen 3.6 35B GGUF: Сравнение квантования NTP и MTP на GPU и CPU
ByteShape выпустила квантованные версии модели Qwen 3.6 35B в форматах NTP и MTP с детальным бенчмарком на различных GPU и CPU. Результаты показали, что MTP ускоряет генерацию на видеокартах на 20–40%, но на процессорах преимущество отсутствует, а выбор более крупного квантования часто выгоднее минимизации битности.
score 100r/LocalLLaMA