Назад к дайджесту
Reddit

Qwen 3.6 35B GGUF: Сравнение квантования NTP и MTP на GPU и CPU

ByteShape выпустила квантованные версии модели Qwen 3.6 35B в форматах NTP и MTP с детальным бенчмарком на различных GPU и CPU. Результаты показали, что MTP ускоряет генерацию на видеокартах на 20–40%, но на процессорах преимущество отсутствует, а выбор более крупного квантования часто выгоднее минимизации битности.

score 100r/LocalLLaMA