Reddit28 апреля 2026 г.

Бенчмарк KV-кэша Qwen 3.6-35B-A3B: f16, q8_0 и TurboQuant на M5 Max до 1M токенов

Исследование сравнивает производительность KV-кэша модели Qwen 3.6-35B при работе с контекстами до 1 миллиона токенов на чипе M5 Max. Тестирование различных методов квантования (f16, q8_0, turbo3, turbo4) показало, что TurboQuant становится эффективнее стандартных форматов при больших объемах памяти. Результаты демонстрируют критическую разницу между фазами обработки промпта и генерации для разных алгоритмов сжатия.

score 18r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sy7srk/qwen_3635ba3b_kv_cache_bench_f16_vs_q8_0_vs/