Reddit
Бенчмарк KV-кэша Qwen 3.6-35B-A3B: f16, q8_0 и TurboQuant на M5 Max до 1M токенов
Исследование сравнивает производительность KV-кэша модели Qwen 3.6-35B при работе с контекстами до 1 миллиона токенов на чипе M5 Max. Тестирование различных методов квантования (f16, q8_0, turbo3, turbo4) показало, что TurboQuant становится эффективнее стандартных форматов при больших объемах памяти. Результаты демонстрируют критическую разницу между фазами обработки промпта и генерации для разных алгоритмов сжатия.
score 18r/LocalLLaMA