Reddit30 апреля 2026 г.

Оптимизация KV-кэша для Qwen 3.6-35B: асимметричное квантование и 64K контекста на M5 Max

Автор публикует результаты тестов квантования KV-кэша для модели Qwen 3.6-35B-A3B на чипе Apple M5 Max. Исследование показывает, что асимметричное квантование (q8_0 для K, turbo4 для V) позволяет обрабатывать контекст до 512K без переполнения памяти, сохраняя качество генерации близким к float16. Приведены детальные метрики perplexity, KL divergence и скорости генерации токенов при увеличении глубины.

score 28r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sz9v9z/qwen_3635ba3b_kv_cache_part_2_ppl_kl_divergence/