Reddit
Оптимизация KV-кэша для Qwen 3.6-35B: асимметричное квантование и 64K контекста на M5 Max
Автор публикует результаты тестов квантования KV-кэша для модели Qwen 3.6-35B-A3B на чипе Apple M5 Max. Исследование показывает, что асимметричное квантование (q8_0 для K, turbo4 для V) позволяет обрабатывать контекст до 512K без переполнения памяти, сохраняя качество генерации близким к float16. Приведены детальные метрики perplexity, KL divergence и скорости генерации токенов при увеличении глубины.
score 28r/LocalLLaMA