Reddit
Крупные обновления ExLlamaV3
Библиотека ExLlamaV3 получила масштабное обновление с поддержкой модели Gemma 4 и внедрением технологии DFlash, ускоряющей инференс до 3 раз на задачах кодинга. Разработчик представил детальные бенчмарки оптимизации для различных GPU, а также улучшил эффективность кэширования и добавил поддержку квантования DFlash.
score 100r/LocalLLaMA