Назад к дайджесту
Reddit

Крупные обновления ExLlamaV3

Библиотека ExLlamaV3 получила масштабное обновление с поддержкой модели Gemma 4 и внедрением технологии DFlash, ускоряющей инференс до 3 раз на задачах кодинга. Разработчик представил детальные бенчмарки оптимизации для различных GPU, а также улучшил эффективность кэширования и добавил поддержку квантования DFlash.

score 100r/LocalLLaMA