Назад к дайджесту
Reddit

Unweight: как мы сжали LLM на 22% без потери качества

Cloudflare представила систему Unweight для безпотерьного сжатия весов LLM на 15–22%, что экономит до 3 ГБ VRAM на моделях 8B параметров. Решение устраняет узкое место памяти при инференсе, восстанавливая данные внутри GPU без потери точности. Это позволяет запускать больше моделей на одном устройстве и снижает стоимость инференса без специализированного оборудования.

score 23r/LocalLLaMA