Назад к дайджесту
Reddit

Оптимизация трансформеров и инференса за пределами FP16 + ONNX: когда прунинг не сработал

Разработчик ищет методы сжатия и ускорения инференса трансформеров после исчерпания возможностей FP16 и ONNX. В обсуждении рассматриваются агрессивное квантование (GPTQ, AWQ), дистилляция знаний и аппаратные оптимизации вроде TensorRT. Цель — преодолеть плато в размере модели, когда стандартный прунинг не дал результата.

score 14r/MachineLearning