Reddit
Оптимизация трансформеров и инференса за пределами FP16 + ONNX: когда прунинг не сработал
Разработчик ищет методы сжатия и ускорения инференса трансформеров после исчерпания возможностей FP16 и ONNX. В обсуждении рассматриваются агрессивное квантование (GPTQ, AWQ), дистилляция знаний и аппаратные оптимизации вроде TensorRT. Цель — преодолеть плато в размере модели, когда стандартный прунинг не дал результата.
score 14r/MachineLearning