Reddit26 апреля 2026 г.

Оптимизация трансформеров и инференса за пределами FP16 + ONNX: когда прунинг не сработал

Разработчик ищет методы сжатия и ускорения инференса трансформеров после исчерпания возможностей FP16 и ONNX. В обсуждении рассматриваются агрессивное квантование (GPTQ, AWQ), дистилляция знаний и аппаратные оптимизации вроде TensorRT. Цель — преодолеть плато в размере модели, когда стандартный прунинг не дал результата.

score 14r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1stfk9y/optimizing_transformer_model_size_inference/