Reddit
Почему INT8 квантование дало точность выше, чем FP16!
Разработчик заметил, что INT8 квантование дало лучшую точность инференса, чем FP16, вопреки ожиданиям. Обычно FP16 считается более точным из-за близости к FP32, но в случае с ONNX-экспортом наблюдается обратное. Обсуждаются возможные причины такой аномалии в точности вычислений.
score 14r/MachineLearning