Reddit
Реализовал TurboQuant: результаты не совпадают с заявленными в статье
Разработчик реализовал метод квантования TurboQuant (arXiv:2504.19874) и обнаружил расхождения с результатами статьи: корреляция 95.8% вместо 99% при 4-битном сжатии. Это привело к значительной деградации качества внимания, несмотря на приемлемые метрики искажения. Автор выложил код и просит экспертов по KV cache помочь разобраться в нюансах масштабирования дисперсии.
score 39r/LocalLLaMA