Reddit25 апреля 2026 г.

Локальный запуск GLM 5.1: 40 токенов в секунду и 2000+ токенов префилла

Автор оптимизировал локальный запуск модели GLM 5.1 на четырёх RTX 6000 Ada с FP4 квантованием, достигнув 40 токенов в секунду на генерацию. Производительность остаётся высокой даже при контексте 64K, а скорость префилла превышает 2000 токенов в секунду. Опыт работы сопоставим с топовыми облачными моделями, стабильность подтверждена на сотнях тысяч сессий.

score 38r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1svgtlh/glm_51_locally_40tps_2000_pps/