Reddit
Локальный запуск GLM 5.1: 40 токенов в секунду и 2000+ токенов префилла
Автор оптимизировал локальный запуск модели GLM 5.1 на четырёх RTX 6000 Ada с FP4 квантованием, достигнув 40 токенов в секунду на генерацию. Производительность остаётся высокой даже при контексте 64K, а скорость префилла превышает 2000 токенов в секунду. Опыт работы сопоставим с топовыми облачными моделями, стабильность подтверждена на сотнях тысяч сессий.
score 38r/LocalLLaMA