Reddit
Z Lab выпустила DFlash для Gemma 4 26B. Кто уже пробовал?
Z Lab представила DFlash — оптимизацию для Gemma 4 26B, использующую параллельную диффузию блоков и сохраняющую состояние между итерациями для ускорения работы с длинным контекстом. В отличие от MTP, метод должен меньше деградировать при росте контекста, но пока доступен только через vLLM. Сообщество обсуждает потенциальный прирост скорости и перспективы поддержки в lcpp.
score 95r/LocalLLaMA