Reddit
Luce DFlash: Qwen3.6-27B с производительностью до 2x на одной RTX 3090
Разработчики выпустили GGUF-порт DFlash для спекулятивного декодирования, обеспечивающий до 2x ускорение генерации модели Qwen3.6-27B на RTX 3090. Инструмент работает на автономном C++/CUDA стеке без зависимостей вроде llama.cpp, используя сжатие KV-кэша для поддержки 256K контекста в 24 ГБ памяти. Тесты показывают среднее ускорение 1.98x на бенчмарках HumanEval и GSM8K без переобучения модели.
score 100r/LocalLLaMA