Reddit28 апреля 2026 г.

Luce DFlash: Qwen3.6-27B с производительностью до 2x на одной RTX 3090

Разработчики выпустили GGUF-порт DFlash для спекулятивного декодирования, обеспечивающий до 2x ускорение генерации модели Qwen3.6-27B на RTX 3090. Инструмент работает на автономном C++/CUDA стеке без зависимостей вроде llama.cpp, используя сжатие KV-кэша для поддержки 256K контекста в 24 ГБ памяти. Тесты показывают среднее ускорение 1.98x на бенчмарках HumanEval и GSM8K без переобучения модели.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sx8uok/luce_dflash_qwen3627b_at_up_to_2x_throughput_on_a/