Reddit9 мая 2026 г.

BeeLlama.cpp: форк llama.cpp с DFlash и TurboQuant для запуска Qwen 3.6 27B на RTX 3090

Представлен форк llama.cpp под названием BeeLlama.cpp, оптимизированный для локального инференса LLM с поддержкой мультимодальности. Инструмент внедряет DFlash speculative decoding и TurboQuant для сжатия KV-кэша, позволяя запускать Qwen 3.6 27B с контекстом 200k на видеокарте RTX 3090. Производительность достигает 135 токенов в секунду, что в 2-3 раза быстрее базовой версии.

score 91r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t88zvv/beellamacpp_advanced_dflash_turboquant_with/