Назад к дайджесту
Reddit

BeeLlama.cpp: форк llama.cpp с DFlash и TurboQuant для запуска Qwen 3.6 27B на RTX 3090

Представлен форк llama.cpp под названием BeeLlama.cpp, оптимизированный для локального инференса LLM с поддержкой мультимодальности. Инструмент внедряет DFlash speculative decoding и TurboQuant для сжатия KV-кэша, позволяя запускать Qwen 3.6 27B с контекстом 200k на видеокарте RTX 3090. Производительность достигает 135 токенов в секунду, что в 2-3 раза быстрее базовой версии.

score 91r/LocalLLaMA