Reddit
Экспериментальная поддержка DeepSeek v4 Flash в llama.cpp
Разработчик реализовал экспериментальную поддержку модели DeepSeek v4 Flash в библиотеке llama.cpp, применив агрессивное квантование routed experts до 2 бит. Тесты на MacBook M3 Max продемонстрировали скорость 21 токен/сек, что делает модель пригодной для локального инференса, с потенциальным преимуществом перед Qwen 3.6 27B.
score 30r/LocalLLaMA