Назад к дайджесту
Reddit

Экспериментальная поддержка DeepSeek v4 Flash в llama.cpp

Разработчик реализовал экспериментальную поддержку модели DeepSeek v4 Flash в библиотеке llama.cpp, применив агрессивное квантование routed experts до 2 бит. Тесты на MacBook M3 Max продемонстрировали скорость 21 токен/сек, что делает модель пригодной для локального инференса, с потенциальным преимуществом перед Qwen 3.6 27B.

score 30r/LocalLLaMA