Reddit26 апреля 2026 г.

Экспериментальная поддержка DeepSeek v4 Flash в llama.cpp

Разработчик реализовал экспериментальную поддержку модели DeepSeek v4 Flash в библиотеке llama.cpp, применив агрессивное квантование routed experts до 2 бит. Тесты на MacBook M3 Max продемонстрировали скорость 21 токен/сек, что делает модель пригодной для локального инференса, с потенциальным преимуществом перед Qwen 3.6 27B.

score 30r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sw3stb/llamacpp_deepseek_v4_flash_experimental_inference/