Reddit11 мая 2026 г.

DeepSeek-V4-Flash W4A16+FP8 с MTP-спекуляцией: 85 ток/с на 524k контекста на 2× RTX PRO 6000 Max-Q

Разработчик оптимизировал модель DeepSeek-V4-Flash, внедрив MTP-спекуляцию и квантование W4A16+FP8, что увеличило скорость генерации до 85 ток/с на 524k контекста. Исправления в vLLM и GPTQ-проход позволили запустить 671B модель на двух видеокартах по 96 ГБ с приростом производительности на 62%. Качество модели сохранено: 93% на GSM8K и 90% на HumanEval.

score 49r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t9em98/deepseekv4flash_w4a16fp8_with_mtp_selfspeculation/