Reddit
24+ токенов в секунду от моделей MoE на 30B параметров на старой GTX 1080 (8 ГБ VRAM, 128k контекст)
Автор добился скорости генерации 24+ токенов в секунду для MoE-моделей на 30B параметров, используя старую GTX 1080 и библиотеку llama.cpp. Оптимизация включала квантование TurboQuant для 128k контекста и исправление выгрузки весов MTP-ассистента Gemma 4. Результат показывает, как обходные пути в llama.cpp позволяют запускать сложные архитектуры на ограниченном оборудовании.
score 56r/LocalLLaMA