Назад к дайджесту
Reddit

Автоподбор памяти в llama.cpp работает лучше, чем ожидалось

Автор протестировал запуск модели Qwen3.6 Q8 с контекстом 256k через llama.cpp с флагом `--fit`. Несмотря на то, что вес модели превышает доступную VRAM видеокарты RTX 5090, скорость генерации составила 57 токенов в секунду. Это опровергает миф о том, что модель должна полностью помещаться в видеопамять для комфортной работы.

score 100r/LocalLLaMA