Reddit22 апреля 2026 г.

Автоподбор памяти в llama.cpp работает лучше, чем ожидалось

Автор протестировал запуск модели Qwen3.6 Q8 с контекстом 256k через llama.cpp с флагом `--fit`. Несмотря на то, что вес модели превышает доступную VRAM видеокарты RTX 5090, скорость генерации составила 57 токенов в секунду. Это опровергает миф о том, что модель должна полностью помещаться в видеопамять для комфортной работы.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1srvqar/llamacpps_auto_fit_works_much_better_than_i/