Reddit
Почему llama.cpp на ROCm потребляет больше VRAM для KV-кэша, чем на Vulkan?
Пользователь сравнивает потребление видеопамяти в llama.cpp при использовании бэкендов ROCm и Vulkan на Linux. Выяснилось, что ROCm требует значительно больше VRAM для хранения KV-кэша (29.1 ГБ против 25.3 ГБ) при идентичных настройках модели. Автор спрашивает, является ли это особенностью его железа или неэффективностью реализации бэкенда.
score 28r/LocalLLaMA