Reddit
Владельцам 16 ГБ VRAM: подключите старую видеокарту
Автор делится методом запуска плотных моделей на ~30 миллиардов параметров на системе с 16 ГБ видеопамяти, объединяя её с более старой картой на 6 ГБ. Приведена конфигурация llama-server для асимметричного распределения слоёв между устройствами через Vulkan с минимизацией использования системной памяти. Такой подход позволяет приблизиться к возможностям карт на 24 ГБ без покупки нового оборудования.
score 91r/LocalLLaMA