Назад к дайджесту
Reddit

Сборка на Intel Optane Persistent Memory: запуск модели на 1 триллион параметров со скоростью 4 токена/сек

Пользователь собрал ПК с 768 ГБ Intel Optane Persistent Memory для локального запуска модели Kimi K2.5 на 1 триллион параметров. С помощью llama.cpp и гибридного GPU/CPU инференса достигнута скорость генерации около 4 токенов в секунду. Эксперимент показывает, как использование PMem позволяет размещать огромные модели на бюджетном железе.

score 100r/LocalLLaMA