Reddit
Сборка llama.cpp 9254: исправление регрессии генерации токенов и поддержка PDL для NVIDIA
Вышла сборка 9254 библиотеки llama.cpp, устраняющая регрессию скорости генерации токенов и внедряющая оптимизацию PDL для видеокарт NVIDIA. Это позволяет увеличить производительность на 5–10% за счёт перекрытия выполнения CUDA-ядер. Обновление критично для пользователей, запускающих LLM локально на железе с вычислительной мощностью 9.0 и выше.
score 25r/LocalLLaMA