Reddit
Бенчмарки llama.cpp: производительность SYCL-бэкенда на LLM
Автор делится результатами тестов производительности библиотеки llama.cpp с использованием SYCL-бэкенда. В отчёте приведены метрики токенов в секунду для моделей Gemma и Qwen различных размеров при квантовании Q8_0. Данные демонстрируют эффективность работы на гибридных архитектурах, хотя автор отмечает, что текущая реализация может быть оптимизирована.
score 55r/LocalLLaMA