Назад к дайджесту
Reddit

AMD BC-250 и поиск дешёвых вычислений

Автор исследует использование salvaged PS5 APUs (Zen 2 + RDNA 2) для инференса LLM, разблокируя скрытые вычислительные блоки через драйвер amdgpu. Приведены бенчмарки llama.cpp: от 230 до 466 токенов в секунду в зависимости от конфигурации. Также описывается разработка кастомного HIP-ядра для оптимизации генерации на архитектуре gfx1013.

score 35r/LocalLLaMA