Reddit
AMD BC-250 и поиск дешёвых вычислений
Автор исследует использование salvaged PS5 APUs (Zen 2 + RDNA 2) для инференса LLM, разблокируя скрытые вычислительные блоки через драйвер amdgpu. Приведены бенчмарки llama.cpp: от 230 до 466 токенов в секунду в зависимости от конфигурации. Также описывается разработка кастомного HIP-ядра для оптимизации генерации на архитектуре gfx1013.
score 35r/LocalLLaMA