Reddit
Размышления об использовании AMD Alveo V80 FPGA как бюджетной альтернативы Taalas HC1 для LLM
Автор исследует возможность использования FPGA-карты AMD Alveo V80 для ускоренного инференса LLM в качестве дешёвой альтернативы специализированному чипу Taalas HC1. По предварительным оценкам, такая конфигурация может выдавать до 3200 токенов в секунду с квантованными моделями, хотя и уступает специализированным ASIC. Обсуждение затрагивает историю FPGA в майнинге и перспективы их применения для инференса нейросетей.
score 75r/LocalLLaMA