Reddit
Исправление Flash Attention для RDNA3 выпущено в llama.cpp
Библиотека llama.cpp выпустила обновление с исправлением для Flash Attention на архитектуре AMD RDNA3. Это критично для оптимизации инференса LLM на видеокартах AMD. Изменение доступно в последнем релизе на GitHub.
score 48r/LocalLLaMA