Reddit
Для владельцев AMD R9700, запускающих vLLM: необходим патч AITER Unified Attention
Автор тестирует vLLM на AMD R9700 и MI300X, обнаруживая падение производительности при длинном контексте. Он делится опытом патчинга vLLM для включения AITER Unified Attention, что позволяет использовать FP8 и улучшить работу с контекстом.
score 23r/LocalLLaMA