Назад к дайджесту
Reddit

ggml-cuda: добавлена поддержка flash-attn для DKQ=320/DV=256 с ncols2=32 (PR #22286 от lnigam в llama.cpp)

В библиотеку llama.cpp добавлена поддержка flash-аттенции в бэкенде ggml-cuda для специфических параметров тензоров. Это устраняет необходимость в CPU-фолбэке и ускоряет инференс модели Mistral Small 4 на GPU.

score 20r/LocalLLaMA