Назад к дайджесту
Reddit

Форк ik_llama.cpp: режим «--numa mirror» для максимизации производительности на многосокетных CPU. Ищу тестеров!

Разработчик добавил в форк ik_llama.cpp режим «--numa mirror» для оптимизации инференса LLM на многосокетных серверах. Метод дублирует веса модели и KV-кэш для каждого сокета, устраняя задержки при доступе к удаленной памяти и позволяя использовать все ядра CPU. Требует удвоенного объема RAM, но дает значительный прирост скорости.

score 55r/LocalLLaMA