Reddit21 июня 2026 г.

Форк ik_llama.cpp: режим «--numa mirror» для максимизации производительности на многосокетных CPU. Ищу тестеров!

Разработчик добавил в форк ik_llama.cpp режим «--numa mirror» для оптимизации инференса LLM на многосокетных серверах. Метод дублирует веса модели и KV-кэш для каждого сокета, устраняя задержки при доступе к удаленной памяти и позволяя использовать все ядра CPU. Требует удвоенного объема RAM, но дает значительный прирост скорости.

score 55r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1ubw3mo/i_forked_ik_llamacpp_and_added_a_numa_mirror_mode/