Reddit
LM Studio: размер пула потоков CPU и скорость генерации (tk/s) при выгрузке MoE-слоёв
Автор исследует влияние настройки пула потоков процессора на скорость генерации токенов в LM Studio. Тестирование проводится при выгрузке слоёв архитектуры Mixture of Experts (MoE) на CPU. Практический материал для оптимизации локального инференса больших языковых моделей.
score 39r/LocalLLaMA