Reddit
Две RTX 5060 Ti: есть ли лучшие конфигурации для Qwen 3.6 27B / 35B?
Пользователь делится результатами тестирования моделей Qwen 3.6 (27B и 35B) на конфигурации из двух видеокарт RTX 5060 Ti 16 ГБ. В материале приведены детальные бенчмарки производительности для vLLM и llama.cpp с различными методами квантования, включая неудачные попытки speculative decoding. Обсуждаются ограничения PCIe-полосы и поиск оптимальных настроек для локального запуска больших языковых моделей.
score 33r/LocalLLaMA