Назад к дайджесту
Reddit

Две RTX 5060 Ti: есть ли лучшие конфигурации для Qwen 3.6 27B / 35B?

Пользователь делится результатами тестирования моделей Qwen 3.6 (27B и 35B) на конфигурации из двух видеокарт RTX 5060 Ti 16 ГБ. В материале приведены детальные бенчмарки производительности для vLLM и llama.cpp с различными методами квантования, включая неудачные попытки speculative decoding. Обсуждаются ограничения PCIe-полосы и поиск оптимальных настроек для локального запуска больших языковых моделей.

score 33r/LocalLLaMA