Назад к дайджесту
Reddit

$1800 на GPU: запуск Qwen3.6-27b-FP8 с P2P, контекстом 262K и скоростью 55 ток/с

Пользователь описывает сборку на четырёх видеокартах за $1800 для запуска Qwen3.6-27b-FP8 с контекстом 262K и скоростью 55 ток/с. Используются оптимизации vLLM, FP8 квантование и BF16 KV cache для эффективного инференса. Материал полезен для разработчиков, интересующихся локальным развёртыванием больших языковых моделей.

score 40r/LocalLLaMA