Reddit
Можно ли достичь 20 токенов в секунду при запуске больших моделей на 24 ГБ VRAM и 64 ГБ ОЗУ?
Пользователь спрашивает о возможности эффективного запуска больших языковых моделей на конфигурации с 24 ГБ видеопамяти и 64 ГБ оперативной памяти. В обсуждении упоминаются модели Qwen 27B и ожидаемая 122B, которые показывают высокую эффективность в задачах написания кода на C++.
score 18r/LocalLLaMA