Reddit
500k контекста на 48 ГБ VRAM: 21 ток/с при написании кода
Пользователь обнаружил модель Nemotron-3-Super-64B на Hugging Face и успешно запустил её с контекстом 500k токенов на двух видеокартах Titan RTX. Скорость генерации достигает 21 токена в секунду, что делает модель пригодной для агентов и кодинга, несмотря на математическую специализацию.
score 54r/LocalLLaMA