Reddit12 мая 2026 г.

500k контекста на 48 ГБ VRAM: 21 ток/с при написании кода

Пользователь обнаружил модель Nemotron-3-Super-64B на Hugging Face и успешно запустил её с контекстом 500k токенов на двух видеокартах Titan RTX. Скорость генерации достигает 21 токена в секунду, что делает модель пригодной для агентов и кодинга, несмотря на математическую специализацию.

score 54r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tag1ks/500k_context_on_48gb_vram_21toks_coding/