Reddit21 июня 2026 г.

Выпущена модель внимания без softmax масштаба GPT-2 Medium: оптимизация VRAM и длинный контекст

Автор открыл веса модели внимания без softmax, обученной на 11.5B токенов. Для экономии видеопамяти при работе с длинным контекстом использованы структурная разреженность и кастомные ядра Triton. Модель масштабируется до ~354 миллионов параметров.

score 55r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1ubmybr/i_released_a_softmaxfree_attention_model_at_gpt2/