Назад к дайджесту
Reddit

Выпущена модель внимания без softmax масштаба GPT-2 Medium: оптимизация VRAM и длинный контекст

Автор открыл веса модели внимания без softmax, обученной на 11.5B токенов. Для экономии видеопамяти при работе с длинным контекстом использованы структурная разреженность и кастомные ядра Triton. Модель масштабируется до ~354 миллионов параметров.

score 55r/MachineLearning