Reddit
Nous Research представила метод Token Superposition Training для ускорения предобучения LLM до 2.5 раз
Компания Nous Research выпустила метод Token Superposition Training (TST), позволяющий сократить время предобучения больших языковых моделей до 2.5 раз без изменения архитектуры или стратегии параллелизма. На моделях масштаба 10B-A1B метод показал снижение финальных потерь при фиксированных вычислительных ресурсах, экономя около 7,5 тысяч GPU-часов на одном эксперименте. Подход работает в диапазоне моделей от 270M до 10B параметров и не требует изменений в оптимизаторе или токенизаторе.
score 33r/singularity