Назад к дайджесту
GitHub

LightningRL: Преодоление компромисса точности и параллелизма в блочных dLLM с помощью обучения с подкреплением

Проект от SJTU-DENG-Lab предлагает метод LightningRL для оптимизации блочных распределённых языковых моделей (dLLM). Подход использует обучение с подкреплением для устранения разрыва между скоростью параллельных вычислений и точностью результатов. Инструмент предназначен для исследователей, работающих над эффективностью архитектуры LLM.

270 forksPythonscore 54.2
dllmrlefficiencyllm