GitHub
RL.cu (KJLdefeated): Обучение с подкреплением для LLM на CUDA/C++
Репозиторий предлагает низкоуровневую реализацию обучения с подкреплением (RLVR) для больших языковых моделей на CUDA и C++. Код оптимизирован для высокой производительности при дообучении LLM. Проект представляет интерес для инженеров, занимающихся оптимизацией AI-инфраструктуры.
203 forksCudascore 63.8
rlreinforcement-learningcudallmlarge-language-modelsai-agents