Назад к дайджесту
GitHub

RL.cu (KJLdefeated): Обучение с подкреплением для LLM на CUDA/C++

Репозиторий предлагает низкоуровневую реализацию обучения с подкреплением (RLVR) для больших языковых моделей на CUDA и C++. Код оптимизирован для высокой производительности при дообучении LLM. Проект представляет интерес для инженеров, занимающихся оптимизацией AI-инфраструктуры.

203 forksCudascore 63.8
rlreinforcement-learningcudallmlarge-language-modelsai-agents