GitHub
Практический курс по современному обучению с подкреплением
Открытая образовательная программа от WalkingLabs, охватывающая основы RL и переход к LLM-выравниванию, RLVR и агентам. Материалы предназначены для практического освоения современных методов обучения с подкреплением в контексте генеративного ИИ.
413 forksPythonscore 78.3
dpoagentagentic-aigrpollmllm-alignmentreinforcementutorialagentic-rlrlhf