GitHub3 мая 2026 г.

Практический курс по современному обучению с подкреплением

Открытая образовательная программа от WalkingLabs, охватывающая основы RL и переход к LLM-выравниванию, RLVR и агентам. Материалы предназначены для практического освоения современных методов обучения с подкреплением в контексте генеративного ИИ.

413 forksPythonscore 78.3

dpoagentagentic-aigrpollmllm-alignmentreinforcementutorialagentic-rlrlhf

walkinglabs/hands-on-modern-rlhttps://github.com/walkinglabs/hands-on-modern-rl