Назад к дайджесту
GitHub

Практический курс по современному обучению с подкреплением

Открытая образовательная программа от WalkingLabs, охватывающая основы RL и переход к LLM-выравниванию, RLVR и агентам. Материалы предназначены для практического освоения современных методов обучения с подкреплением в контексте генеративного ИИ.

413 forksPythonscore 78.3
dpoagentagentic-aigrpollmllm-alignmentreinforcementutorialagentic-rlrlhf