RL Swarm: 분산형 강화 학습 참여 완벽 가이드 | Notion

RL Swarm : 강화 학습(RL)을 위한 분산형(peer-to-peer) 시스템

협력하여 모델을 훈련할 수 있음
**오픈 소스,**무허가형 → 가정용 노트북이나 클라우드의 GPU에서도 실행할 수 있음
Gensyn Testnet에 연결하여 진행 상황을 추적하는 온체인 신원을 부여받을 수 있음

Testnet에서는 여러 스웜이 실행 중, 각 스웜은 다른 데이터셋으로 훈련됨

사용 가능한 모델/스웜

모델:

Qwen 2.5 0.5B
Qwen 2.5 1.5B
Qwen 2.5 7B
Qwen 2.5 32B (4 bit)
Qwen 2.5 72B (4 bit)

스웜:

Math (GSM8K 데이터셋)
Math Hard (DAPO-Math 17K 데이터셋)

시스템 요구 사항

하드웨어 요구 사항 → 선택하는 스웜과 모델에 따라 달라짐

하드웨어 사양이 낮은 사용자 → 더 작은 모델(예: Qwen 0.5B 또는 1.5B)과 더 작은 데이터셋(GSM8K)을 선택