RL Swarm : 강화 학습(RL)을 위한 분산형(peer-to-peer) 시스템
- 협력하여 모델을 훈련할 수 있음
- **오픈 소스,**무허가형 → 가정용 노트북이나 클라우드의 GPU에서도 실행할 수 있음
- Gensyn Testnet에 연결하여 진행 상황을 추적하는 온체인 신원을 부여받을 수 있음
Testnet에서는 여러 스웜이 실행 중, 각 스웜은 다른 데이터셋으로 훈련됨
사용 가능한 모델/스웜
모델:
- Qwen 2.5 0.5B
- Qwen 2.5 1.5B
- Qwen 2.5 7B
- Qwen 2.5 32B (4 bit)
- Qwen 2.5 72B (4 bit)
스웜:
- Math (GSM8K 데이터셋)
- Math Hard (DAPO-Math 17K 데이터셋)
시스템 요구 사항
하드웨어 요구 사항 → 선택하는 스웜과 모델에 따라 달라짐
- 하드웨어 사양이 낮은 사용자 → 더 작은 모델(예: Qwen 0.5B 또는 1.5B)과 더 작은 데이터셋(GSM8K)을 선택