읽게 된 이유

TL;DR

ZeRO1, 2와 CPU OffLoad까지 사용하면 10B 모델을 1대의 V100 GPU(32G vram)에서 학습할 수 있다.

이때 Model Parallel, Pipeline Parallel 등 모델 파티셔닝을 극한으로 쪼개고, 여기에 CPU 메모리까지 추가로 사용해서 Vram의 사용 효율을 극대화 한다.

(주의: 1GPU 사용시에는 MP/DP 없이 CPU Offload만 사용함)

DeepSpeed & ZeRO2 설명 영상

DeepSpeed & ZeRO2 설명 영상

공홈 홍보글

BERT-Large 학습에 한시간!

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/eba933bf-196e-4db5-ac1b-31a42215bb18/Untitled.png

Data Parallel & Model Parallel & Pipeline Parallel

딥러닝 뉴럴넷을 쪼개서 Parallel하게 학습하는 3가지 방법

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/fca135ab-cb2b-4721-9935-095ab4cc79ec/Untitled.png

  1. Data Parallel