읽게 된 이유

TL;DR

ZeRO1, 2와 CPU OffLoad까지 사용하면 10B 모델을 1대의 V100 GPU(32G vram)에서 학습할 수 있다.

이때 Model Parallel, Pipeline Parallel 등 모델 파티셔닝을 극한으로 쪼개고, 여기에 CPU 메모리까지 추가로 사용해서 Vram의 사용 효율을 극대화 한다.

(주의: 1GPU 사용시에는 MP/DP 없이 CPU Offload만 사용함)

BERT-Large 학습에 한시간!

딥러닝 뉴럴넷을 쪼개서 Parallel하게 학습하는 3가지 방법