매주 “배우기 → 바로 실습 → 작은 산출물” 루틴으로 밀어붙이자. (하루 60–120분 기준, 주 5일)

전체 그림

1–3주: PyTorch 기본기(텐서, autograd, nn.Module, DataLoader, 최적화, GPU/AMP)
4–5주: 실전 모델(컴퓨터비전/자연어 중 택1)로 end-to-end 훈련 파이프라인 완성
6주: PyTorch 분산훈련(DDP) 이해 → 단일 노드 다중 GPU로 스케일
7–8주: DeepSpeed 도입(ZeRO, offload, 혼합정밀, 체크포인팅) → 기존 파이프라인에 통합

준비(사전 1–2일)

환경: Python 3.10+, CUDA가 깔린 머신(또는 Colab/Kaggle).
설치: pip install torch torchvision torchaudio (CUDA 버전에 맞춤), pip install deepspeed

개발 규칙: 프로젝트 구조

project/
  data/              # 원본/중간 데이터
  src/
    models/          # nn.Module
    data/            # Dataset, transforms
    train.py         # 학습 루프(단일 GPU)
    train_ddp.py     # DDP 버전
    train_ds.py      # DeepSpeed 버전
    eval.py
    utils.py
  configs/
    base.yaml        # 하이퍼파라미터
    deepspeed.json   # DeepSpeed 설정
  scripts/
    run_train.sh
    run_ddp.sh
    run_ds.sh
  outputs/           # 로그, 체크포인트
  README.md

1주차: 텐서 & 자동미분 & GPU

목표: 텐서 조작, autograd, GPU 이동을 자연스럽게.

배우기: torch.Tensor 기초, view/reshape, broadcasting, requires_grad, backward, with torch.no_grad(), to(device)
실습:
- 행렬 연산으로 선형회귀 직접 구현(MSE, 수치미분 vs autograd 비교).
- CPU/GPU 왕복 이동, 시간 측정.
체크포인트: “학습 중 텐서가 어디 장치에 있는지”와 “그래프가 언제 끊기는지” 설명 가능.

2주차: 모듈러 모델링 & 최적화 & 데이터

목표: nn.Module로 모델 구조화, DataLoader로 배치 학습.