모집은 약 3주 정도 진행할 예정이며, 생각하는 인원수가 안 모일 경우 취소될 수 있습니다.
지원(이하 중 택1)
- kernel팀
- CUDA 커널을 작성하는 법을 공부합니다
- flash attention2를 구현합니다
- 데이터/평가 팀
- 학습에 필요한 데이터를 큐레이팅합니다
- 각종 성능 벤치마크를 준비, 모델을 평가합니다
🎄지원링크(공통)
LLM 만들기 스터디
과정(전체 과정 약 3달)
- 모델링
- distributed dataparallel baseline 구현
- pipeline parallelism 구현
- cuda기초 - gemm kernel로 개념익히기
- cuda를 사용한 가속 - flash attention 2 구현(forward/backward passes)
- 훈련 데이터 준비
- 사전학습 - 1.5B모델 학습시키기
- kv cache의 구현
- SFT, reasoning trace, GRPO alignment