컴퓨팅 노드 SSD 용량 문제로 인해 발생하는 이용 불편 및 관리 로드를 체계적으로 경감하기 위함
아래의 설명 중 시스템 SSD는 /local_dataset이 위치한 SSD를 의미하며, 추가 SSD는 시스템 SSD 이외 /data2/local_dataset 등이 위치한 SSD임을 참고 부탁드립니다.
서버의 분류
각 컴퓨팅 노드 및 저장소를 다음과 같이 분류하였습니다.
A. 저용량 노드 1TB 미만의 시스템 SSD만이 장착된 노드를 의미합니다.
B. 추가 SSD가 장착된 저용량 노드 1TB 미만의 시스템 SSD와, 추가 SSD가 장착된 노드를 의미합니다.
C. 고용량 노드 1TB 이상의 시스템 SSD가 장착된 노드를 의미합니다.
D. 추가 SSD가 장착된 고용량 노드 1TB 이상의 시스템 SSD와, 추가 SSD가 장착된 노드를 의미합니다.
E. 원격 저장소 컴퓨팅 노드의 SSD를 제외한 NAS 및 Ceph 저장소를 의미합니다.
데이터셋의 분류
컴퓨팅 노드 내 업로드할 수 있는 데이터셋의 종류와 적용되는 정책을 다음과 같이 정리하였습니다.
단, 아래에서 데이터셋은 모델의 훈련 및 추론을 위해 로드되거나 훈련 및 추론 중 저장되는 파일들이 저장된 디렉토리를 의미합니다.
.tar, .zip 파일 등 데이터셋의 원본 컨테이너는 컴퓨팅 노드에 남아 있지 않도록 삭제 부탁드립니다.
또한 업로드 정책을 준수하지 않은 데이터셋은 비정기적으로 통보 없는 삭제 대상이 됩니다. 참고 부탁드립니다.
기타 사항
위의 분류에 따라 노드 별 시행되는 정책을 정리하면 아래의 표와 같습니다.
🟧 : 시스템 SSD에만 업로드 가능 🟦 : 추가 SSD에만 업로드 가능 🟩 : 시스템 및 추가 SSD에 모두 업로드 가능 ⭕ : 원격 저장소(/data, /ceph_data)에 업로드 가능 ❌ : 해당 노드, 저장소에 업로드 불가
| 노드 타입 | 노드 리스트 | 저용량 데이터셋 (<50GB) | 고용량 데이터셋 (>50GB) | 스트리밍 데이터셋 | Pretrained weight, compile cache | | --- | --- | --- | --- | --- | --- | | A. 저용량 | moana-u[2-6] | 🟧 | ❌ | 용량에 따라 다름 | ❌ | | B. 저용량 + 추가 | ariel-v[1-13] | 🟧 | 🟦 | 용량에 따라 다름 | ❌ | | C. 고용량 | moana-r[2, 5], y[1-7], u[1, 8], ariel-m2, n1 aurora-g1 | 🟧 | 🟩 | 용량에 따라 다름 | ❌ | | D. 고용량 + 추가 | moana-r[1, 3, 4], ariel-k[1, 2], g[1-5], aurora-g[2-8] | 🟧 | 🟩 | 용량에 따라 다름 | ❌ | | E. Ceph, NAS | - | ❌ | ❌ | ⭕ (시범 운영) | ⭕ |