목적

컴퓨팅 노드 SSD 용량 문제로 인해 발생하는 이용 불편 및 관리 로드를 체계적으로 경감하기 위함

방법

아래의 설명 중 시스템 SSD는 /local_dataset이 위치한 SSD를 의미하며, 추가 SSD는 시스템 SSD 이외 /data2/local_dataset 등이 위치한 SSD임을 참고 부탁드립니다.

  1. 서버의 분류

    각 컴퓨팅 노드 및 저장소를 다음과 같이 분류하였습니다.

    A. 저용량 노드 1TB 미만의 시스템 SSD만이 장착된 노드를 의미합니다.

    B. 추가 SSD가 장착된 저용량 노드 1TB 미만의 시스템 SSD와, 추가 SSD가 장착된 노드를 의미합니다.

    C. 고용량 노드 1TB 이상의 시스템 SSD가 장착된 노드를 의미합니다.

    D. 추가 SSD가 장착된 고용량 노드 1TB 이상의 시스템 SSD와, 추가 SSD가 장착된 노드를 의미합니다.

    E. 원격 저장소 컴퓨팅 노드의 SSD를 제외한 NAS 및 Ceph 저장소를 의미합니다.

  2. 데이터셋의 분류

    컴퓨팅 노드 내 업로드할 수 있는 데이터셋의 종류와 적용되는 정책을 다음과 같이 정리하였습니다.

    단, 아래에서 데이터셋은 모델의 훈련 및 추론을 위해 로드되거나 훈련 및 추론 중 저장되는 파일들이 저장된 디렉토리를 의미합니다.

    .tar, .zip 파일 등 데이터셋의 원본 컨테이너는 컴퓨팅 노드에 남아 있지 않도록 삭제 부탁드립니다.

    또한 업로드 정책을 준수하지 않은 데이터셋은 비정기적으로 통보 없는 삭제 대상이 됩니다. 참고 부탁드립니다.

    1. 저용량 데이터셋
      • 50GB 이하의 데이터셋을 의미합니다.
      • (A, B, C, D) 타입 노드의 시스템 SSD에만 업로드 가능합니다.
      • 3개월마다 공지 후 개별 통보 없는 삭제 대상이 됩니다.
    2. 고용량 데이터셋
      • 50GB 이상의 데이터셋을 의미합니다.
      • B 타입 노드의 추가 SSDC, D 타입 노드의 시스템, 추가 SSD에만 업로드 가능합니다.
      • 3개월마다 각 컴퓨팅 노드에서의 삭제 대상 데이터셋 리스트가 Slack 채널로 공지됩니다.
        1. 삭제 대상 데이터셋은 공지 시점으로부터 6개월 이전에 업로드 된 데이터셋을 의미합니다.
        2. 공지 후 삭제까지 2주일의 유예 기간이 주어집니다.
        3. 유예 기간 동안 리스트 중 삭제되어서는 안 되는 데이터셋을 표기한 삭제 방지 요청공지의 댓글로 게시할 수 있습니다.
        4. 관리자는 삭제 방지 요청을 받지 않은 나머지 데이터셋을 삭제하며, 그 결과를 Slack 채널로 공지합니다.
    3. webdataset, streaming 데이터셋 등, 몇 개의 대용량 컨테이너로 분할한 형태의 데이터셋 (스트리밍 데이터셋)
      • 몇 개의 대용량 컨테이너로 분할된 형태로 저장되고 각 컨테이너 내부에서 필요한 부분만 스트리밍하여 모델 훈련에 사용하는 데이터셋을 의미합니다.
      • 컴퓨팅 노드에서 사용하는 경우 용량에 따라 a., b.의 정책을 따릅니다.
      • (시범 운영) 원격 저장소에 부하를 가하지 않고 모델 훈련에 사용할 수 있으므로, NAS, Ceph 저장소 등에서도 사용할 수 있습니다.
        • 단, 시범 운영 기간 중 상황에 따라 허용하는 컨테이너 파일의 최저 용량 및 분할 갯수 등이 조정되거나, NAS, Ceph 저장소에서의 사용 허가가 취소될 수 있습니다.
  3. 기타 사항

위의 분류에 따라 노드 별 시행되는 정책을 정리하면 아래의 표와 같습니다.

🟧 : 시스템 SSD에만 업로드 가능 🟦 : 추가 SSD에만 업로드 가능 🟩 : 시스템 및 추가 SSD에 모두 업로드 가능 ⭕ : 원격 저장소(/data, /ceph_data)에 업로드 가능 ❌ : 해당 노드, 저장소에 업로드 불가

| 노드 타입 | 노드 리스트 | 저용량 데이터셋 (<50GB) | 고용량 데이터셋 (>50GB) | 스트리밍 데이터셋 | Pretrained weight, compile cache | | --- | --- | --- | --- | --- | --- | | A. 저용량 | moana-u[2-6] | 🟧 | ❌ | 용량에 따라 다름 | ❌ | | B. 저용량 + 추가 | ariel-v[1-13] | 🟧 | 🟦 | 용량에 따라 다름 | ❌ | | C. 고용량 | moana-r[2, 5], y[1-7], u[1, 8], ariel-m2, n1 aurora-g1 | 🟧 | 🟩 | 용량에 따라 다름 | ❌ | | D. 고용량 + 추가 | moana-r[1, 3, 4], ariel-k[1, 2], g[1-5], aurora-g[2-8] | 🟧 | 🟩 | 용량에 따라 다름 | ❌ | | E. Ceph, NAS | - | ❌ | ❌ | ⭕ (시범 운영) | ⭕ |