πŸ—„οΈ Data

# λ°μ΄ν„°ν”„λ ˆμž„ 찍어보기 (μƒμœ„ 5개)
print(df.head())

{A2865D34-95A8-4995-8F32-BEE376762148}.png

πŸ“Š Bar Charts

{8A84E292-3A78-4150-807C-647C200FD85D}.png

### Object Count by Category (μΉ΄ν…Œκ³ λ¦¬λ³„ λΆˆκ· ν˜• 확인)

> 뢄석: μ–΄λ–€ μΉ΄ν…Œκ³ λ¦¬(예: K-004)λŠ” 데이터가 500μž₯ μ΄μƒμœΌλ‘œ λ„˜μ³λ‚˜λŠ”λ°, λ‹€λ₯Έ 것듀은 50μž₯도 채 μ•ˆ λ˜λŠ” 게 λ³΄μž…λ‹ˆλ‹€.

> μ •μ œ μ „λž΅: 데이터가 λ„ˆλ¬΄ 적은 μΉ΄ν…Œκ³ λ¦¬λŠ” λͺ¨λΈμ΄ ν•™μŠ΅ν•˜κΈ° μ–΄λ €μšΈ 것 κ°™μŠ΅λ‹ˆλ‹€. 증강 및 AI-hubλ₯Ό μ΄μš©ν•΄ **"데이터 λΆ€μ‘±ν•œ μ•Œμ•½ μœ„μ£Όλ‘œ μΆ”κ°€ μˆ˜μ§‘ νŒ”μš”!"** (test dataset으둜 쓰인 5000개짜리 μ œμ™Έ)
### Objects per Image (이미지당 객체 수 뢄포)

> 뢄석: 평균 3.04개이고, λŒ€λΆ€λΆ„μ˜ 이미지에 μ•Œμ•½μ΄ 2~4개 정도 담겨 있음.

> μ •μ œ μ „λž΅: λ§Œμ•½ μ•Œμ•½μ΄ 1개만 μžˆλŠ” 이미지가 λ„ˆλ¬΄ λ§Žλ‹€λ©΄, μ „μ²˜λ¦¬ κ³Όμ •μ—μ„œ 이미지λ₯Ό νšŒμ „μ‹œν‚€κ±°λ‚˜ ν•©μ„±ν•΄μ„œ 객체 수λ₯Ό λŠ˜λ¦¬λŠ” νŒŒμ΄ν”„λΌμΈ(Augmentation)을 ꡬ좕해야 ν•  ν•„μš”κ°€ 있음.

πŸ” Bbox 확인

{D144C8EC-43BD-4BEF-8EF3-7CDE16C83EC8}.png

### Check Bbox (λ°”μš΄λ”© λ°•μŠ€ κ²€μˆ˜)

> 뢄석: μ•Œμ•½ μœ„μ— λΉ¨κ°„ λ°•μŠ€κ°€ μ•„μ£Ό μ •ν™•ν•œ μœ„μΉ˜μ— κ·Έλ €μ Έ μžˆλŠ”κ±Έλ‘œ λ³΄μž„ (μ „μ²΄μ μœΌλ‘œ 라벨링 ν’ˆμ§ˆμ€ μ’‹μ•„ λ³΄μž„).

βœ… Data Match 확인

# annotation id와 train dataκ°€ 1:1 λŒ€μ‘μ΄ 잘 λ˜λŠ”μ§€ 확인

def check_data_alignment(df, img_dir):
    actual_files = set(os.listdir(img_dir))
    df_files = set(df['image_path'].apply(lambda x: os.path.basename(x)))
    
    # 이미지 νŒŒμΌμ€ μžˆλŠ”λ° JSON에 μ—†λŠ” 경우 (Missing Label)
    missing_labels = actual_files - df_files
    # JSONμ—λŠ” μžˆλŠ”λ° μ‹€μ œ νŒŒμΌμ€ μ—†λŠ” 경우 (Missing Image)
    missing_images = df_files - actual_files
    
    print(f"βœ… ꡐ집합 검사 μ™„λ£Œ!")
    print(f"πŸ‘‰ 라벨 μ—†λŠ” 이미지: {len(missing_labels)}개")
    print(f"πŸ‘‰ 이미지 μ—†λŠ” 라벨: {len(missing_images)}개")

check_data_alignment(df, TRAIN_IMG_DIR)

βœ… ꡐ집합 검사 μ™„λ£Œ! πŸ‘‰ 라벨 μ—†λŠ” 이미지: 0개 πŸ‘‰ 이미지 μ—†λŠ” 라벨: 0개

βœ… Data μ •μ œ 확인

{FFF19290-7573-45BE-8AD2-125B9DBEE950}.png

### 해상도 μ™„λ²½ 톡일 (Consistency):

> κ·Έλž˜ν”„μ— λ§‰λŒ€κΈ°κ°€ λ”± ν•œ 쀄(1280 λΆ€κ·Ό)만 λΎ°μ‘±ν•˜κ²Œ μ†Ÿμ•„μžˆλŠ” 것은 λͺ¨λ“  μ΄λ―Έμ§€μ˜ κ°€λ‘œ(Width)와 μ„Έλ‘œ(Height)κ°€ **λ˜‘κ°™μ€ 크기(예: 1280x1280)**둜 κΉ”λ”ν•˜κ²Œ 정리가 잘 λœκ²ƒμ„ λ³Ό 수 있음.  
λͺ¨λΈ ν•™μŠ΅ν•  λ•Œ λ¦¬μ‚¬μ΄μ¦ˆ λΉ„μœ¨μ„ κ³ λ―Όν•  ν•„μš”κ°€ μ—†μ–΄μ„œ μ„±λŠ₯이 μ•„μ£Ό μ•ˆμ •μ μœΌλ‘œ λ‚˜μ˜¬ 거라 μΆ”μΈ‘ν•΄λ³Ό 수 있음.
### κΉ¨μ§„ 파일 0개 (Reliability):

> ν•˜λ‹¨μ— "0개 κΉ¨μ§„ 파일 제거됨"은 μˆ˜μ§‘ν•œ λͺ¨λ“  데이터가 읽기 κ°€λŠ₯ν•œ μƒνƒœλΌλŠ” 뜻.