연구 목표 및 내용
본 연구는 보안이 중요한 안저 의료 영상에 대해 데이터 유출 없이 학습 가능한 자가 지도 연합 학습 프레임워크를 제안한다. 전체 프레임워크는 다음의 세 단계로 구성된다:
- Pretraining (Federated Self-Supervised Learning)
- Label 데이터 없이도 학습 가능한 MAE 기반 MIM(Masked Image Modeling) 방식을 채택
- 다양한 병원에서 수집된 도메인 분산 안저 이미지를 활용해 글로벌 일반화 encoder 학습
- Fine-tuning (Supervised Learning)
- Encoder는 동결하고 각 클라이언트는 Shallow CNN Adapter + Classifier를 학습
- 도메인 특화 표현 및 결정 경계를 로컬 학습으로 확보
- Pseudo Labeling (Semi-supervised Collaboration)
- Label 데이터가 없는 클라이언트는 Encoder + Adapter + Classifier를 활용한 공유 모델을 통해 Pseudo Label을 획득
- 획득된 라벨을 기반으로 로컬 모델 재학습 수행
주요 공헌
- MAE 기반 자가 지도 연합 학습 프레임워크 제안
- 도메인 분산된 다기관 의료 데이터를 통합 학습
- Encoder, Adapter, Classifier의 분리된 구조를 활용하여 전이성과 로컬 최적화를 동시에 달성
- Pretraining 전략 비교
- 연합 학습 방법: FedAvg vs FedBN
- Patch Embedding 구조: Linear vs Convolutional
- Fine-tuning 전략 비교
- Linear Probing
- Full Fine-tuning
- Adapter-based Fine-tuning
- 확장 가능한 Pseudo Labeling 구조 제안
- 라벨 부족 기관을 위한 협업 기반 라벨 전이
- 표현 공간 기반 Prototype 및 Classifier(결정 경계) 전달
실험 설계
- 데이터셋
- 5종 안저 이미지 데이터셋 (촬영 장비·조명·해상도 등 도메인 상이)
- 공개: APTOS, ODIR, IDRiD, MESSIDOR
- 비공개: NMC (국내 병원)
- 모델 구성
- Encoder: MAE (Masked Autoencoder ViT 기반)
- Fine-tuner: Shallow CNN Adapter + Classifier
- Baseline
- Random Init (Scratch)
- Linear Probing
- Fed-MAE (Pretraining + Full Fine-tuning)
- Adapter Fine-tuning
- 실험 설정
- Full Label Setting
- Pretraining, Fine-tuning에 참여하는 모든(5개) 클라이언트는 100%의 Label 데이터셋 보유
- Partial Label Setting
- Pretraining, Fine-tuning에 참여하는 모든(5개) 클라이언트는 특정 비율(e.g., ~80%)의 Label 데이터셋 보유
- Scalable Label Setting
- Pretraining, Fine-tuning에 참여하는 3~4개의 클라이언트는 100%의 Label 데이터셋 보유, 나머지 클라이언트(2개 또는 1개)는 Label 데이터셋 없음 + Pseudo Labeling 적용
- 평가지표
- Classification Accuracy, F1-score
- Labeling Accuracy (Pseudo Labeling only)
- Accuracy Gap (With vs Without Pseudo Labeling)
- Communication / Computation Cost
4. 인턴의 역할