<aside>

“라벨이 없는 데이터로부터 Contrastive SSL을 통해 데이터의 본질적 의미를 파악하는 표현학습을 선행하고, 이후 소량의 라벨 데이터로 Fine-tuning함으로써 모델의 성능을 극대화한다.”

< 개념 알기 >

1. 표현 학습 (Representation Learning)

인공지능 모델이 데이터(이미지, 텍스트, 음성 등)를 분석할 때, 단순한 숫자의 행렬인 Raw Data로부터 특징을 스스로 찾아내어 데이터의 핵심 정보를 담은 의미 있는 숫자 벡터(Feature Vector)로 변환하는 과정.

<aside> 🔎

과거 머신러닝의 방식 vs 현대 딥러닝의 표현 학습 :

표현 학습의 목표는 결국 “좋은 표현”을 얻는 것이다.

“좋은 표현”이란, 1) 추상화 : 복잡한 데이터에서 불필요한 노이즈는 버리고 핵심만 남긴 것

                 2) **분별력** : 서로 다른 데이터(걷기, 뛰기)를 벡터 공간에서 명확하게 구분할 수 있는 것

이 두가지를 충족하는 표현이다.

즉, 표현 학습의 목표는

분류나 회귀 등 다양한 문제를 해결하기 쉽게 **‘Raw Data로부터 핵심 특징이 담긴 벡터를 얻는 것’**이다.

데이터 전처리 (Pre-processing) :
- 사람이 개입하여 데이터를 기계가 읽을 수 있는 형식으로 다듬는 과정
- Ex. 결측치 채우기, 노이즈 제거, 정규화(Normalization), 토큰화 등
특징 추출 및 변환 (Feature Extraction / Representation Learning) :
- 이 단계가 표현 학습의 핵심 영역
- 인코더가 전처리된 데이터를 입력 받아, 그 데이터의 특징(패턴)을 압축된 벡터 형태로 추출해냄.
테스크 수행 (Downstream Task) :
- 표현 학습으로 추출된 특징 벡터를 근거로 최종 판단을 내림.
- Ex. “이 특징을 보니 이 데이터는 ‘걷기’ 행동이다”, “이 특징은 ‘강아지’ 사진이다”