<aside>
“라벨이 없는 데이터로부터 Contrastive SSL을 통해 데이터의 본질적 의미를 파악하는 표현학습을 선행하고, 이후 소량의 라벨 데이터로 Fine-tuning함으로써 모델의 성능을 극대화한다.”
< 개념 알기 >
인공지능 모델이 데이터(이미지, 텍스트, 음성 등)를 분석할 때, 단순한 숫자의 행렬인 Raw Data로부터 특징을 스스로 찾아내어 데이터의 핵심 정보를 담은 의미 있는 숫자 벡터(Feature Vector)로 변환하는 과정.
데이터의 형태 :
전처리가 끝난 단순한 숫자 행렬 → (특징 학습) → 데이터의 핵심 정보만을 남겨 압축한 특징 벡터
표현(Representation) :
데이터를 인공지능 모델이 이해할 수 있는 핵심 특징들로 수치화 한 것
<aside> 🔎
과거 머신러닝의 방식 vs 현대 딥러닝의 표현 학습 :
표현 학습의 목표는 결국 “좋은 표현”을 얻는 것이다.
“좋은 표현”이란, 1) 추상화 : 복잡한 데이터에서 불필요한 노이즈는 버리고 핵심만 남긴 것
2) **분별력** : 서로 다른 데이터(걷기, 뛰기)를 벡터 공간에서 명확하게 구분할 수 있는 것
이 두가지를 충족하는 표현이다.
즉, 표현 학습의 목표는
분류나 회귀 등 다양한 문제를 해결하기 쉽게 **‘Raw Data로부터 핵심 특징이 담긴 벡터를 얻는 것’**이다.