일반적인 정의
→ 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구분야
전체적인 흐름
지도 학습 (Supervised Learning)
→ 알고리즘에 주입하는 훈련 데이터에 레이블이라는 정답이 포함되어 있는 경우
분류 (Classification)
ex ) 스팸 메일인지 / 아닌지 등의 categorical한 정답을 맞추는 학습
회귀 (Regression)
로지스틱 회귀 (Logistic Regression)
<aside> 💡
용어 정리 )
target = label
일반적으로 동의어로 취급되며, target은 회귀 / label은 분류 작업에 많이 사용됨
ex ) 분류 - 각 샘플에 대해 ‘스팸’ / ‘스팸 아님’ 라는 label을 가짐
예측 변수 = 속성
각 샘플이 가질 수 있는 데이터의 column이라고 생각할 수 있음
ex ) 차량에 관한 데이터 - 연비 / 가격 / 주행 가능 거리 등이 attribute
</aside>
비지도 학습 (Unsupervised Learning)
→ 학습에 사용되는 훈련 데이터에 레이블이 없는 경우
아래의 예시 그림처럼, 각 data sample에 대해 어떤 데이터인지 label이 없음
ex ) 블로그 방문자에 대한 데이터는 있고, 이들을 비슷한 그룹으로 묶으려고 하는데, 방문자들이 어떤 그룹에 속하는지에 대한 label이 없음.
군집화 (clustering)