어떤 데이터들이 주어졌을 때, 그 데이터들을 클러스터로 그룹화하는 것
하나의 데이터를 여러 개의 부분 집합으로 분할하는 것.
군집 분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는 이렇게 나누어질 수 있구나! 정도의 지식을 발견하기 위해 사용한다.
test할 때 두 개의 평균과의 거리를 비교한다.
두 개의 평균 중 어디에 더 가까운가 확인한다.
이 때 거리를 재는 방법이 매우 다양하다.
데이터 종류가 다양해지며, 데이터에 따라 적합한 거리 척도가 다양하게 존재한다.
Joint 확률에 대한 것
훨씬 어렵다.
데이터의 정확한 구조를 다 이해할 수 있다.
Clustering은 조절하는 Point가 없다.
GMM (Gaussian Mixture Model)
데이터가 정규성을 만족하지 않는 경우 성능 저하. 계산량 많음
OPTICS
Fuzzy
EM