어떤 데이터들이 주어졌을 때, 그 데이터들을 클러스터로 그룹화하는 것

하나의 데이터를 여러 개의 부분 집합으로 분할하는 것.

군집 분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는 이렇게 나누어질 수 있구나! 정도의 지식을 발견하기 위해 사용한다.


test할 때 두 개의 평균과의 거리를 비교한다.

두 개의 평균 중 어디에 더 가까운가 확인한다.

이 때 거리를 재는 방법이 매우 다양하다.

데이터 종류가 다양해지며, 데이터에 따라 적합한 거리 척도가 다양하게 존재한다.

Joint 확률에 대한 것

훨씬 어렵다.

데이터의 정확한 구조를 다 이해할 수 있다.

Clustering은 조절하는 Point가 없다.


Untitled

Hierarchical Clustering(계층적 군집 분석)