◾군집화란?


◾K-mean Clustering

🔻개념 및 특징

🔸K-평균 군집화

🔸군집화 과정

  1. K개의 임의의 군집 중심점을 초기화한다. (C1,C2,C3, …, Ck) → 전체 데이터를 K개의 군집으로 묶겠다는 의미

    1. 이 때, 임의의 위치에 centroid를 배치하면 수행 시간이 오래 걸리므로, 일반적으로 초기화 알고리즘을 사용하여 초기화한다.
  2. 데이터 포인트들은 자신과 가장 가까운 위치의 centroid 군집에 소속된다.

    e.g.)

    KakaoTalk_20231107_203701932.jpg

  3. centroid를 갱신한다.

    1. centroid는 각 군집 내 데이터 포인트들의 평균 중심으로 이동한다.

      • $\underset{c}{min}\sum(datapoint와~centroid~거리)$ : 데이터 포인트들과 centroid 거리의 총합이 최소화되도록 centroid가 움직인다.

      KakaoTalk_20231107_204150662.jpg

  4. 군집을 갱신한다.

    1. 갱신된 centroid를 기준으로 다시 데이터 포인트들이 가장 가까운 centroid의 군집으로 소속된다.

      KakaoTalk_20231107_204321373.jpg

  5. centroid 갱신(3번)과 데이터 포인트의 소속 군집 갱신(4번)을 반복한다.

  6. 더 이상 centroid 갱신이 이루어지지 않는다면 군집화를 완료한다.

🔸특징

🔻군집 평가 Cluster Evaluation

🔸실루엣 분석 silhouette analysis

🔸Elbow Method

🔸ARI : Adjusted Rand Index

🔸HS : Homogeneity Score

🔸CHI : Calinski-Harabasz Index