Clustering

clustering 기법

데이터를 유사도 에 의해서 K개의 그룹으로 나눈 그룹

  • 모든 경우로 클러스터링을 하게되면 경우의 수가 너무 많음
  • 추천 시스템에 주로 사용
\sum_{m=1}^k\sum_{t_{mi}\in{Km}}{({C_m}-{t_{mi}})}^2
  • 수식의 결과가 작을수록 잘된 클러스터링

Partitional Algorithms

  • 근사적인 값으로 일부만 클러스터링 하여 최적값을 찾아내는 것

K-means Clustering

  • point를 지정하여 가까운 거리로 그룹
  • point를 조금씩 이동해서 그룹
단점
- 사이즈가 크거나 작을 경우 잘 찾기 못함
- 평균점으로 부터 공모양의 클러스터만 잘 찾음
- 떨어져있는 데이터때문에 평균값이 달라지고 center가 결국 데이터가 없는 부분으로 이동

K-Medoids Clustering

  • 실제 있는 포인트를 평균점, center로 사용
  • 떨어져있는 데이터로 일어나는 K-means clustering의 단점을 보완

Hierarchical Clustering

  • 주로 Bottom-up 방식 이용
  • n개의 모든 포인트의 쌍의 거리를 계산하여 가장 가까운 거리에 있는 클러스터들을 merge
  • 반복해서 k 개의 클러스터가 남을 때까지 진행

d_{min}(C_i, C_j) : Single-link
d_{mean}(C_i, C_j)
d_{ave}(C_i, C_j)
d_{max}(C_i, C_j) : Complete-link

  • Average-link : pair point의 평균거리로 계산
  • Mean-link : pair point를 merge하여 계산
  • Centroid-link : 평균점 계산 후 평균점간의 거리로 계산

Pagination