Clustering
in Category / Big Data
데이터를 유사도 에 의해서 K개의 그룹으로 나눈 그룹
- 모든 경우로 클러스터링을 하게되면 경우의 수가 너무 많음
- 추천 시스템에 주로 사용
\sum_{m=1}^k\sum_{t_{mi}\in{Km}}{({C_m}-{t_{mi}})}^2
- 수식의 결과가 작을수록 잘된 클러스터링
Partitional Algorithms
- 근사적인 값으로 일부만 클러스터링 하여 최적값을 찾아내는 것
K-means Clustering
- point를 지정하여 가까운 거리로 그룹
- point를 조금씩 이동해서 그룹
단점
- 사이즈가 크거나 작을 경우 잘 찾기 못함
- 평균점으로 부터 공모양의 클러스터만 잘 찾음
- 떨어져있는 데이터때문에 평균값이 달라지고 center가 결국 데이터가 없는 부분으로 이동
K-Medoids Clustering
- 실제 있는 포인트를 평균점, center로 사용
- 떨어져있는 데이터로 일어나는 K-means clustering의 단점을 보완
Hierarchical Clustering
- 주로 Bottom-up 방식 이용
- n개의 모든 포인트의 쌍의 거리를 계산하여 가장 가까운 거리에 있는 클러스터들을 merge
- 반복해서 k 개의 클러스터가 남을 때까지 진행
d_{min}(C_i, C_j) : Single-link
d_{mean}(C_i, C_j)
d_{ave}(C_i, C_j)
d_{max}(C_i, C_j) : Complete-link
- Average-link : pair point의 평균거리로 계산
- Mean-link : pair point를 merge하여 계산
- Centroid-link : 평균점 계산 후 평균점간의 거리로 계산