Clustering

06월 25일 in Category / Big Data

clustering 기법

데이터를 유사도 에 의해서 K개의 그룹으로 나눈 그룹

모든 경우로 클러스터링을 하게되면 경우의 수가 너무 많음
추천 시스템에 주로 사용

$\sum_{m=1}^k\sum_{t_{mi}\in{Km}}{({C_m}-{t_{mi}})}^2$

수식의 결과가 작을수록 잘된 클러스터링

Partitional Algorithms

근사적인 값으로 일부만 클러스터링 하여 최적값을 찾아내는 것

K-means Clustering

point를 지정하여 가까운 거리로 그룹
point를 조금씩 이동해서 그룹

단점
- 사이즈가 크거나 작을 경우 잘 찾기 못함
- 평균점으로 부터 공모양의 클러스터만 잘 찾음
- 떨어져있는 데이터때문에 평균값이 달라지고 center가 결국 데이터가 없는 부분으로 이동

K-Medoids Clustering

실제 있는 포인트를 평균점, center로 사용
떨어져있는 데이터로 일어나는 K-means clustering의 단점을 보완

Hierarchical Clustering

주로 Bottom-up 방식 이용
n개의 모든 포인트의 쌍의 거리를 계산하여 가장 가까운 거리에 있는 클러스터들을 merge
반복해서 k 개의 클러스터가 남을 때까지 진행

$d_{min}(C_i, C_j) : Single-link$
$d_{mean}(C_i, C_j)$
$d_{ave}(C_i, C_j)$
$d_{max}(C_i, C_j) : Complete-link$

Average-link : pair point의 평균거리로 계산
Mean-link : pair point를 merge하여 계산
Centroid-link : 평균점 계산 후 평균점간의 거리로 계산