SWEA_D3_6900_주혁이의 복권 당첨

06월 28일 in Category / Algorithm

SWEA_D3_7584_자가 복제 문자열

06월 27일 in Category / Algorithm

1학기정리_1주차_JAVA

06월 25일 in Category / STUDY

1학기 내용정리 스터디 _ 1주차 _ JAVA

Clustering

06월 25일 in Category / Big Data

clustering 기법

데이터를 유사도 에 의해서 K개의 그룹으로 나눈 그룹

모든 경우로 클러스터링을 하게되면 경우의 수가 너무 많음
추천 시스템에 주로 사용

$\sum_{m=1}^k\sum_{t_{mi}\in{Km}}{({C_m}-{t_{mi}})}^2$

수식의 결과가 작을수록 잘된 클러스터링

Partitional Algorithms

근사적인 값으로 일부만 클러스터링 하여 최적값을 찾아내는 것

K-means Clustering

point를 지정하여 가까운 거리로 그룹
point를 조금씩 이동해서 그룹

단점
- 사이즈가 크거나 작을 경우 잘 찾기 못함
- 평균점으로 부터 공모양의 클러스터만 잘 찾음
- 떨어져있는 데이터때문에 평균값이 달라지고 center가 결국 데이터가 없는 부분으로 이동

K-Medoids Clustering

실제 있는 포인트를 평균점, center로 사용
떨어져있는 데이터로 일어나는 K-means clustering의 단점을 보완

Hierarchical Clustering

주로 Bottom-up 방식 이용
n개의 모든 포인트의 쌍의 거리를 계산하여 가장 가까운 거리에 있는 클러스터들을 merge
반복해서 k 개의 클러스터가 남을 때까지 진행

$d_{min}(C_i, C_j) : Single-link$
$d_{mean}(C_i, C_j)$
$d_{ave}(C_i, C_j)$
$d_{max}(C_i, C_j) : Complete-link$

Average-link : pair point의 평균거리로 계산
Mean-link : pair point를 merge하여 계산
Centroid-link : 평균점 계산 후 평균점간의 거리로 계산

SWEA_D3_7732_시간개념

06월 25일 in Category / Algorithm