4. 군집화(Clustering) > 4-5. 분할적 군집: 확률분포기반
분할적 군집: 확률분포기반
확률분포기반 군집화는 개체들이 어느 군집에 속할 확률이 더 높은지 계산하여 분류하는 기법입니다.
GMM(Gaussian Mixture Model) 클러스터링은 전체 데이터를 여러 개의 가우시안 분포, 즉 정규 분포로 표현할 수 있는 데이터들의 결합으로 생성되었다고 가정하고 각 분포에 속할 확률이 높은 개체들로 군집을 형성하는 기법입니다. 이 방법을 GMM에서는 '모수 추정' 이라고 하는데, 모수 추정은 대표적으로 다음 두 가지를 추정합니다.
GMM은 DBSCAN과 같이 미리 설정해야 하는 파라미터가 있는데, n_components
는 총 정규 분포의 개수를 의미합니다. 즉, K-Means의 군집의 개수를 설정해주는 것과 유사합니다. GMM은 '예측(Expectation)'과 '최대화(Maximization)' 두 단계로 진행되며 이를 줄여 EM방법 이라고 부릅니다.
GMM은 데이터의 분포 형태나 분산의 일정함에 비교적 유연하여 K-Means나 DBSCAN보다 군집을 잘 묶을 수 있다는 장점이 있습니다.
반면, 가우시안 분포의 개수를 사용자가 지정해야 한다는 점에서 K의 개수를 설정해줘야 하는 것과 비슷한 어려움이 있으며, 기본 가정이 데이터가 정규 분포의 조합으로 이루어져있다는 것이므로 이에 속하지 않는 데이터의 클러스터링에는 적절하지 않을 수 있습니다. 또한 각 가우시안 분포마다 충분한 개체들이 있어야 모수 추정이 잘 이루어지며, 중심좌표를 구할 수 없어서 군집 중심 표현의 시각화가 불가능 하다는 한계가 있습니다.