4. 군집화(Clustering) > 4-7. 프로젝트
프로젝트
정답 라벨로 활용할 수 있는 지표가 없지만 유사한 특성을 갖는 개체끼리 묶고 싶은 데이터에 군집화를 활용합니다.
2. 데이터 전처리
기본적인 raw data를 정리하고, 유사한 특성으로 묶어줄 때 활용할 변수(input)를 정하는 단계입니다.
a. feature scaling
변수데이터 간에 단위가 다르므로 이를 같은 범위의 값으로 정규화, 표준화 시켜줍니다.
b. encoding
범주형 변수가 있을 때 이를 데이터를 숫자로 변환하는 과정입니다. 범주의 종류가 많은 경우 scale이 커지기 때문에 다시 정규화를 해줘야 하는 경우도 있습니다.
3. Clustering
본격적인 군집화 과정입니다. 데이터의 특성, 얻고자 하는 최종 군집화 결과에 따라서 여러가지 군집화 종류 중에서 선택해야 합니다.
4. Visualization
필수적인 과정은 아니지만, 시각적으로 유사한 개체들끼리 군집화가 잘 되었는지 확인할 수 있습니다.
5. Evaluation
군집화가 잘 되었는지, 즉 유사한 특성의 개체끼리 잘 묶였는지 확인하는 과정입니다. 앞서 언급했듯 군집화는 비지도학습이므로 명확한 평가가 어렵습니다. 여러 평가 지표를 확인하고 파라미터를 바꿔가면서 최적의 군집 결과를 도출해야 합니다.
프로젝트 실습 코드는 코랩 링크를 통해서 확인해보세요.