5. [프로젝트] 서울시 구별 CCTV 현황 분석 > 5-2. 문제 정의

문제 정의

본격적인 분석을 시작하기 전, 한가지 생각해봅시다.

우리는 좋은 분석을 하려면 어떻게 해야할까요? 제가 생각하는 과정은 다음과 같습니다.

2.1. 문제 정의:

코딩을 통해 이루고자 하는 목표, 맞닥뜨린 문제 파악
    e.g. 거주 지역은 건강 격차에 영향을 끼친다(끼칠 것 같다)

2.2. 데이터 수집:

문제를 해결하기 위해 필요한 데이터, 학습이 필요한 자료 및 로드맵
    e.g. 보건복지부, 건강보험심사평가원의 병원 수, 사망자 데이터, 통계청 인구 데이터 수집, 인과 관계를 나타내기 위해 분류, 회귀 분석이 필요하므로 머신러닝 중 sklearn 학습

2.3. 데이터 가공:

문제를 해결할 수 있도록 데이터 다듬기
    e.g. 시도, 시군구별 데이터로 정제

2.4. 의미화:

문제 해결에 적합하도록 데이터를 결합, 분리하기. 각종 분석(탐색적 데이터분석EDA, 회귀, 분류, 기타 등등)
    e.g. 도시-비도시, 수도권-비수도권 데이터 생성, 도시화지수 생성, 이후 분류, 회귀 분석에 활용

2.5. 대안 제시

분석 결과를 바탕으로 대안 혹은 해결 방법 제시. 필요 없을 수도 있음.

2.6. 마감 맞추기

모든 일에는 마감이 있습니다. 특히 분석은 마감을 지키지 못한다면 아무리 훌륭한 분석이라도 의미 없습니다.

사실 1번 외에도 모든 과정에 문제 정의가 포함되어 있습니다. 어디에서 생성한 데이터를 활용할지, 수집한 병원 수, 사망자 데이터는 건강 격차를 잘 설명할 수 있는지, 시도별 혹은 시군구별로 정제할지, 도시-농촌을 나누는 기준을 어떻게 설정할지, 분류/회귀 분석에 적절한 데이터인지 등 모든 순간을 문제로 정의할 수 있습니다.

그리고 이 모든 문제를 얼마나 매끄럽게, 시간에 맞추어 해결하는지가 DataScience의 핵심이라고 할 수 있습니다. 마감은 생명..!

💡 Q. 서울시 구별 CCTV 분석의 문제 의식 떠올려 보기

분석에 들어가기 전에 상상해봅시다. CCTV 분석에서 어떤 문제 정의를 할 수 있을까요? 일단 큰 주제는 어떤 요인이 CCTV 설치에 영향을 주었을까?가 될 것 같아요. 세부적으로 떠오르는 대로 이야기하자면

  • 공공기관은 세금으로 이루어지므로 세수(평균 소득, 총 소득)가 높을 수록 CCTV가 많이 설치 되었을 것이다.
  • CCTV는 범죄 예방 및 처리가 목적이므로 범죄율이 높았거나 높았을 수록 CCTV가 많이 설치 되었을 것이다.
  • 유동인구, 인구가 많고 인구 밀집도가 높은 곳일 수록 CCTV가 많이 설치 되었을 것이다.
  • 전문 경비 시설이 구비된 아파트보다 다른 주거시설(단독주택, 연립주택, 다세대주택)이 범죄에 취약할 수 있으므로 해당하는 지역이 밀집할수록 CCTV가 많이 설치 되었을 것이다.

등등이 있겠죠. 자세한 내용은 무엇보다 구글링이나 논문을 찾아보고, 인사이트를 찾는 방법이 제일 빠르답니다. 누군가 먼저 연구를 했을 수 있으니까요!

우리는 실제 데이터를 통해 검증해보도록 합시다.

마지막으로 업데이트 된 날짜:
2022년 9월 24일