5. [프로젝트] 서울시 구별 CCTV 현황 분석 > 5-1. DataScience란?
DataScience란?
*'5. [프로젝트] 서울시 구별 CCTV 현황 분석'(2주차)의 전체 교안은 서울시 구별 CCTV 현황 분석에서 확인해 주세요.
이번 주부터는 프로젝트를 통해 데이터 분석을 익힙니다. 실제 데이터를 통해 Pandas, Numpy, Matplotlib를 다룰 거예요. 그냥 보기만 하면 휘리릭 날아가 버리니 실제로 프로젝트를 맡았다는 생각으로 임해보시기 바랍니다😁
구체적으로 서울시 구별 CCTV 현황 분석을 해보려 합니다. 자잘한 기능에 집중하기 보다 큰 그림을 보면서 "데이터 분석의 흐름이 이렇구나"하며 접근해주세요.
이번 서울시 구별 CCTV 현황 분석에서는 단순히 어디에 CCTV가 많이 설치됐는지부터 구별 인구 대비 비율 확인까지 진행합니다. 특히 인구 현황을 보면서 구별 인구 현황도 확인하고, 구별 CCTV 현황을 시각화하는 것까지 해볼 겁니다. 이번 프로젝트를 통해서 pandas와 Matplotlib의 기초를 다질 수 있을 거예요.
여러분이 python, DataScience, 나아가 코딩을 하는 이유는 무엇인가요? 저는 코딩의 본질이 문제 해결 도구라고 생각합니다. 코딩을 통해 어떤 가설을 검증할 수도, 서비스를 만들 수도, 몰려오는 트래픽을 해결할 수도 있겠죠. 하지만 코딩 그 자체만 배운다면 좋은 분석가, 엔지니어가 될 수 없다고 생각합니다.
💡 데이터사이언스DataScience
일단 DataScience 커리큘럼을 배우고 있으니 데이터Data, 과학Science, 데이터사이언스DataScience가 무엇인지 간단하게 짚고 넘어가 봅시다.
1. 데이터Data
데이터Data는 발견, 조사, 수집, 창작된 형태 그대로의 무언가를 말합니다. 즉, 인간의 가치판단이 배제된 사실Fact에 가깝습니다. 하지만 이 데이터는 그 자체로는 큰 의미가 없습니다. 어부에게 사과 나무 몇 그루가 있다는 데이터(사실)는 별로 중요하지 않습니다. 반면 파이를 만드는 사람은 사과와 관련된 사실들을 재구성해 정보information를 만들고, 일반화하여 지식knowledge, 이를 활용하는 지혜wisdom로 나아갈 수 있습니다. 예컨대
- data: 9월 1일(비), 9월 2일(맑음), 9월 3일(비) ...
- information: 2017부터 2020년의 9 ~ 11월 동안 비가 온 날은 10, 30, 11, 13일이고, 2018년 사과값은 다른 때보다 50% 높았다. 21년 9월에만 10일 동안 비가 내렸다.
- knowledge: 2021년 9월에는 다른 시기보다 비가 많이 왔다.
- wisdom: 사과 값이 오를 예정이므로 비축하거나 대체품을 찾아야한다.
즉, 데이터는 그것 자체보다 활용하는 사람의 의도나 생각에 따라 의미가 달라질 수 있습니다.
2. 과학Science
그렇다면 과학Science은 어떨까요? 과학은 같은 조건 아래에서 같은 결과를 증명하는 행위입니다. 물론 추상적인 이론이 아닌 현실 세계에 같은 상황은 없죠. 미래의 일을 완벽히 알 수도 없습니다. 그렇지만 분석을 통해 그 편린이라도 예측하려는 겁니다.
3. 데이터사이언스DataScience
정리하자면 데이터사이언스는 무의미한 데이터를 예측하여 의미있게 만드는 작업이라고 할 수 있겠네요. 보통 그 작업을 분석Analysis이라고 합니다.