0. 추천 학습 가이드 > 0-1. 추천 학습 가이드
추천 학습 가이드
코사다마의 데이터 분석 입문 스터디에 참여하신 모든 분들을 환영합니다🙌
정보의 홍수라는 말이 무색할 정도로 우리는 데이터에 잠겨 살고 있습니다. 눈을 떠서 잠이 들 때까지, 심지어 자는 동안에도 데이터가 수집되고 활용됩니다. 그러나 쌓인 데이터는 그냥 데이터일 뿐입니다. ‘어떠한’ 데이터를 수집해, ‘어떻게’ 데이터를 가공할지, 거기서 ‘어떤 의미를 도출’ 할 것이며, 그 결과 ‘어떻게’ 문제를 해결할 수 있는지는 아직 사람의 일입니다. 이러한 데이터 분석 능력은 데이터를 직접 다뤄보고 가공한 데이터의 의미를 적극적으로 분석하려는 데에서 시작된다고 할 수 있죠.🙂
코사다마의 데이터 분석 입문 스터디는 데이터 분석 끝판왕 모듈 Pandas를 중점적으로 다루는 스터디입니다. 데이터를 다루는데 있어 어떻게 데이터를 모으고, 그 데이터를 어떻게 시각화하고 분석할 것인지도 중요하지만, 무엇보다 중요한 것은 필요한 데이터를 가공하는 일입니다. 데이터 가공 과정에 우리는 Pandas를 사용할 수 있습니다. 파이썬은 여러 줄이 필요하지만 판다스로는 오로지 딱 한 줄로 해결할 수 있습니다. Pandas만 배우지는 않습니다. 수치 데이터 처리 모듈 Numpy, 시각화 도구 Matplotlib와 Seaborn, 지도 시각화 도구 Folium, 웹 크롤링을 위한 Beautiful Soup과 urllib 라이브러리, Selenium까지…!
그러나 Pandas와 여타 라이브러리는 매우 광활해 단기간에 마스터하기 쉽지 않습니다. 그리고 목표에 도달하기 위한 코드 진행 방식도 하나가 아닙니다. 그래서 COSADAMA는 최소한의 문법을 제공하고, 각종 프로젝트를 통한 스스로 학습이 최선이라고 생각합니다. 따라서 이번 커리큘럼에서는 가능한 많은 프로젝트를 직접 실습해보며 데이터 분석에 대한 감각을 익혀가는 것이 목표입니다.
나무 하나를 꼼꼼히 보기 보다 숲을 본다는 느낌으로 스터디가 진행됩니다. 코드에 집착하면 길을 잃기 십상입니다. 프로젝트를 통해 나아갑시다.
주차 | 학습 대주제 | 학습 소주제 |
---|---|---|
1주차 | 1. Pandas_준비 |
1-1. Pandas란? 1-2. 데이터 준비 |
2. Pandas_활용 |
2-1. 데이터 확인 2-2. 데이터 선택 2-3. 컬럼 추가 2-4. 연산 함수 2-5. 데이터 보간 2-6. 사용자 지정함수 apply lambda() 2-7. 데이터 삭제 2-8. DataFrame 병합 2-9. 병합 |
|
3. Numpy |
3-1. Numpy |
|
4. Matplotlib |
4-1. Matplotlib 4-2. 1주차를 마치며 |
|
2주차 | 5. [프로젝트] 서울시 구별 CCTV 현황 분석 |
5-1. DataScience란? 5-2. 문제 정의 5-3. 데이터 수집 및 가공 5-4. 시각화 5-5. 간단한 회귀분석 5-6. 2주차를 마치며 |
3주차 | 6. [프로젝트] 서울시 범죄 현황 분석 |
6-1. 서울시 범죄 현황 분석 6-2. 전처리 6-3. Google Mpas 6-4. Pivot Table 6-5. 정규화 6-6. Seaborn - 시각화 6-7. Folium - 지도시각화 6-8. 서울시 범죄율 지도 시각화 6-9. 3주차를 마치며 |
4주차 | 7. 웹 크롤링과 정규 표현식 |
7-1. 웹 크롤링과 정규 표현식 7-2. HTML/CSS 기초 7-3. BeautifulSoup 7-4. Urllib 7-5. 뉴스 기사 타이틀 크롤링 7-6. 정규표현식 7-7. openpyxl 7-8. 심화 - 여러 페이지를 한번에 크롤링해오기 7-9. 4주차를 마치며 |
5주차 | 8. [프로젝트1] 시카고 샌드위치 맛집 분석 |
8-1. BeautifulSoup + urllib으로 사이트에 접근하기 8-2. 데이터 추출과 가공 8-3. 절대경로와 상대경로, DataFrame 정리 8-4. 다수의 웹페이지 정보 추출 |
9. [프로젝트2] 셀프 주유소는 정말 저렴할까? |
9-1. selenium 설치와 웹 드라이버 9-2. 구별 주유소 가격 추출과 정리 9-3. 셀프 주유소 가격 시각화 |
데이터사이언스 커리큘럼의 학습 내용은 주차별로 구분 되어 있으며, 1-1, 1-2 등의 방식으로 구분되어 있습니다. 전체 코드를 원하시는 분들은 COSADAMA Github Repository 중 Data-Sceince-Intro에서 week1.ipynb, week2.ipynb 등을 찾아보세요.
코사다마 데이터 분석 입문 커리큘럼은 Jupyter Notebook을 기본 개발환경으로 합니다. Anaconda 가상환경을 다운로드 하시면, Pandas, Numpy, Matplotlib, Seaborn, Sklearn까지 데이터 분석에 필요한 필수 라이브러리를 관리하실 수 있습니다.
데이터 분석 입문 커리큘럼을 제작하면서 참고한 자료들과 해당 스터디와 병행하면 좋은 자료들입니다. 데이터 분석에 처음 입문하시는 분이라면 파이썬으로 데이터 주무르기를 커리큘럼과 병행하시는 것을 추천 드립니다.