0. 추천 학습 가이드 > 0-1. 추천 학습 가이드
추천 학습 가이드
코사다마의 웹크롤링 심화 스터디에 참여하신 모든 분들을 환영합니다 🙌
본 커리큘럼은 웹크롤링 심화 과정으로 기존 데이터 사이언스 입문에서 배웠던 BeautifulSoup나 Selenium보다 상당히 복잡한, Scrapy라는 새로운 크롤링 프레임워크를 다루려고 합니다.
Scrapy는 빠른 크롤링 속도와 넓은 확장성, 뛰어난 데이터 처리와 저장 능력을 가지고 있습니다. 이러한 장점 덕분에 이미 해외에서는 자주 쓰이고 있는 고급 기법이죠 ✨
Scrapy는 터미널 환경에서 크롤링이 이루어지기 때문에 처음 배우는 입장에서는 상당히 어려울 수 있습니다. 그래서 이번 커리큘럼에서는 Scrapy의 모든 부분을 다루기 보다는, 기본적인 사용법을 익히는 것을 목표로 합니다.
Scrapy는 터미널 환경에서 작업합니다. 아래 영상은 본 커리큘럼을 이해하는 데 도움이 되니 시청 바랍니다.
주차 | 학습 대주제 | 학습 소주제 |
---|---|---|
1주차 | 1. Scrapy 소개 및 설치 |
1-1. Scrapy란? 1-2. Scrapy는 객체 지향 프로그래밍이다! 1-3. Scrapy 설치하기 |
2. Scrapy shell |
2-1. Scrapy shell이란? 2-2. Scrapy shell에서 CSS Selector와 XPath로 데이터 가져오기 |
|
3. Scrapy 프로젝트 생성 |
3-1. Scrapy 프로젝트 생성 |
|
2주차 | 4. Spider(크롤러) 만들기 |
4-1. Spider(크롤러) 만들기 4-2. Spider 클래스 4-2. Robots.txt(로봇 배제 표준) |
5. 크롤링 데이터 다루기 |
5-1. Item 만들기 5-2. Spider 수정하기 5-3. 데이터 저장하기 5-4. 데이터 후처리하기 |
|
3주차 | 6. [프로젝트] 11번가 사이트 카테고리별 베스트 상품 크롤링 |
6-1. 프로젝트, Spider(크롤러) 만들기 6-2. Item 만들기 6-3. Request 메서드, callback과 meta 파라미터 6-4. 메인 카테고리의 베스트 상품 크롤링 6-5. 메인 카테고리, 서브 카테고리의 베스트 상품 크롤링 6-6. 데이터 후처리 및 저장 |
4주차 | 7. 텍스트 에디터 - VS Code |
7-1. VS Code 설치하기 7-2. VS Code 사용 팁⭐ 7-3. VS Code에서 작업하기 |
8. Scrapy Logging |
8-1. Scrapy Log_LEVEL을 통한 오류 찾기 8-2. Log를 파일로 저장하기 |
주차 | 학습 과제 |
---|---|
1주차 | 11번가 CSS Selector 경로 추출 |
2주차 | 11번가 베스트 카테고리의 상품가격&상품명 크롤링 |
3주차 | 11번가 메인 카테고리&서브 카테고리 베스트 상품 1~5위 크롤링&저장 |
4주차 | G마켓 메인 카테고리&서브 카테고리 베스트 상품 1~5위 크롤링 |
웹크롤링 심화 커리큘럼을 제작하면서 참고한 자료들과 해당 스터디와 병행하면 좋은 자료들입니다. 모두 구매하셔도 좋지만, 가장 추천드리는 도서는 카토 코타의 '파이썬을 이용한 웹 크롤링과 스크레이핑(위키북스)' 입니다.