9. 학습 과제 > 9-4. G마켓 메인 카테고리&서브 카테고리 베스트 상품 1~5위 크롤링

G마켓 메인 카테고리&서브 카테고리 베스트 상품 1~5위 크롤링

실습 과제는 이전(3주차) 과제와 유사합니다. G마켓 사이트의 모든 메인 카테고리, 서브 카테고리의 베스트 상품 1~5위를 크롤링하시면 됩니다.

  • G마켓 robots.txt 확인하기: https://www.gmarket.co.kr/robots.txt

  • G마켓 베스트 카테고리 주소: http://corners.gmarket.co.kr/Bestsellers

  • 크롤링해야 되는 데이터(가급적이면 순서를 지켜주세요)

    1. 메인 카테고리명
    2. 서브 카테고리명
    3. 상품 순위
    4. 상품명
    5. 기존 가격
    6. 할인 가격
    7. 할인율(new)
  • 조건

    1. 기존 가격이 없을 경우 할인 가격과 같게 해줄 것
    2. 할인율이 없으면 '0'으로 처리할 것
    3. pipelines.py 설정을 통해 가격에서 쉼표(,)를 없애고, '원'은 '냥'으로 바꿔줄 것 (예: 200,102원 > 200102냥)
    4. LOG_LEVEL은 ERROR로 설정할 것
  • 힌트

    • G마켓은 11번가와 달리 카테고리 주소(url)를 담고 있는 태그가 있다. 이 태그의 경로를 적극 활용할 것 🧭

    • settings.py에 추가해야 되는 설정 빠트리지 말 것 (필수!!)

마지막으로 업데이트 된 날짜:
2022년 9월 24일