7. 웹 크롤링과 정규 표현식 > 7-1. 웹 크롤링과 정규 표현식

웹 크롤링과 정규 표현식

*'7. 웹 크롤링과 정규 표현식'(4주차)의 전체 교안은 웹 크롤링과 정규 표현식서 확인하실 수 있습니다.

이번에는 드디어 재밌는 웹 크롤링과 외계어 같은 정규 표현식에 대해 알아보려고 합니다 🕷🕸

웹 크롤링이라는 것은 웹에서 내가 원하는 데이터를 긁어오는 것을 말하는데요, 웹 크롤링을 하면 뭔가 내가 프로그래밍을 배웠긴 배웠구나라는 신기한 생각이 든답니다😀 웹 크롤링도 엄청나게 방대한 기술이 있기 때문에 기초적인 수준을 먼저 다뤄보려 합니다.

웹에서 정보를 가져오기 위해서는 HTML/CSS에 대한 기본지식이 있어야 하니, 이 또한 필요한 부분(아주 작은 부분)만 뽑아서 학습해 볼 겁니다. 그 후에는 정규표현식을 배워 원하는 데이터만 좀 더 편하게가져올 수 있도록 할 것이구요!

이번 주차는 학습 분량이 넘칩니다. 너무 많다고요? 어쩔 수 없습니다 ㅎ 정말 줄이고 줄여서 담은 내용이라 하나도 뺄게 없거든요... 😂

마음의 준비가 다 되셨나요?

준비가 다 되셨다면, BeatifulSoup과 urllib 라이브러리를 활용해 웹 크롤링을 해보고, 엑셀을 열고 기록하는데 사용되는 모듈 openpyxl을 사용해 가져온 데이터를 엑셀 파일에 저장하고 읽어본 뒤, 정규표현식을 통해 원하는 데이터만 쏙쏙 골라보러 출발~🏃‍♀️🏃‍♂️

마지막으로 업데이트 된 날짜:
2022년 9월 24일