웹 페이지에서 원하는 데이터를 추출하여 가공하기 쉬운 형태로 바꾸는 것.
웹페이지에 나돌아다니는 데이터는 리스트, 딕셔너리 와 같은 자료 구조와 달리, 사용자 마음대로 수정하는 것이 쉽지 않다.
그렇기에 이런 데이터들을 다루기 쉬운 형태로 바꾸는 과정이 필요하다.
이 때 쓰이는 함수나 프로그램을 파서(parser)락 하며, 이 과정을 파싱(parsing)이라고 한다.
웹 크롤링에 필수적.
python에서의 BeautifulSoup이라는 라이브러리를 사용하여 html 문서를 파싱한다.
'웹 크롤링' 카테고리의 다른 글
BeautifulSoup 모듈, find와 select의 차이점 (0) | 2021.07.16 |
---|---|
Selenium WebDriver 소개 (0) | 2021.07.16 |
BeautifulSoup 간단한 소개 (0) | 2021.07.16 |
댓글