본문 바로가기

웹 크롤링4

BeautifulSoup 모듈, find와 select의 차이점 BeautifulSoup은 HTML 문서를 예쁘게 정돈된 파스트리로 변환하여 내놓는 파이썬 라이브러리다. 이 잘 정돈된 데이터 구조는 Beautiful Soup 객체로서 여러 tag 객체로 이루어져 있다. 영어, 한국어와 같은 자연어 문장이 문법에 따라 구조를 갖듯이 HTML 이라는 웹을 이루는 언어로 작성된 페이지를 문법에 맞게 구조화한다. find 와 select 는 BeautifulSoup의 메소드로서 데이터 구조를 항해하는 몇 가지 방법이다. 01. find 사용법 find의 목적은 원하는 태그를 찾는 것이다. 태그는 이름(name), 속성(attribute), 속성값(value)로 구성된다. 따라서 find로 이름, 속성, 속성값을 특정하여 태그를 찾을 수 있다. tag = " Hello Wor.. 2021. 7. 16.
Selenium WebDriver 소개 Selenium WebDriver에 대해 설명 드리고, Ranorex와 같이 활용하여 Web Application을 강력하게 테스팅하는 방법을 소개 드리고자 합니다. ​ Selenium WebDriver는 무엇인가? ​ Selenium WebDriver는 웹 어플리케이션을 테스팅할 때 사용하실 수 있는 무료 도구이며, API를 제공하는 오픈소스 프레임워크입니다. 이상적으로는 웹 브라우저들은 같은 방법으로 웹 어플리케이션을 출력하게 되어있습니다. 그러나 각각의 브라우저들은 고유의 렌더링 엔진이 있고 HTML을 약간씩 다르게 다룹니다. 그것은 웹 어플리케이션을 동시에 여러 장비와 브라우저에서 동작하는지 테스트해야 하는 이유입니다. Selenium API를 사용한 자동화된 테스트들은 WebDriver가 있는 .. 2021. 7. 16.
BeautifulSoup 간단한 소개 BeautifulSoup은 HTML이나 XML에서 데이터를 추출하는 파이썬 라이브러리 이다. 웹문서의 구조를 찾아내는 파서를 이용해 찾고자 하는 데이터의 위치를 찾아 내어 값을 추출한다. 또한, 잘못된 HTML을 수정하여 반환해주거나 Javascript의 DOM처럼 기능하도록 해준다. ##설치 방법 !pip intall beautifulsoup4 ​ ## BeautifulSoup 객체 생성 ## requests.text를 이용해서 받아온 문자열 데이터를 DOM 형식으로 바꿔준다. ​ # html.parser vs lxml - lxml 모듈을 설치해야 lxml모듈을 사용 가능하다. - lxml 모듈이 html.parser보다 더 성능이 우수하다. ​ ## Tag 객체 - 반환 데이터의 타입은 Tag타입과 .. 2021. 7. 16.
파싱(parsing)이란? 웹 페이지에서 원하는 데이터를 추출하여 가공하기 쉬운 형태로 바꾸는 것. 웹페이지에 나돌아다니는 데이터는 리스트, 딕셔너리 와 같은 자료 구조와 달리, 사용자 마음대로 수정하는 것이 쉽지 않다. 그렇기에 이런 데이터들을 다루기 쉬운 형태로 바꾸는 과정이 필요하다. 이 때 쓰이는 함수나 프로그램을 파서(parser)락 하며, 이 과정을 파싱(parsing)이라고 한다. 웹 크롤링에 필수적. python에서의 BeautifulSoup이라는 라이브러리를 사용하여 html 문서를 파싱한다. 2021. 7. 10.