Python - BeautifulSoup
이 페이지는 다음에 대한 공부 기록입니다
JAVA(자바), Python(파이썬) 기반의
AI 활용 응용 소프트웨어 개발자 양성 과정
2021.11.10. ~ 2022.05.18.
찾으시는 정보가 있으시다면
주제별reference를 이용하시거나
우측 상단에 있는 검색기능을 이용해주세요
79일차 수업
BeautifulSoup
데이터를 쉽게 추출할 수 있도록 도와주는 분석모듈(외부 모듈)
웹페이지에 있는 태그들을 parser를 활용해서 사용할 수 있도록 제공해주는 모듈
import bs4 import BeautifulSoup
html = “””
<html><body>
<h1>스크레이핑 연습</h1>
<p>웹페이지 분석하자</p>
<p>데이터 정제하기</p>
<a href=‘https://spongebob53.github.io’/>블로그</a>
</body></html>
“””
# 소스를 단순 문자가 아니라 html 문서의 계층 구조처럼 분석(태그, 속성, 계층 검색 가능)
soup = BeautifulSoup(html, “html.parser”)
print(type(soup.html.body.h1.string)) # output <class 'bs4.element.NavigableString'>
print(soup.html.body.h1.string) # output “스크레이핑 연습”
print(type(soup.html.body.h1.text)) # <class 'str'>
print(soup.html.body.h1.text) # output “스크레이핑 연습”
# 태그 안 속성 추출
a = soup.find(‘a’)
print(a.text, “:”, i.attrs[‘href’]) # output “블로그 : https://spongebob53.github.io/”
# 요소를 선택하는 방법 : find(), select(), find_all(), select_one()