/ LECTURE

Python - BeautifulSoup

이 페이지는 다음에 대한 공부 기록입니다

JAVA(자바), Python(파이썬) 기반의

AI 활용 응용 소프트웨어 개발자 양성 과정

2021.11.10. ~ 2022.05.18.

찾으시는 정보가 있으시다면
주제별reference를 이용하시거나
우측 상단에 있는 검색기능을 이용해주세요

79일차 수업

BeautifulSoup

데이터를 쉽게 추출할 수 있도록 도와주는 분석모듈(외부 모듈)

웹페이지에 있는 태그들을 parser를 활용해서 사용할 수 있도록 제공해주는 모듈

import bs4 import BeautifulSoup

html = “””
<html><body>
        	<h1>스크레이핑 연습</h1>
        	<p>웹페이지 분석하자</p>
            <p>데이터 정제하기</p>
            <a href=https://spongebob53.github.io/>블로그</a>
</body></html>
“””

# 소스를 단순 문자가 아니라 html 문서의 계층 구조처럼 분석(태그, 속성, 계층 검색 가능)
soup = BeautifulSoup(html, html.parser)
print(type(soup.html.body.h1.string))	# output <class 'bs4.element.NavigableString'>
print(soup.html.body.h1.string)		# output “스크레이핑 연습”
print(type(soup.html.body.h1.text))		# <class 'str'>
print(soup.html.body.h1.text)		# output “스크레이핑 연습”

# 태그 안 속성 추출
a = soup.find(a)
print(a.text, :, i.attrs[href])	# output “블로그 : https://spongebob53.github.io/”
# 요소를 선택하는 방법 : find(), select(), find_all(), select_one()