Python使用urllib与BeautifulSoup下载并解析HTML

导入相关模块

import urllib.request
from bs4 import BeautifulSoup
from bs4 import SoupStrainer

下载并读取HTML内容

response = urllib.request.urlopen('http://www.baidu.com')
html_doc = response.read()

创建BeautifulSoup部分解析过滤器

only_nv_id = SoupStrainer(id='nv')

解析并输出百度nv中的文本内容

print(BeautifulSoup(html_doc, "html.parser", parse_only=only_nv_id).get_text())
新 闻 网 页 贴 吧 知 道 音 乐 图 片 视 频 地 图

Beautiful Soup Documentation

发表评论

电子邮件地址不会被公开。