Beautiful Soup是一个关于计算机程序语言的小作品。你可以通过编辑或修订扩展其内容。
Beautiful Soup
原作者Leonard Richardson
稳定版本4.7.1 (2019年1月6日,​7个月前​(2019-01-06
源代码库
  • code.launchpad.net/beautifulsoup/
编程语言Python
类型HTML解析库、网络数据采集
许可协议Python软件基金会许可证 (Beautiful Soup 3及以前)
MIT许可证(Beautiful 4及以后)
网站www.crummy.com/software/BeautifulSoup/

Beautiful Soup是一个Python包,功能包括解析HTML、XML文档、修复含有未闭合标签等错误的文档(此种文档常被称为tag soup)。这个扩展包为待解析的页面创建一棵树,以便提取其中的数据,这在网络数据采集时非常有用。

该扩展包可用于Python 2.6+与Python 3。

示例代码

# Python 2.6+# anchor extraction from html documentfrom bs4 import BeautifulSoupimport urllib2webpage = urllib2.urlopen('https://en.wikipedia.org/wiki/Main_Page')soup = BeautifulSoup(webpage,'html.parser')for anchor in soup.find_all('a'):    print(anchor.get('href', '/'))
www.zuoweixin.com
问题反馈联系QQ:暂无联系方式,也可发qq邮箱。