使用python的beautifulsoup教程读取xml配置文件



我在包含xml的数据库中有很多行峩正在尝试编写一个Python脚本,该脚本将遍历这些行并计算特定节点属性的实例数量例如,我的树看起来像:

如何使用Python访问XML中的属性1和2

各種解析xml文件的效率

 beautifulsoup教程是Python的一个第三方库可用于幫助解析html/XML等内容,以抓取特定的网页信息目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法

文字的搜索会导致其他搜索给的值如:tag, attrs都失效。方法与搜索tag一致

# 注意:1每个tag的text包括了它以及它子孙的text。2所有text已经被自动转为unicode,如果需要可以自行转码encode(xxx)

實例本文以博客的文档列表页面为例,利用python对页面中的文章名进行提取

文章列表页中的文章列表部分的url如下:



 # 为了防止漏掉调用close方法,這里使用了with语句
 # 写入到文件中的编码为utf-8

我要回帖

更多关于 beautifulsoup教程 的文章

 

随机推荐