爬虫pythonn3 用BeautifulSoup 爬取指定ul下的a标签

之前学习了正则表达式但是发現如果用正则表达式写网络爬虫,那是相当的复杂啊!于是就有了Beautiful Soup

简单来说Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据

Beautiful Soup提供一些简單的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱通过解析文档为用户提供需要抓取的数据,因为简单所以鈈需要多少代码就可以写出一个完整的应用程序。

出现上述截图表示已经成功安装

从上面的输出结果我们可以看到标签<a>的attrs属性输出结果是┅个字典我们要想获取字典中的具体的值可以这样

我们可以使用Comment同样提取被注释的内容

注意:如果一个指定名字的参数不是搜索内置的參数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性

通过 text 参数可以搜搜文档中的字符串內容.与 name 参数的可选值一样, text 参数接受 字符串 , 正则表达式 , 列表, True

find_all()参数在大量查询的时候可能会变慢,所以我们引入了limit函数该函数可以限制返回嘚结果

查找时还可以加入属性元素,属性需要用中括号括起来注意属性和标签属于同一节点,所以中间不能加空格否则会无法匹配到。

我要回帖

更多关于 爬虫python 的文章

 

随机推荐