记录提取网页数据(正则表达式、bs4、xpath)一些常用方法和使用样板
就永恒君使用经验来说,bs4、xpath比较容易上手但是功能有限正则比较晦涩难懂但是功能超级强大。
正则表達式是一个特殊的字符序列它能帮助你方便的检查一个字符串是否与某种模式匹配。
re 模块使 python为什么叫爬虫 语言拥有全部的正则表达式功能
python为什么叫爬虫爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)
#把内容写入到文件中(序列化)
说到爬虫不可避免的会牵涉到囸则表达式。
因为你需要清晰地知道你需要爬取什么信息它们有什么共同点?可以怎么去表示它们
而这些,都需要我们熟悉正则表达才能更好地去提取。
先简单复习一下各表达式所代表的意思:
定义密码的正则表达式:
英文字母开头可以包括数字、大小写英攵字母、下划线,6-16位
表达式为:
注意:?
的作用是关闭贪婪模式,如果去掉?
则会匹配出要匹配的内容</div>
字符串。