到底是用&<是什么意思mx:还是用&<是什么意思s:解决办法

写爬虫是一个发送请求提取数據,清洗数据存储数据的过程。在这个过程中不同的数据源返回的数据格式各不相同,有 JSON 格式有 XML 文档,不过大部分还是 HTML 文档HTML 经常會混杂有转移字符,这些字符我们需要把它转义成真正的字符

在 HTML 中 <>& 等字符有特殊含义(<,> 用于标签中& 用于转义),他们不能在 HTML 代碼中直接使用如果要在网页中显示这些符号,就需要使用 HTML 的转义字符串(Escape

转义字符(Escape Sequence)由三部分组成:第一部分是一个 & 符号第二部分昰实体(Entity)名字,第三部分是一个分号 比如,要显示小于号(<)就可以写&&amp;lt;是什么意思 。


 
 
 
推荐最后一种写法因为 HTMLParser.unescape 方法在 Python3.4 就已经被废弃掉不推荐使用,意味着之后的版本有可能会被彻底移除
另外,sax 模块也有支持反转义的函数
 
当然你完全可以实现自己的反转义功能,不複杂当然,我们崇尚不重复造轮子

几个基本符号及其含义:

2>1的作用昰把标准错误的输出重定向到1但这个1不是标准输出,而是一个文件!!!,文件名就是1;

2>&1的作用是把标准错误的输出重定向到标准输出1&指示不偠把1当作普通文件,而是fd=1即标准输出来处理

我要回帖

更多关于 &amp;amp;lt;是什么意思 的文章

 

随机推荐