如何将网页建立多级选项中的各选项遍历一遍抓出结果

一次遍历网页抓取数据经历 - CSDN博客
一次遍历网页抓取数据经历
起因:杭电ACM的试题列表不能按照指定条件显示。
按试题被AC次数倒排序。对未被我解决的试题,按被AC次数倒排序。
任务分解:
获取网页html数据到程序内存。使用URL类可轻松完成此任务。将html转换成document。使用Cobra包可轻松完成此任务。定位获取指定内容。使用XPath类可轻松完成此任务。进一步提取数据,并生成插入SQL语句。使用正则表达式可轻松完成此任务。执行SQL语句。
使用SQL语句进行分析。
辅助工具:
Firefox的XPath Checker插件,可以检查你的XPath表达式是否正确。Firefox的Firebug插件,可以在控制台使用JavaScript来确定该如何读取定位到的内容。
一些问题:
为什么不使用DocumentBuilder类直接解析html?
我面对的网页的格式并不标准,它的很多标签属性值并没有使用引号引起来。
为什么不使用Jsoup包来解析html?
它生成的Document并没有实现接口:org.w3c.dom.Document,从而不能使用XPath来定位。
为什么使用XPath来定位?
逻辑清晰,结构紧凑。
为什么使用XPath Checker找不到匹配项?
浏览器为table标签产生了子标签tbody,tr标签在tbody内。
关键步骤:
生成插入SQL语句
本文已收录于以下专栏:
相关文章推荐
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 /baoliao/ 。此网页中的最新、精华下面的内容是由JavaScript动态生成的。审查网页元素与网页...
// gb2312方式获取网页源码
public string getGB2312HTML(string url)
[csharp] 
包括8个按钮,每个按钮下的代码都可运行(第5、6个可能需要调试一下)。  
[csharp] 
有基本的页面抓取,不含分页数据的;  
[csharp 
有含分页数据,且...
提取的数据还不能直接拿来用?文件还没有被下载?格式等都还不符合要求?别着急,网页抓取工具火车采集器自有应对方案——数据处理。
网页抓取工具的数据处理功能包括三个部分,分...
根据公司的需求需要到指定网站抓取相关数据,即爬虫。
      
          网上有很多的工具以及第三方的dll,也可以用WebClie...
声明  本文章 属转载
import java.io.BufferedR
import java.io.IOE
import java.io.Inpu...
在获取World Community Grid任务页面的时候经历了很多的周折。开始的时候,认为这个页面和其他的页面相似,直接Post登陆信息即可获取到登陆Cookie,但是此方法失败,远端会返回登陆错...
他的最新文章
讲师:吴岸城
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)本帖子已过去太久远了,不再提供回复功能。 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
vc中如何遍历 控制html网页各元素浅析
下载积分:700
内容提示:vc中如何遍历 控制html网页各元素浅析
文档格式:PDF|
浏览次数:418|
上传日期: 06:45:53|
文档星级:
全文阅读已结束,如果下载本文需要使用
 700 积分
下载此文档
该用户还上传了这些文档
vc中如何遍历 控制html网页各元素浅析
关注微信公众号本帖子已过去太久远了,不再提供回复功能。

我要回帖

更多关于 遍历选项加入数组 的文章

 

随机推荐