怎样编译,安装和配置nutch2.x

项目上需要做网页的采集和分析想借助Nutch来实现。

我的想法是搭建Nutch+HBase的环境向Nutch提交一个爬取任务,然后再从HBase里去捞数据

但这里有两个难题,一是Nutch爬取和捞数据两者是异步的该怎么处理。二是Nutch爬取来的数据以什么样的表结构放置在Nutch中,换句话说能够HBase中捞到什么样的数据怎么捞。

有做这方面研究的同誌说说你们的想法。

我要回帖

 

随机推荐