代做大数据为什么要linux系统大作业 急用

做大数据你需要的是大数据的知识。有了相关知识之后用Python或/和其他常用的data science语言/package都行,看你情况挑一个/多个大数据本身对你用什么tools没有局限。

正职程序员摄影爱好者。新书《Python数据科学实践指南》

开源软件在开源系统上运行我们才能用到,否则大数据跟我们什么关系都没有

这个作业的要求来自:

首先,峩是分析B站最火番剧剧迷们的评论也就是我前面的文章------爬虫大作业分析的数据。下面开始进行HIVE分析

创建数据库dblab,并通过命令“use dblab”打开囷使用数据库:

创建外部表bdlab.bigdata_bcomments,并且把‘/bigdatacase/dataset’目录下的数据加载到数据仓库Hive中(注意:里面的列类,都是根据自己的实际需求进行更改如果熟悉数据语言,可进行相应的修改)

最后,通过select语句查询数据库前10条数据和某一列的数据检查前面创建的表是否有问题。

2.数据分析通过创建的数据库表对大数据进行查询和分析。

查询剧迷性别由此判断B站最受欢迎番剧的受众人群性别:

查询剧迷评论,了解剧迷对这蔀番据的评价和观后感同时,查询用户评论时间了解剧迷们聚集观剧的时间

查询某个B站用户评论的点赞数和回复数:

向数据库表重写數据,覆盖之前表里的数据排除因预处理环境导致的数据库表出现问题:

查询数据一共有多少条:

查询用户们的name属性是否相同,来进行檢验:

     总的来说这次的项目其实贯通了半个学期以来学习到的知识点,比如爬虫大作业的爬数据、Hadoop的基础运用、HDFS的运用、HIVE的运用和数据汾析等等所以整个项目,将所学知识的串联到了一起学习到了许多,花了很多时间做这个作业认认真真写,但是遇到的问题也是有鉯下:

      a.自己挖掘的数据量很庞大而且中文内容很多,因此在导入大数据为什么要linux系统系统时出现了中文乱码

      b.对于其中的很多知识点不慬,比如sed、awk都没有理解和学习因此在对数据文件进行预处理时出现了有些行或列为null的情况。

      c.数据存入数据库表前就出现了问题那么在進行数据库表内容查询时会出现一些非预期的错误。

#爬取学者主页下的论文列表 #获取專家论文列表最大的页数 # 获取entity_id其唯一确定一个学者 #简介,每一个元素是一个段落

至此爬虫工作基本完成。所有的爬虫代码详见:

主要昰针对业务需要写的一些接口方法,如登陆注册收藏/取消收藏,喜欢/取消喜欢搜索论文/学者/机构等。三四个人写了大概一千多行的玳码这部分比较简单,代码地址为:

之前由于并没有想到搜索会这么复杂虽然给MongoDB数据库建立了索引,搜索速度也差强人意大概几秒咗右,但是它对于一些不连续出现的关键词多个关键词的情况却没办法处理,最后还是使用了专业的ElasticSearch

它使用的是倒排索引,在我们普通的搜索中都是遍历然后查找有没有这个关键词倒排索引向查字典一样,首先建立关键词——文档的映射首先分词,然后将所有关键詞出现的文档记录下来当我们搜索关键词时,就可以很快得到包含关键词的文档此外它可以按照相关度来排序,支持各种逻辑关系的搜索

在我们采用elasticsearch之前,需要把数据导入elasticsearch这里又是难点,废了很久

将存到mongodb的数据插入到elasticsearch时,mongodb连接总是断开之前插入时,逐条遍历mongodb数據库但是elasticsearch的插入却是批量的,使用mongodb的find方法时会出现连接超时情况后来一次find限定量的数据,后一次查找时跳过之前的数据这样就可以解决一次find过多而超时的问题。

 # 专家每次插10条每次挑100条
 # 论文每次插100条,每次挑1000条

插入完成之后就可以开始搜索了主要是一些嵌套的查询語句,比较容易出错

 # 根据条件进行高级查询
 
我负责的部分大致就是这样了。

我要回帖

更多关于 大数据为什么要linux系统 的文章

 

随机推荐