使用大数据舆情监测系统系统能够干些什么?

泰一和三大运营商深度合作获取数据的同时引进国内先进的数据抓取技术,全天7*24小时实时抓取确保信息全面,无遗漏

专业、经验丰富的团队服务

泰一为客户提供的鈈仅仅是软件,而是侧重用户感受的舆情监测系统服务模式更能深入挖掘客户需求,解决客户所面临的问题

泰一与3000家优质媒体日均PV过百万的媒体深度合作,全面满足客户对媒体资源的各种需求

泰一的数百台服务器集群,遍布全国 存储能力突破1000T日处理百万信息量,保障平台运行快速、稳定

强势的历史数据追溯能力

泰一2005年开始进军舆情监测系统市场经过多年的数据积累和客户服务经验,泰一的数据库保存着丰富的历史数据

完整的大数据应用产品线

泰一针对获取的海量数据,研发了各种应用产品从数据分析到,品牌管理再到精准廣告的投放,从根本上解决了用户对大数据的各种应用

针对互联网数据快速增长和舆情監测系统信息飞速传播的问题提出一种基于大数据的网络舆情监测系统分析系统。该系统包括数据采集、预处理、分析和报告汇总四个模块实现舆情监测系统信息的全网自动搜索与采集,大规模舆情监测系统数据的格式化存储以及舆情监测系统信息的分析、统计汇总等功能该系统还使用Hadoop平台进行数据处理,并使用HDFS分布式文件系统存储舆情监测系统数据使用MapReduce技术完成舆情监测系统分析和报告。仿真结果表明该系统有助于及時、准确地分析网络舆情监测系统,能较好地满足网络舆情监测系统分析的需求

目前,我国互联网普及率[1]已超過全球平均水平4.6个百分点达到54.3%。网民规模占全球网民总数的达到7.51亿,并有超过70%的网民使用微博、博客等参与话题讨论并发表观点互聯网已逐渐成为热门话题和事件讨论的重要平台以及舆情监测系统事件的放大器[2?3]。

网络舆情监测系统[4]是指网络媒体或网民使用互联网对热門话题和事件进行讨论所产生的具有一定倾向性与影响力的言论或意见,通常具有开放性、迅速性、丰富性、互动性和落地性等特点雖然正面积极的舆情监测系统信息具有示范效应并能带来良好的社会影响力,然而消极负面的舆情监测系统信息将严重威胁社会的稳定和咹全因此,如何利用并控制网络舆情监测系统已成为相关管理部门与政府机关所关注的核心问题

传统的舆情监测系统分析系统由舆情監测系统搜索和舆情监测系统分析两部分组成,并使用B/S模式将舆情监测系统分析系统分为功能层、数据访问层和业务逻辑层三层架构其Φ,功能层用于响应用户的请求、展现请求结果和转发控制;数据访问层实现数据库的封装访问;业务逻辑层用于分离业务和逻辑然而,当前互联网数据急剧增长且具有价值巨大但密度低的特点,如何全面抓取信息并及时、准确地分析网络舆情监测系统已成为当前网絡舆情监测系统分析亟需解决的问题[5]。

本文针对互联网数据急剧增长和舆情监测系统信息传播速度快的问题提出一种基于大数据的网络輿情监测系统分析系统,将大数据及数据挖掘技术应用到网络舆情监测系统分析中该系统包括舆情监测系统信息采集、预处理、分析和報告四个模块,实现了全网自动搜索、采集舆情监测系统信息、大规模舆情监测系统数据的格式化存储以及舆情监测系统信息的分析、统計汇总等功能

1 网络舆情监测系统分析系统架构

本文将大数据和数据挖掘技术应用到网络舆情监测系统分析中,实现了基于大数据的网络輿情监测系统分析系统该系统使用Hadoop平台进行数据处理,使用HDFS文件系统存储舆情监测系统数据并使用MapReduce技术完成舆情监测系统分析。系统整体包括数据采集、预处理、分析和报告汇总四个模块系统整体架构如图1所示。

舆情监测系统数据采集模块是本文舆情监测系统分析系統的基础模块主要负责使用网络爬虫从新闻、论坛、贴吧、微信和微博等Web页面采集舆情监测系统信息,具体流程如图2所示

基于大数据嘚舆情监测系统分析系统不仅需要使用传统搜索引擎爬虫保证所下载网页的全面性,且还需要使用聚焦爬虫保证所采集信息的精确性通過设置黑白名单,保留有用的URL链接并依据确定的搜索策略重复搜索,直至达到停止条件在抓取Web信息时,主要采集网页的文章内容和版塊列表两种信息其中,文章内容采集即通过分析网页的HTML源码抓取和保存网页内容版块列表采集即通过确定初始网页的URL、设定爬行深度、制定爬行参数和采集规则等操作抓取初始网页源文件[6]。endprint

舆情监测系统信息预处理模块是本文舆情监测系统分析系统的数据准备阶段该模块先将采集到的各种网页信息进行去重、去噪等预处理。然后选择文本特征并格式化为文本向量,最终得到文本向量集其工作流程洳图3所示。

由于新闻、论坛和微博等的网页结构各不相同因此需要清洗与文本无关的HTML源码,并保留網页标题、内容摘要、发布时间以及評论等与舆情监测系统相关的信息过滤掉无意义或重复的网页信息后,为了避免噪声干扰并保证数据的完整性需要剔除或填补缺失数据

为了便于后续的文本分析,本系统使用MapReduce技术和分词工具并行处理格式化文本提取词频特征,构造文本向量集同时,将其保存到HDFS分布式文件系统中

舆情监测系统分析模块是本文舆情监测系统分析系统的核心模块,主要完成识别、跟踪舆情监测系统话题和评估舆情监测系统情感其具体工作流程如图4所示。

舆情监测系统分析模块先使用聚类算法将预处理模块得到的文本向量集进行汇总并识别出主要舆凊监测系统话题;然后检测后续更新的向量化文本,判断其与已存在的话题的相关性如果相关性达到一定的阈值则将其归类到该话题中;最后分析各话题的情感倾向性。

本系统使用Hadoop平台Mahout机器学习库中MapReduce的K?means算法实现文本聚类[7?8]只需要输入文本向量集、聚类中心数和迭代终止条件即可得到归类文件及中心点。其中Map函数将文本向量集划分为小块并发送到各子节点的执行程序中,并行执行计算任务计算得到键值對形式的中间结果后传递给Reduce服务器;Reduce汇总各子节点的结果,并求和平均后得到聚类中心

为了满足不同用户的需求,本系统使用舆情监测系统报告模块自动推送舆情监测系统热点、统计汇总相关内容、关键词推荐和辅助采编当某一热点或负面舆情监测系统达到预先设定的報警阈值后,舆情监测系统报告模块可使用邮件、短信等方式通知检测人员

基于大数据的舆情监测系统分析系统使用1台交换机和6台普通PC機来搭建Hadoop集群,分别在6台PC机上安装Ubuntu 16.04系统并设置1台Maste服务器和5台Slave服务器。

为了验证本文提出的基于大数据技术的文本预处理效率使用一份160 MB嘚预料文档在不同规模的集群中运行预处理程序,得到如表1所示的实验结果

从表1可以看出,增加节点的数目可以加快预处理的速度表奣节点数越多,任务分块数越多具有更高的并发运行程度。同时加速比并不与节点数成正比,这是因为节点数增加节点间的通信所消费的时间也在增加,从而影响了系统并行运行的效率

如图5所示为文本预处理、特征提取和向量化三步骤的加速比对比。从图5可以看出文本向量化的加速比较小,原因是在计算词频时启动各子任务需要占用一定的系统开销而特征选择将计算分配在Mapper中并行执行,故具有較大的加速比

综上所述,基于大数据的舆情监测系统分析系统使用分布式并行化处理技术能大幅提高舆情监测系统分析的速度和数据處理能力。

互联网数据快速增长和舆情监测系统信息飞速传播给舆情监测系统分析带来了较大的挑战本文使用分布式并行化处理技术,提出一种基于大数据的网络舆情监测系统分析系统该系统实现了舆情监测系统信息的全网自动搜索和采集,大规模舆情监测系统数据的格式化存储以及舆情监测系统信息的分析、统计汇总等功能仿真结果表明,该系统有助于及时、准确地分析网络舆情监测系统能较好哋满足网络舆情监测系统分析的需求。

[1] 周红福贾璐,张婷婷等.微博舆情监测系统分析中信息转发路径提取方法研究[J].信息网络安全,2016(4):61?68.

[2] 张昕孙江辉.舆情监测系统监测系统设计[J].现代电子技术,201538(11):98?102.

[3] 马梅,刘东苏李慧.基于大数据的网络舆情监测系统分析系统模型研究[J].情报科学,201636(3):25?28.

[4] 孙彬,王东.微信息舆情监测系统的主动介入导引模式[J].沈阳工业大学学报2016,38(5):584?589.

[5] 宫泽林徐艳红.大数据时代网絡舆情监测系统分析与研究[J].黑龙江科技信息,2016(17):169?169.

[6] 冯登国张敏,李昊.大数据安全与隐私保护[J].计算机学报2014,37(1):246?258.

[7] 苏毅娟邓振云,程德波等.大数据下的快速KNN分类算法[J].计算机应用研究,201633(4):.

[8] 刘若冰.面向大数据云存储系统的关键技术研究[J].现代电子技术,201639(6):21?24.endprint

我要回帖

更多关于 大数据舆情系统 的文章

 

随机推荐