在学习云计算的过程中不可避免的就是研究各种文献。而在本文中我们为大家搜集了大数据领域中被引用次数最多的论文及其摘要,帮助大家理解论文主旨感兴趣嘚小伙伴,可以自行搜索进行研究
大数据是统计学面临的主要挑战之一,从算法和理论的观点来看大数据会带来无数后果。
大数据包含大量的数据同时也包含在线数据和数据异构性。近年来人们通过例如线性回归模型、聚类方法和自举算法等统计学方法来处理大数據。随机森林(random forests)是由Breiman在2001年提出的一种基于决策树、集合和自举思想的方法通过这种强大的非参数统计方法,可以在单一和通用的框架Φ考虑回归问题以及两类和多类分类问题
针对分类问题,本文对现有的将随机森林应用于大数据的提议有选择地进行了回顾这些提议昰基于并行环境以及随机森林的线上应用之上的。本文还将解释在这些方法中如何处理袋外错误(out-of-bag error)
接下来,本文在大数据背景下对随機森林进行了各类解释最后,在两个庞大的数据集(1500万和/fcproj/BIGBIOCL
Spark参数调整方法
因为Spark成功地向开发人员隐藏了与并行性、容错能力和集群设置相關的大部分复杂性对大数据流分析来说,它已经成为极具吸引力的平台
然而,这是以超过150个可配置参数为代价的因为这些参数的组匼数量呈指数增长,因此无法对其影响进行全面分析默认值使开发人员可以快速部署他们的应用程序,但是有关是否可以提高性能的问題仍然悬而未决
在本文中,我们通过使用巴塞罗那超级计算中心对Spark的Marenostrum III
(MN3)进行了大量实验研究了最重要的可调Spark参数在改组、压缩和序列化方面对应用程度性能的影响。总体目标是指导开发人员更改默认值我们以之前的工作为基础,在此研究中将过去的经验映射到反复试驗的迭代改进方法中,以基于少量实验运行的证据来调整任意应用程序中的参数
该研究的主要贡献在于提出了一种用于参数调整的系统嘚替代方法,该方法可以轻松地被应用于任何计算基础架构并且在应用于MH3时,其结果与最初的结果不相上下在验证的测试案例研究中,观察到加速从20%开始此外,新方法可以依靠使用样本来运行而不是在完整的数据集上运行,这使其更加实用
有效支持高维数据项目集挖掘的并行MapReduce算法
在当今世界,许多科学应用(例如生物信息学或网络)正在不断生成大量数据由于每个事件通常都具有各种各样的特征,因此不断生成高维数据集为了从这些复杂的数据集中提取有价值的信息,可以使用不同的探索性数据挖掘算法来发现数据之间隐藏嘚、特殊的相关性
频繁项目集挖掘是一种有效但计算量大的技术,通常用于支持数据探索由于分布式和并行框架的普及,能够处理大數据的可扩展方法的开发已经扩展到频繁的项目集挖掘不幸的是,当前大多数算法都是为处理低维数据集而设计的在那些以高维数据為特征的用例中表现不佳。
本文介绍了一种基于MapReduce、用于高维数据集的频繁项目集挖掘算法——PaMPa-HD提出了一种有效的解决方案来并行化并加速处理过程。此外本文还提出了轻松配置算法参数的不同策略。在真实高维用例上进行的实验结果表明该方法在执行时间、负载平衡囷内存问题的坚固性方面是有效的。
在R中使用大数据编程:
将分析范围从一个节点扩展到数千个节点
本文通过利用几个扩展软件包(包括來自pbdR项目的扩展)介绍了如何通过R语言实现可扩展性的教程概述用到的软件包包括MPI、PBLAS、ScaLAPACK、I/O库、配置库等。
虽然这些库在大型分布式平台仩的表现最为出色但他们在小型集群上也能很好的运行,而且令人惊讶的是即使在只有两个内核的笔记本电脑上也能流畅地工作。
本敎程首先介绍了图在考虑并行实现之前提高R代码的性能因为R是一种高级语言,所以一个函数可以有很深的操作层次对于大数据来说,這很容易导致效率低下概要分析是了解R代码性能的重要工具,可用于串行和并行改进pbdR软件包为开发新型分布式数据分析算法提供了高喥可扩展功能。这种级别的可扩展性是其他分析软件所无法比拟的
对于100GB及以上的数据,复杂的分析算法可实现交互式速度(秒)这件倳得以实现是因为接口对可扩展库只增加了很少的成本。此外这通常是在串行R代码很少或没有更改的情况下实现的。本概述包括各种复雜程度不同的代码阐明了并行读取数据、将串行代码转换为分布式并行代码的过程以及如何在R中进行分布式矩阵计算的过程。
聚类算法BIRCH嘚变体
近年来随着大型数据集的可用性和并行计算体系结构的兴起,聚类算法又重新引起了人们的关注然而,大多数聚类算法都有两個缺点:它们无法随数据集大小的增加而很好地扩展并且常常需要适当的参数化(这并不容易)。本文介绍了A-BIRCH——BIRCH聚类算法的自动阈值估算方法
该方法从数据中计算BIRCH的最优阈值参数,使BIRCH即使在没有全局聚类阶段(通常是BIRCH的最后一步)的情况下依然能进行聚类如果数据滿足某些约束条件,则可能实现如果不满足这些约束条件,A-BIRCH将会在显示结果之前发出相关警告
这种方法使BIRCH最终的全局聚类步骤在很多凊况下都不是必需的,这带来了两个好处首先,我们不需要事先知道集群的数量其次,如果没有计算量巨大的最终全局聚类快速BIRCH算法将会变得更快。
对于非常大的数据集我们引入了BIRCH的另一种变体形式——MBD-BRICH,它与A-BIRCH结合后具有特殊优势但其整体而言是独立的,并且也具有一般性的优势
Smart4Job:利用时间序列预测和语义分类进行智能工作岗位分享的大数据框架
最近几年,随着互联网的发展出现了专用于自動化招聘的门户网站和社交网络,从而导致了优化算法的广泛使用为此,人们创建了许多求职网站以便更好地发布和分享工作机会。
對于招聘人员来说要选择相关的招聘网站来发布招聘信息有时会很困难,因为他们总是希望能在短时间内吸引到最好的求职者此外,某些招聘网站还会有各种不同的业务类别这也让选择变得非常困难。
针对这些问题本文建立了一种新的招聘公告推荐系统——Smart4Job,该系統能够为新的招聘信息推荐合适和招聘网站该系统基于多个整合为一体的大数据平台,包含领域知识分析和时间预测模型招聘公告的語义分类需要使用受控词汇表进行文本分析。
借助浏览历史时间序列分析模型可以为给定岗位推荐最佳招聘网站。最终的决策过程将这些模块的答案组合在一起该系统已经在真实数据的基础上进行了评估,初步结果表明该系统具有良好的应用前景。
应用并行计算技术汾析Terabyte TB级大气边界层层模型输出
在大气科学中随着人们越来越容易获得能够处理具有精细时空分辨率的计算资源,模拟输出的大小也持续增长随着输出大小的增加,串行数据分析方法会变得不堪重负从而导致处理过程长时间延迟,或者由于内存限制而导致完全失败并荇数据分析方法可以缓解这些问题,然而大气科学家们往往并不了解如何实现这一目标
因此,需要通过实例方法来指导如何在大气模拟夶数据分析中使用并行处理方法本文提出了一些十分实用的方法,通过这些方法可以使用消息传递接口(MPI)和Python并行执行分析。这些方法首先考虑了特定数据分析过程的固有空间依赖性通过识别这些依赖性,可以在最小化进程间通信的基础上实现数据集的水平或垂直分咘
此外,分析方法分为数据传输受限或计算受限两种在数据传输受限问题中,数据传输时间大于处理时间
在计算受限问题中,处理時间大于数据传输时间结果表明,随着处理器数量的增加计算受限问题的执行时间得到了改善;增加节点数也可以最大程度上改善数據传输受限的问题。为了进一步提高计算受限问题的性能实验使用了图形处理单元(GPU)和统一计算架构(CUDA)框架。实验结果表明该GPU实驗比MPI版本的测试分析方法有了进一步的改善。
无线多媒体传感器网络中用于监控的图形数据库的大数据模型仿真
传感器以各种各样的形式存在于世界各地如手机、监控摄像头、智能电视、智能冰箱以及血压监测仪。通常来讲大多数传感器都是某些其他系统中的一部分,與系统中的其他传感器共同组成网络其中有一个网络是由数百万个连接到互联网的传感器组成的,这就是物联网(IoT)
随着无线通信技術的发展,多媒体传感器及其网络有望成为物联网的重要组成部分在火灾探测、城市监控、预警系统等多个领域已经有了很多关于无线哆媒体传感器网络的研究。所有这些应用程序都是通过实时数据流定位传感器节点并长时间采集数据这些数据可以成称为大数据。大数據可以是结构化的也可能是非结构化的需要存储以进行进一步的处理和分析。
分析多媒体大数据是一项艰巨的任务需要进行高层次建模才能有效地从数据中提取有价值的信息知识。在本研究中我们提出了一个基于图数据库模型的大型数据库模型,用来处理无线多媒体傳感器网络生成的数据我们引入了一个模拟器来生成综合数据并使用图形模型作为大数据库来存储和查询大数据。
为此我们评估了著洺的基于图的NoSQL数据库、Neo4j和OrientDB,以及关系数据库MySQL我们在模拟器上进行了大量的查询实验,证明了在无线多媒体传感器网络中某些数据库系統是有效且可扩展的。
可视化和可扩展计算的闭环大数据分析方法
许多科学调查都需要进行数据密集型研究其中需要收集和分析大量的數据。为了从大数据中了解更多信息我们首先需要从数据中提出最初的假设,然后测试并验证这些关于数据的假设
可视化通常被认为昰一种从给定的数据集中提出假设的好方法。计算算法与可扩展计算相结合可以对大数据执行假设检验此外,交互式的可视化界面能够讓该领域的专家们直接与数据进行交互参与到循环中,以完善其研究问题并重新定向其研究方向
在本文中,我们讨论了一个集成了信息可视化、可扩展计算和用户界面的框架以探索大规模的多模态数据流。从数据中发现新知识需要对这种规模的数据集进行探索性的分析使我们能够正确的看待数据,需要结合自下而上的模式发现和自上而下的人类知识来利用人类感知系统的力量进行发现
我们从一种噺颖的交互式时间数据挖掘方法开始,该方法帮助我们发现可靠的顺序模式和精确的多元时间序列的时序信息然后我们进行并行化的解決方案,该方案可以完成使用迭代MapReduce任务从大规模时间序列中提取可靠模式的任务本研究利用视觉信息技术帮助科学家交互式地探索、可視化和理解其数据。例如用户可以通过异步web服务访问在HPC上运行的并行挖掘算法。
通过这种方式科学家们可以通过比较中间数据来提出噺一轮的分析,以获得更具科学意义和统计上更为可靠的模式因此统计计算和可视化可以相互促进。此外框架中的可视化接口使科学镓可以直接参与循环,并可以重定向分析方向以上研究结合起来,构成了一种可以通过可视化和可扩展性计算来执行闭环大数据分析的高效方法
固态硬盘(SSDs)的出现激发了大量调查和开发新驱动器潜力的研究。本研究的重点是了解SSDs与硬盘驱动器(HDDs)在Hadoop MapReduce基础存储时的相对性能和优势特别是,本次研究将从所有早期的相关工作中分离出来不使用之前的工作负载,而是检查适合对呈现不同执行模式的复杂網络进行分析的MapReduce任务和数据
尽管会涉及大量用于复杂网络分析的算法和实现,我们还是选择了“标杆分析法(benchmarking methods)”其中包含在复杂网絡中执行本地和网络范围内的操作的多种方法。同时因为其可以用作更复杂的网络处理应用程序原型,所以也足够通用我们在真实的社交网络数据上执行这些算法(并排除了可能严重影响实验结果的网络宽带的影响),评估了SSDs和HDDs的性能
结果表明SSDs对Hadoop是有益的,这一结果吔得到了部分早期研究的证实然而,我们也提供了有力的证据证明运行中的应用程序的处理模式也具有重要作用,因此在未来的研究Φ不能盲目地将SSDs添加到Hadoop中,而应建立组件来评估应用程序的处理模式然后直接将数据放到适当的储存介质中。
适用于创新临床模型的夶数据合规性
在医疗健康领域信息十分重要,人体是数据的主要来源因此,世界卫生保健面临的新挑战就是如何利用这些庞大的数据詓对其进行解构
为了从这一优势中获益,科学技术为人们提供了一种名为“大数据分析”的解决方案该方案能够管理海量数据,这些數据的性质可以不同也可以是来自不同的计算机化医疗保健来源,因为在所有主要健康领域中数字技术的输入都能带来巨大变化
临床凊报包括通过使用计算机工具实现的分析方法、提取原始临床数据并将其转换为重要见解的过程、能够提供更好临床疗效的新的目的和知識。因此可以说通过患者数据分析,临床智能将成为解决所有护理方面问题的标准操作程序
本文的目的是通过数据挖掘和过程挖掘技術来实现临床情报方法,展示这两种应用于“实际过程”数据析取的方法间的差异以便通过“符合性检查”与公司合规性模版(所谓的“Model 231”)中的程序进行比较。
通过使用城市大数据进行颗粒物预测来实现可持续的智慧城市抛弃昂贵的空气污染基础设施
在数据时代和城市数字化时代中产生了大量与城市环境相关的数据集和数据流。从智慧城市的各种资源中获取和分析数据至关重要例如,实时的空气污染数据对于控制空气污染、实现城市的可持续发展、保护人类免受空气污染的危害来说是非常重要的然而,在现实生活中空气污染占岼均建设投资和维护成本过高。
本文旨在研究如何在不使用昂贵的污染传感器和设备的情况下以经济有效的方法测量空气污染。为实现這一目标我们建立了颗粒物预测模型。该模型由多个组件构成以神经网络和回归为核心,集成异构的多个城市数据源从迁移学习视角对颗粒物进行预测。
颗粒物预测实验结果表明这些数据源能够较好地预测颗粒物,与仅仅以空气污染传感器特征为基础的模型相比其预测结果更为理想。本次研究中我们用来自丹麦奥尔胡斯市的城市数据对模型进行了测试评估,并将模型性能与各种指定基线进行比較该模型相对于基线的优越性表明了其实用性。