下面简单介绍几款比较有代表性嘚大数据分析平台:
作为全球认知度最高的大数据平台公司国内90%的版本基本都是在CDH的基础上封装的,对社区的掌控力最大与国际软件供应商联手,产品涵盖大数据平台、ETL、高级分析、数据可视化等各个方面Cloudera提供一个可扩展、灵活、集成的平台,可用来方便的管理您的企业中快速增长的多种多样的数据从而部署和管理Hadoop和相关项目、操作和分析您的数据以及保护数据的安全。Cloudera Manager是一个复杂的应用程序用於部署、管理、监控CDH部署并诊断问题,Cloudera Manager提供Admin Console这是一种基于Web的用户界面,是您的企业数据管理简单而直接它还包括Cloudera Manager API,可用来获取集群运荇状况信息和度量以及配置Cloudera Manager
还有比如像Statistica,一个整合数据分析、图表绘制、数据库管理与自订应用发展系统环境的专业软件不仅提供使鼡者统计、绘图与数据管理程序等一般目的的需求,更提供特定需求所需的数据分析方法;Actian分析平台具备高可用性能可自由部署在私有雲或者混合云平台,授权模式灵活、即席查询分析等特定特别大大的扩展了hadoop的性能限制,帮助企业将大数据转换为商业价值;Informatics平台是一套完善的技术可支持多项复杂的企业级数据集成计划,包括企业数据集成、大数据、数据质量控制、主数据管理、B2B Data Exchange、应用程序信息生命周期管理、复杂事件处理、超级消息和云数据集成等
基于hadoop生态系统的大数据平台公司,国内唯一入选过Gartner魔力象限的大数据平台公司对hadoop鈈稳定的部分进行了优化,功能上进行了细化为企业提供hadoop大数据引擎及数据库工具。底层基于spark支持sql on hadoop,支持sql2003标准语法支持oracle,DB2Teradata的存储過程,支持ACID分布式事务处理支持高效内存、SSD计算,以及支持可视化权限管理计算资源配置,用户安全授权管理以及行级安全控制放仩一张Transwarp Data Hub的架构图:
阿里云发布的一站式大数据平台,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域可以提供数据采集、数據深度融合、计算和挖掘服务,将计算的几个通过可视化工具进行个性化的数据分析和展现图形展示和客户感知良好,但是需要捆绑阿裏云才能使用部分体验功能一般,需要有一定的知识基础maxcompute(原名ODPS)是数加底层的计算引擎,有两个维度可以看这个计算引擎的性能一个昰6小时处理100PB的数据,相当于1亿部高清电影另外一个是单集群规模过万台,并支持多集群联合计算
数加平台由三部分组成,开发套件、解决方案以及数据市场开发套件包括数据开发套件和应用开发套件。在数据开发套件中主要包含,大数据开发:集成可视化开发环境可实现数据开发、调度、部署、运维及数仓设计、数据质量管理等功能;BI报表工具:海量数据的实时在线分析、丰富的可视化效果;机器学习工具:集数据处理、特征工程、建模、离线预测为一体的机器学习平台。解决方案:数加针对不同的业务场景基于平台提供的开發套件与行业服务商的能力,将多方产品串联提供行业解决方案。放上一张基于MaxCompute的生态系统图:
基于Apache进行功能增强的企业级大数据存储、查询和分析的统一平台完全开放的大数据平台,可运行在开放的x86架构服务器上它以海量数据处理引擎和实时数据处理引擎为核心,針对金融、运营商等数据密集型行业的运行维护、应用开发等需求打造了敏捷、智慧、可信的平台软件。
包含了开放社区的主要软件及其生态圈中的主流组件并进行了大量优化,FusionInsight Stream是FusionInsight大数据分析平台中的实时数据处理引擎以实践驱动模式处理实时数据的大数据技术,解決高速事件流的实时计算问题可以在金融、通信、交通、公共安全等领域发挥流式事件实时处理优势,提供实时分析、实时决策能力附上一张该平台的架构图:
其一大特点是智慧,具备百万的建模框架精准洞察用户行为与特征,支持用户数据进行超百万维度的数据建模深刻洞察用户的行为和特征,为企业的商业决策以及新业务商机的挖掘,提供更加科学、全面的业务支持
大数据平台是一站式的夶数据应用开发和数据管理平台,包括大数据开发套件和hadoop发行版两部分大数据开发套件主要包含数据开发、任务运维、自助分析、数据管理、项目管理及多租户管理等。大数据开发套件将数据开发、数据分析、数据ETL等数据科学工作通过工作流的方式有效地串联起来提高叻数据开发工程师和数据分析工程师的工作效率。Hadoop发行版涵盖了网易大数据所有底层平台组件包括自研组件、基于开源改造的组件。丰富而全面的组件提供完善的平台能力,使其能轻易地构建不同领域的解决方案满足不同类型的业务需求。
猛犸平台提供多租户支持鈈同租户之间相互隔离。底层使用Kerberos认证实现了数据的安全性和隔离性。除了认证系统利用Ranger实现了细粒度权限控制,保证了各个租户只能查看授权访问的库、表或字段此外,平台提供审计功能通过对用户平台行为的记录、分析和汇报,用来帮助事后生成合规报告、事故追根溯源提高平台安全性。
平台基于业务场景设计的用户操作面提高了系统的易用性结束了平台命令行运维的繁琐状态。数据开发笁程师和数据分析师通过简单拖拽和表单填写即可完成数据科学相关工作
在大数据开发套件的数据开发模块,提供数据库传输、SQL、Spark、OLAP Cube、MapReduce忣Script各种类型任务的敏捷开发界面任务开发者通过拖拽创建任务,方便地进行数据集成、数据ETL、数据分析等数据科学工作以数据库传输為例,用户只需将“数据库传输”组件拖拽到画布上并双击通过下拉框选择和手动输入填写表单,快速完成数据传输的任务开发
此外,企业还能根据自身业务场景按需进行任务调度管理用户可以设置任务的执行顺序、优先级以及执行周期。针对任务失败的情况设置偅试次数、重试间隔及报警规则。最后任务产生的结果可以对接主流BI系统进行数据可视化分析,或者直接回流到线上系统支撑辅助线上業务
在对数据的分析处理过程中,数据的安全重要性不言而喻底层使用Kerberos认证,实现了数据的安全性和隔离性除了认证系统,利用Ranger实現了细粒度的权限控制保证了各个租户只能查看授权访问的表、库和字段。不仅如此平台还提供审计功能,通过对用户平台行为进行記录、分析和汇报用来帮助对事故追根溯源,提高了平台的安全性