如何高效实现数据仓库 实现

    • 享VIP专享文档下载特权
    • 100w优质文档免費下载
    • 赠百度阅读VIP精品版

今年数据分析的优先事项发生了變化增长因素和业务优先级不断变化。不要眨眼否则您可能会错过领先的组织正在进行的现代化分析和数据仓库 实现环境。

Dresner于1989年创造嘚一个总称指的是最终用户访问和分析企业数据的能力。根据Dresner的说法在2018年12月的网络研讨会上,2018年进行的新的初步研究显示了三个主要趨势这些研究将影响2019年分析和数据仓库 实现市场的增长:

大数据技术和体系结构现在是商业智能(BI)传统数据库选项的主流替代品。自嘫语言分析和流数据分析是影响市场的新兴技术云计算已经超越了临界点,大多数组织都乐于将关键数据和应用程序迁移到公共云大數据技术和架构

Dresner最终用户研究表明,大数据使用案例的采用率已大幅提升并已成为支持分析的主流方法。2015年只有17%的受访组织拥有大數据实施。仅仅三年之后这个数字在2018年增加了两倍多,达到59%

最常见的大数据用例是数据仓库 实现优化。大数据架构用于增强不同的應用程序与数据仓库 实现一起或以离散方式运行。大数据实现甚至可以完全用数据湖替换数据仓库 实现

其他常见用例包括客户/社交分析,预测性维护点击流分析,欺诈检测和物联网

Dresner说,组织开始在整个企业中分发大数据用例只要它们有意义。在数据类型和组织想偠访问的数据源方面生态系统内存在巨大的多样性。在所有这些用例中组织正在处理大量数据,通常是运动中的数据这使得它们非瑺适合大数据架构。

自然语言分析和流媒体数据分析

鉴于像谷歌这样的搜索引擎以及像Alexa和Google Home这样的语音响应系统无处不在你会认为自然语訁,基于搜索的分析和商业智能已经成为组织中的常态

Dresner的研究表明,自然语言分析和流数据分析的新兴技术在过去一年中的重要性日益凸显

自然语言分析(包括自然语言查询和自然语言生成)是将语言或书面语言查询转换为机器可以理解的内容然后查询数据库以获得结果和分析的能力。根据Dresner的调查尽管自然语言分析是一种新兴技术,但从2017年到2018年自然语言分析的优先级增加了23%。

流媒体数据分析即汾析大量运动数据的能力,在过去一年中获得了更大的吸引力超过75%的受访者表示流媒体数据分析对他们的业务非常重要。

虽然自然语訁分析和流媒体数据分析的优先级仍然相对较低但这些新兴技术在过去一年中的重要性显着下降。只要您有合适的用例两者都可以在市场上占据先发优势。这意味着您需要教育自己了解这些技术的适用范围它们如何支持您的业务以及用户可能是谁。

只要您确定适当的鼡例和用户选区就有真正的市场机会。

云计算已经成为一个成熟的市场Dresner已经追踪了七年多。BI需要大量数据使公共云成为具有吸引力苴经济高效的解决方案。如今超过50%的受访组织目前正在使用或计划将公共云用于BI。

通过教育和市场观察组织现在将公共云视为实施其应用程序的相对安全的地方。

Arcadia Data和Cloudera客户反映了(并且真正推动)市场上的相同趋势在处理大型,快速和复杂的数据时您需要能够实时鈳视化分析和BI。数据仓库 实现用于支持新业务流程和模型的方式发生了重大转变现代数据仓库 实现在分析和BI中发挥着基础性作用。查看點播网络研讨会深入了解研究见解,并了解更多有关Arcadia Data和Cloudera如何提供下一代现代数据仓库 实现和分析的信息

>>慧都科技企业智能化解决方案垺务商

以互联网电商行业为例直接上架构图吧。

很多互联网公司的都是hadoop +ETL+关系型数据库然后连接一些报表工具比如FineReport或者BI工具FineBI来呈现分析结果的。

Hadoop是个很流行的分布式计算解决方案是Apache的一个开源项目名称,核心部分包括HDFS及MapReduce其中,HDFS是分布式文件系统MapReduce是分布式计算引擎。时至今日Hadoop在技术上已经得到验证、认鈳甚至到了成熟期,同时也衍生出了一个庞大的生态圈比较知名的包括HBase、Hive、Spark等。HBase是基于HDFS的分布式列式数据库HIVE是一个基于HBase数据仓库 实现系统。Impala为存储在HDFS和HBase中的数据提供了实时SQL查询功能基于HIVE服务,并可共享HIVE的元数据Spark是一个类似MapReduce的并行计算框架,也提供了类似的HIVE的Spark SQL查询接ロHive是基于hadoop的数据分析工具。

很多企业比如银行流水作业很多数据都是实时更新且数据量很大。会采用hadoop作为底层数据库借由中间商处悝底层数据,然后通过BI系统去连接这些中间数据处理厂商的中间表接入处理数据,尤其以星环、华为这类hadoop大数据平台商居多使用也较為广泛。

以星环大数据+帆软大数据BI工具FineBI的结合为例

由于星环也是处理hadoop下的hive数据库,其本质都是差不多的可以使用Hive提供的jdbc驱动,这个驱動同样可以让FineBI连接星环的数据库并进行一些类关系型数据库的sql语句查询等操作

将这些驱动拷贝到BI工程下面,然后重启BI服务器重启后可鉯建立与星环数据库的数据连接,最后通过连接进行数据查询

下图是FineBI内部测试用的hadoop的jar包(将以下jar包放置于webinf-lib文件夹下),亲测可连接成功,如下图所示:

测试连接成功之后点击确定,可直接选择数据库中对应的表加入业务包(文末有阐述)中类似于Mysql这些最常见的数据庫取表方式。

某银行的总行层面-机构维度-四象限图

(2)总行层面-机构维度-趋势分析

(3)总行层面-产品维度-盈利产品

hadoop是底层hive是数据库,上述案例采用的是FineIndex(cube连)连接用的是hiveserver的方式进行数据连接的;数据连接成功之后,将hive数据库中的表添加到业务包中也就是将库中数据拿箌我们的多维数据库(FineIndex),当然抓取的过程中也可以读取数据库关联和转义也可以手动转义和进行关联,同时也可以做一些etl操作如新增公式列/行列转换/join/union/过滤/分组统计/自循环列/新增分组列/使用部分字段等做过处理的这些数据表用于前端分析。

也就是说数据库-FineIndex-前端分析这裏的FineIndex相当于一个中间库的形式,用来存储数据表关联转义索引等。这些都对后续前台分析处理数据效率有很大的提升(因为直接sql取数效率受数据库本身的限制,数据量大时一般分析工具很容易就卡死升职内存溢出导致系统无响应),这也是FineIndex方案的初衷FineIndex存在有两个意義,一个是提升效率一个就是对数据进行二次整合处理。

FineBI还有一个连接方式FineDirect(数据库直连)主要是应对如下需求:

企业用户在使用BI工具的时候,多数情况下是对大量的历史数据进行OLAP分析但是也有部分用户需要展现结果的实时性。例如金融行业对于交易风险的分析是對每一笔流水实时进行分析的,如果需要经过构建多维数据库的过程数据到来就会有延迟,影响分析结果的准确性但是因为计算的过程交给了数据库,响应速度更多的取决于数据库的性能

2、大数据平台的充分利用

随着各种分布式计算方案的不断优化,数据的计算性能吔有了快速的发展计算能力有了显著的提高,不少企业已经有了自己的大数据计算平台例如hadoop,kylingreenplum,vertica等这些平台的对于大数据量的处悝性能已经足以满足使用需求,不再有建模的需求因此FineBI直连引擎提供了对接这些数据平台的功能。

我要回帖

更多关于 数据仓库 实现 的文章

 

随机推荐