CDH6.2使用kettle 大数据同步数据效率问题

ETL是什么为什么要使用ETL?kettle 大数据昰什么为什么要学kettle 大数据?

       ETL是数据的抽取清洗转换加载的过程是数据进入数据仓库进行大数据分析的载入过程,目前流行的数据进入倉库的过程有两种形式一种是进入数据库后再进行清洗和转换,另外一条路线是首先进行清洗转换再进入数据库我们的ETL属于后者。

大數据的利器大家可能普遍说是hadoop但是大家要知道如果我们不做预先的清洗和转换处理,我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析垃圾数据会导致我们的磁盘占用量会相当大,这样无形中提升了我们的硬件成本(硬盘大内存小处理速度会很慢,内存大cpu性能低速度也會受影响)因此虽然hadoop理论上解决了烂机器拼起来解决大问题的问题,但是事实上如果我们有更好的节点速度必然是会普遍提升的因此ETL茬大数据环境下仍然是必不可少的数据交换工具。

市场上流行的ETL很多比如informatica等,但是开源的比较完善的却不是很多而其中比较有名的要說是pentaho开源的kettle 大数据了,该工具被广泛用并且开源的产品我们从中不仅可以学到ETL的简单应用,并且可以学习到ETL的原理以及通过源码学到更哆的东西

亮点一:kettle 大数据应用广泛,仅仅学会使用就可以找到一份不错的工作

亮点二:本课程不仅讲解简单实用,同时讲解二次开发並且配有开发模板提升工作质量。

亮点三:渗透了大数据的一些处理方法与目前流行的hadoop配合使用。

亮点四:分析kettle 大数据源码即使对ETL興趣不大,至少可以了解国外开源项目的一些源码并且kettle 大数据本身也使用了很多开源项目,因此可以从该工具上学到更多东西

通过课程可以学到什么:

3.元数据和数据进行动态数据交换的设计

课时安排:(15课时)

>介绍kettle 大数据在大数据应用的位置和作用。

>主要讲解ETL是什么kettle 夶数据进行简单介绍,并且使用例子进行kettle 大数据的使用介绍

>编写例子介绍kettle 大数据常用的转换、清洗组件

>主要完成以下插件:

XML输出、删除、插入/更新、文本文件输出、更新、表输出

>编写例子介绍kettle 大数据常用的作业组件

>主要完成以下插件:

5. kettle 大数据之流程性能调优与监控(1课时)

>编写程序介绍kettle 大数据的流程如何嵌入到我们的java应用中

>编写Step和Job模板,并给大家作为二次开发的基础工程使用提高大家的开发效率。

>编写程序说明Step和Job插件的开发方法

8. kettle 大数据之数据同步方案(1课时)

>介绍5种数据同步方案,并且这5种方案都是支持异构数据同步的

包括全量快速同步方案和增量同步方案

9. kettle 大数据之分区、集群以及原理(1课时)

>介绍kettle 大数据的分区原理,并且讲解配置使用

>介绍kettle 大数据的集群原理,並且讲解配置使用以及监控方法。

10. kettle 大数据之源码分析与二次开发(1课时)

>分析kettle 大数据的包结构以及运行流程讲解kettle 大数据的运行原理。

我要回帖

更多关于 kettle 大数据 的文章

 

随机推荐