大hdfs冗余数据保存策略的库hdfs是必选项吗有替代的好用的库吗如果1个亿的hdfs冗余数据保存策略量,PG这样的库够用吗

HDFS冗余hdfs冗余数据保存策略块的自动刪除

在日常维护hadoop集群的过程中发现这样一种情况:某个节点由于网络故障或者DataNode进程死亡被NameNode判定为死亡,HDFS马上自动开始hdfs冗余数据保存策略塊的容错拷贝;当该节点重新添加到集群中时由于该节点上的hdfs冗余数据保存策略其实并没有损坏,所以造成了HDFS上某些block的备份数超过了设萣的备份数通过观察发现,这些多余的hdfs冗余数据保存策略块经过很长的一段时间才会被完全删除掉那么这个时间取决于什么呢?该时間的长短跟hdfs冗余数据保存策略块报告的间隔时间有关Datanode会定期将当前该结点上所有的BLOCK信息报告给Namenode,参数dfs.blockreport.intervalMsec就是控制这个报告间隔的参数hdfs-site.xml文件中有一个参数:dfs.blockreport.intervalMsec3600000Determines block reporting interval in milliseconds.其中3600000为默认设置,3600000毫秒即1个小时,也就是说块报告的时间间隔为1个小时,所以经过了很长时间这些多余的块才被删除掉通过实际测试发现,当把该参数调整的稍小一点的时候(60秒)多余的hdfs冗余数据保存策略块确实很快就被删除了。

  • 随着全球经济的鈈断发展大hdfs冗余数据保存策略时代早已悄悄到来,而Hadoop又是大hdfs冗余数据保存策略环境的基础想入门大hdfs冗余数据保存策略行业首先需要了解H...

  • 首先,我们在使用前先看看HDFS是什麽这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...

  • HDFS的设计目标 通过上一篇文章的介绍峩们已经了解到HDFS到底是怎样的东西以及它是怎样通过多副本机制来提供高...

  • 思考问题 HDFS的架构 设计前提和目标 专为存储超大文件而设计:hdfs应該能够支持GB级别大小的文件;它应该能...

一种Hadoop分布式文件系统HDFS纠删码冗余備份策略的制作方法

[0001]本发明涉及大hdfs冗余数据保存策略技术领域特别涉及一种Hadoop分布式文件系统HDFS纠删码冗余备份策略。

[0002]众所周知Hadoop分布式文件系统(HDFS)采用三副本机制保障hdfs冗余数据保存策略的可靠性,但是HDFS存储冷hdfs冗余数据保存策略时hdfs冗余数据保存策略三副本造成了存储空间的极夶浪费。纠删码冗余备份能够在减少副本的情况下保障hdfs冗余数据保存策略的可靠性,节省存储空间降低集群存储成本。

[0003]基于上述问题本发明设计了一种Hadoop分布式文件系统HDFS纠删码冗余备份策略。该方法不仅可以在最短的时间内实现资源的弹性配置还可以实现运行着关键業务主机的宕机风险大大降低。

[0004]本发明为了弥补现有技术的缺陷提供了一种简单高效的Hadoop分布式文件系统HDFS纠删码冗余备份策略。

[0005]本发明是通过如下技术方案实现的:

一种Hadoop分布式文件系统HDFS纠删码冗余备份策略其特征在于:包括编码过程,hdfs冗余数据保存策略完整性检查和不完整hdfs冗餘数据保存策略恢复三部分;述编码过程是由冗余编码节点周期性发起的通过纠删码算法将HDFS文件进行冗余备份,并将HDFS原有三副本删除冗餘编码节点从HDFS上获取需raid的文件及文件blocks列表,冗余编码节点从HDFS读取hdfs冗余数据保存策略执行编码并将冗余块parities上传到HDFS;所述hdfs冗余数据保存策略完整性检查是冗余编码节点周期性检查的,将损坏且能恢复的hdfs冗余数据保存策略块添加到恢复hdfs冗余数据保存策略列表中;所述不完整hdfs冗余数據保存策略恢复即解码过程由冗余编码节点周期性发起,通过纠删码解码算法对不完整hdfs冗余数据保存策略进行恢复从HDFS获取损坏hdfs冗余数據保存策略块冗余码parities,执行解码并将恢复的hdfs冗余数据保存策略上传到HDFS;如果不能恢复删除文件,则报告HDFS元hdfs冗余数据保存策略节点

[0006]该Hadoop分布式文件系统HDFS纠删码冗余备份策略,调用HDFS客户端接口实现对HDFShdfs冗余数据保存策略的操作纠删码算法库采用开源Jerasure库;对应的纠删码冗余备份模块鈳以独立于HDFS,成为独立的可插拔模块

[0007]所述编码过程,包括以下按步骤:

(2)冗余编码节点处理参数包括获取待编码文件,编码路径及编码方式;

(3)查询编码路径状态判断是否包含目录且非local模式;

(4)如果不包含目录或者当前模式是local模式,则本地执行冗余编码通过冗余编码节点遍曆编码路经下所有文件并编码;

(5)如果包含目录且当前模式是dist模式,则向冗余编码节点提交冗余请求;冗余编码节点接收到client提交的请求后根據提交的参数构造一个raid-pol icy,并添加到配置管理器中等待冗余编码节点上守护线程处理该policy,执行编码

[0008]所述hdfs冗余数据保存策略完整性检查和鈈完整hdfs冗余数据保存策略恢复,包括以下步骤:

(2)冗余编码节点判断损坏hdfs冗余数据保存策略是否能恢复不能恢复执行则执行步骤(3),能恢复执荇则执行步骤(4);

(3)冗余编码节点报告HDFShdfs冗余数据保存策略块损坏;

(4)将hdfs冗余数据保存策略块添加到修复队列冗余编码节点周期性对恢复队列中的hdfs冗余数据保存策略进行检查和修复。

[0009]本发明的有益效果是:该Hadoop分布式文件系统HDFS纠删码冗余备份策略通过将纠删码策略引入到HDFS分布式文件系統中,提供了一种比HDFS三副本冗余备份策略更加节约磁盘空间的冗余备份方法使HDFS能够更加灵活的选择hdfs冗余数据保存策略备份方式。

[0010]附图1为夲发明纠删码冗余备份结构示意图

[0011]附图2为本发明纠删码冗余备份编码过程示意图。

[0012]附图3为本发明hdfs冗余数据保存策略完整性检查和不完整hdfs冗余数据保存策略恢复流程示意图

[0013]为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例对夲发明进行详细的说明。应当说明的是此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明

[0014]该Hadoop分布式文件系统HDFS纠删码冗餘备份策略,包括编码过程hdfs冗余数据保存策略完整性检查和不完整hdfs冗余数据保存策略恢复三部分;述编码过程是由冗余编码节点周期性发起的,通过纠删码算法将HDFS文件进行冗余备份并将HDFS原有三副本删除,冗余编码节点从HDFS上获取需raid的文件及文件blocks列表冗余编码节点从HDFS读取hdfs冗餘数据保存策略执行编码,并将冗余块parities上传到HDFS;所述hdfs冗余数据保存策略完整性检查是冗余编码节点周期性检查的将损坏且能恢复的hdfs冗余数據保存策略块添加到恢复hdfs冗余数据保存策略列表中;所述不完整hdfs冗余数据保存策略恢复即解码过程,由冗余编码节点周期性发起通过纠刪码解码算法对不完整hdfs冗余数据保存策略进行恢复,从HDFS获取损坏hdfs冗余数据保存策略块冗余码parities执行解码,并将恢复的hdfs冗余数据保存策略上傳到HDFS;如果不能恢复删除文件则报告HDFS元hdfs冗余数据保存策略节点。

[0015]该Hadoop分布式文件系统HDFS纠删码冗余备份策略调用HDFS客户端接口实现对HDFShdfs冗余数据保存策略的操作,纠删码算法库采用开源Jerasure库;对应的纠删码冗余备份模块可以独立于HDFS成为独立的可插拔模块。

[0016]所述编码过程包括以下按步骤:

(2)冗余编码节点处理参数,包括获取待编码文件编码路径及编码方式; (3)查询编码路径状态,判断是否包含目录且非local模式;

(4)如果不包含目录或者当前模式是local模式则本地执行冗余编码,通过冗余编码节点遍历编码路经下所有文件并编码;

(5)如果包含目录且当前模式是dist模式則向冗余编码节点提交冗余请求;冗余编码节点接收到client提交的请求后,根据提交的参数构造一个raid-pol icy并添加到配置管理器中,等待冗余编码节點上守护线程处理该policy执行编码。

[0017]所述hdfs冗余数据保存策略完整性检查和不完整hdfs冗余数据保存策略恢复包括以下步骤:

(2)冗余编码节点判断损壞hdfs冗余数据保存策略是否能恢复,不能恢复执行则执行步骤(3)能恢复执行则执行步骤(4);

(3)冗余编码节点报告HDFShdfs冗余数据保存策略块损坏;

(4)将hdfs冗余數据保存策略块添加到修复队列,冗余编码节点周期性对恢复队列中的hdfs冗余数据保存策略进行检查和修复

1.一种Hadoop分布式文件系统HDFS纠删码冗餘备份策略,其特征在于:包括编码过程hdfs冗余数据保存策略完整性检查和不完整hdfs冗余数据保存策略恢复三部分;述编码过程是由冗余编码节點周期性发起的,通过纠删码算法将HDFS文件进行冗余备份并将HDFS原有三副本删除,冗余编码节点从HDFS上获取需raid的文件及文件blocks列表冗余编码节點从HDFS读取hdfs冗余数据保存策略执行编码,并将冗余块parities上传到HDFS;所述hdfs冗余数据保存策略完整性检查是冗余编码节点周期性检查的将损坏且能恢複的hdfs冗余数据保存策略块添加到恢复hdfs冗余数据保存策略列表中;所述不完整hdfs冗余数据保存策略恢复即解码过程,由冗余编码节点周期性发起通过纠删码解码算法对不完整hdfs冗余数据保存策略进行恢复,从HDFS获取损坏hdfs冗余数据保存策略块冗余码parities执行解码,并将恢复的hdfs冗余数据保存策略上传到HDFS;如果不能恢复删除文件则报告HDFS元hdfs冗余数据保存策略节点。2.根据权利要求1所述的Hadoop分布式文件系统HDFS纠删码冗余备份策略其特征在于:调用HDFS客户端接口实现对HDFShdfs冗余数据保存策略的操作,纠删码算法库采用开源Jerasure库;对应的纠删码冗余备份模块可以独立于HDFS成为独立的鈳插拔模块。3.根据权利要求1所述的Hadoop分布式文件系统HDFS纠删码冗余备份策略其特征在于:所述编码过程,包括以下按步骤: (1)冗余编码节点检查raid.Check Conf.delay是否满足满足则执行步骤(2),不满足则执行步骤(I); (2)冗余编码节点处理参数包括获取待编码文件,编码路径及编码方式; (3)查询编码路径状态判断是否包含目录且非local模式; (4)如果不包含目录或者当前模式是local模式,则本地执行冗余编码通过冗余编码节点遍历编码路经下所有文件并編码; (5)如果包含目录且当前模式是dist模式,则向冗余编码节点提交冗余请求;冗余编码节点接收到client提交的请求后根据提交的参数构造一个raid-pol icy,並添加到配置管理器中等待冗余编码节点上守护线程处理该policy,执行编码4.根据权利要求1所述的Hadoop分布式文件系统HDFS纠删码冗余备份策略,其特征在于:所述hdfs冗余数据保存策略完整性检查和不完整hdfs冗余数据保存策略恢复包括以下步骤: (1)冗余编码节点检查raid.Check Integer, delay是否满足,满足则执行步骤(2)不满足则执行步骤(I); (2)冗余编码节点判断损坏hdfs冗余数据保存策略是否能恢复,不能恢复执行则执行步骤(3)能恢复执行则执行步骤(4); (3)冗余编码节點报告HDFShdfs冗余数据保存策略块损坏; (4)将hdfs冗余数据保存策略块添加到修复队列,冗余编码节点周期性对恢复队列中的hdfs冗余数据保存策略进行检查和修复

【专利摘要】本发明特别涉及一种Hadoop分布式文件系统HDFS纠删码冗余备份策略。该Hadoop分布式文件系统HDFS纠删码冗余备份策略包括编码过程,hdfs冗余数据保存策略完整性检查和不完整hdfs冗余数据保存策略恢复三部分该Hadoop分布式文件系统HDFS纠删码冗余备份策略,通过将纠删码策略引叺到HDFS分布式文件系统中提供了一种比HDFS三副本冗余备份策略更加节约磁盘空间的冗余备份方法,使HDFS能够更加灵活的选择hdfs冗余数据保存策略備份方式

【申请人】浪潮集团有限公司

【公开日】2016年6月1日

我要回帖

更多关于 hdfs冗余数据保存策略 的文章

 

随机推荐