本发明专利技术公开了一种Hadoop集群文件备份系统及方法,该系统包括:Hadoop集群,遍历集群Hadoop文件系统上需备份的目录,获取相关文件信息并发送到备端主节点,以得到本次需备份的文件列表信息暂存至Hadoop临时文件列表中,逐条处理临时文件列表信息,根据分配到的目标数据节点建立连接,将临时文件列表中各文件的数据发送至分配的备端数据节点;备端主节点,于接收到集群发送的文件信息时,查询本地的文件状态数据库,获得备端文件的信息,并将集群发送来的文件信息与备端文件的信息比对,得到本次需备份的文件列表信息发送至集群;若干备端数据节点,用于接收集群发送的文件数据,与备端主节点之间进行状态的同步。
【技术实现步骤摘要】
一种Hadoop集群文件备份系统及方法
本专利技术涉及计算机数据备份容灾领域,特别是涉及一种Hadoop集群文件备份系统及方法。
技术介绍
随着计算机的普及与信息技术的进步,尤其是计算机网络的快速发展,信息日益成为国家和企业生存与和发展的重要基础,成为个人、企业、社会关注的焦点。如今的信息中心越来越复杂,不仅系统的规模每年翻番,系统的复杂性及面临的风险也在日益增加。但是,作为信息保护的一个重要手段,数据备份的重要性却经常被人们所忽视。实际上,只要发生了数据的传输、数据的存储以及数据的交换,就有可能产生数据的故障,这时如果没有采取适当的数据备份和数据恢复措施,就可能会导致数据的丢失。近几年,大量数据灾难的出现(如911事件、黑客服务器攻击、地震海啸等自然灾害),以及业务部门对业务连续运行的要求不断提高,甚至越来越多的系统要求,零数据丢失,这都使得数据备份问题更加迫切。随着大数据时代的到来,越来越多的大型信息处理系统,采用了分布式文件系统作为数据存储的载体,目前,Hadoop(HadoopDistributedFileSystem,简称HDFS)作为主流的分布式文件系统,已经得到广泛推广和使用。然而,现有的数据备份技术依然普遍依赖于快照进行备份,需要配置的东西比较多,使用比较复杂,没有形成一个简单完善的备份系统,无法适应大数据时代的数据备份需求。因此,如何实现高效的Hadoop文件备份成为了目前亟待解决的问题。
技术实现思路
为克服上述现有技术存在的不足,本专利技术之目的在于提供一种Hadoop集群文件备份系统,以通过对Hadoop集群文件的备份,实现对Hadoop集群数据的保护。为达上述目的,本专利技术提供一种Hadoop集群文件备份系统,包括:Hadoop集群,遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点,以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点;备端主节点,于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得备端文件的信息,并将所述Hadoop集群发送来的文件信息与获得的备端文件的文件信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中;若干备端数据节点,用于接收处理所述Hadoop集群发送的文件数据,并与所述备端主节点之间进行状态的同步。优选地,于所述Hadoop集群,运行mapreduce任务,通过mapper读取所述Hadoop临时文件列表信息,以及通过运行在mapper里的基于行为的NIO框架将所述Hadoop临时文件列表信息中各文件的数据发送到对应的备端数据节点。优选地,所述备端主节点生成需要处理的文件列表发送至所述Hadoop集群的同时,还根据文件目标节点指派算法进行备端数据节点分配,各备端数据节点则根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据。优选地,所述备端数据节点接收所述Hadoop集群发送的文件数据时,根据地址先写入数据到一临时文件中,当监控到文件传输完成时,更名临时文件或者追加内容。优选地,所述备端主节点于接收到本次备份任务结束标识时,发送本次备份任务结束标识至各备端数据节点,接收各备端数据节点上传的状态报告并汇总保存。优选地,当各备端数据节点接收到所述备端主节点发送的本次备份任务标识时,检查所有文件状态,生成状态报告上传所述备端主节点。优选地,所述备端数据节点开启一个或者多个,或者只启动所述备端主节点同时作为备端数据节点。为达到上述目的,本专利技术还提供一种Hadoop集群文件备份方法,包括如下步骤:步骤S1,遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点;步骤S2,所述备端主节点于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得备端文件的信息,并将所述Hadoop集群发送来的文件信息与本地存储的备端文件的信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中;步骤S3,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点;步骤S4,各备端数据节点根据文件目标节点指派算法接收并存储所述Hadoop集群发送的文件数据。优选地,于步骤S4之后,还包括如下步骤:当本次备份任务结束时,所述Hadoop集群发送本次备份任务标识至备端主节点,所述备端主节点于接收到本次备份任务标识时,转寄本次备份任务标识至各备端数据节点,各备端数据节点于接收到本次备份任务标识时,检查所有文件状态,并生成状态报告上传所述备端主节点,由备端主节点汇总状态报告并予以保存。优选地,于步骤S3中,运行mapreduce任务,通过mapper读取所述Hadoop临时文件列表信息,以及通过运行在mapper里的基于行为的NIO框架把所述Hadoop临时文件列表中各文件的数据发送到对应的备端数据节点上。与现有技术相比,本专利技术一种Hadoop集群文件备份系统及方法通过遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点,以得到本次需要备份的文件列表信息暂存至一Hadoop临时文件列表中,然后读取所述Hadoop临时文件列表信息,根据所述Hadoop临时文件列表信息将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点,实现了对Hadoop集群数据的保护。附图说明图1为本专利技术一种Hadoop集群文件备份系统之具体实施例的系统架构图;图2为本专利技术一种Hadoop集群文件备份方法的步骤流程图;图3为本专利技术实施例中Hadoop文件备份的主流程(TaskMain)的流程示意图;图4为本专利技术实施例中主流程(TaskMain)中生成数据状态列表的详细流程。具体实施方式以下通过特定的具体实例并结合附图说明本专利技术的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其它优点与功效。本专利技术亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。图1为本专利技术一种Hadoop集群文件备份系统之具体实施例的系统架构图。如图1所示,本专利技术一种Hadoop集群文件备份系统,包括:Hadoop集群10,遍历Hadoop集群中的Hadoop文件系统上需要备份的目录,获取到相关的文件信息并发送到备端主节点20,以得到本次需要备份的文件列表信息暂存本文档来自技高网...
【技术保护点】
1.一种Hadoop集群文件备份系统,包括:/nHadoop集群,遍历Hadoop集群Hadoop文件系统上需备份的目录,获取相关文件信息并发送到备端主节点比较,以得到本次需备份的文件列表信息暂存至一Hadoop临时文件列表中,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点;/n备端主节点,于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得相应的备端文件的信息,并将所述Hadoop集群发送来的文件信息与获得的备端文件的文件信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中;/n若干备端数据节点,用于接收处理所述Hadoop集群发送的文件数据,并与所述备端主节点之间进行状态的同步。/n
【技术特征摘要】
1.一种Hadoop集群文件备份系统,包括:
Hadoop集群,遍历Hadoop集群Hadoop文件系统上需备份的目录,获取相关文件信息并发送到备端主节点比较,以得到本次需备份的文件列表信息暂存至一Hadoop临时文件列表中,逐条处理所述Hadoop临时文件列表信息,根据分配到的目标数据节点建立相应连接,将所述Hadoop临时文件列表信息中各文件的数据发送至分配到的备端数据节点;
备端主节点,于接收到所述Hadoop集群发送的文件信息时,查询本地存储的文件状态数据库,获得相应的备端文件的信息,并将所述Hadoop集群发送来的文件信息与获得的备端文件的文件信息比对,得到本次需要备份的文件列表信息发送至所述Hadoop集群以暂存至所述Hadoop临时文件列表中;
若干备端数据节点,用于接收处理所述Hadoop集群发送的文件数据,并与所述备端主节点之间进行状态的同步。
2.如权利要求1所述的一种Hadoop集群文件备份系统,其特征在于:于所述Hadoop集群,运行mapreduce任务,通过mapper读取所述Hadoop临时文件列表信息,以及通过运行在mapper里的基于行为的NIO框架将所述Hadoop临时文件列表信息中各文件的数据发送到对应的备端数据节点。
3.如权利要求2所述的一种Hadoop集群文件备份系统,其特征在于:所述备端主节点生成需要处理的文件列表发送至所述Hadoop集群的同时,还根据文件目标节点指派算法进行备端数据节点分配,各备端数据节点则根据文件目标节点指派算法接收所述Hadoop集群发送的文件数据。
4.如权利要求3所述的一种Hadoop集群文件备份系统,其特征在于:所述备端数据节点接收所述Hadoop集群发送的文件数据时,根据地址先写入数据到一临时文件中,当监控到文件传输完成时,更名所述临时文件或者追加内容。
5.如权利要求4所述的一种Hadoop集群文件备份系统,其特征在于:所述备端主节点于接收到本次备份任务结束标识时,发送本次备份任务结束标识至各备端数据节点,接收各备端数据节点上传的状态报告并汇总保存。
【专利技术属性】
技术研发人员:温立涛,杨彬,陈勇铨,周华,
申请(专利权)人:上海英方软件股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。