一种基于独立元数据组织结构的海量数据迁移方法和装置制造方法及图纸

技术编号:15191439 阅读:183 留言:0更新日期:2017-04-20 09:08
本发明专利技术公开了一种基于独立元数据组织结构的海量数据迁移方法和装置,方法包括如下步骤:(1)根据索引文件的元数据统计索引文件的迁移属性;(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。装置包括统计模块、迁移模块和管控模块;统计模块用于根据索引文件的元数据统计索引文件的迁移属性,迁移模块用于根据索引文件的迁移属性将索引文件迁移到最优服务器,管控模块用于根据索引文件的迁移结果更新元数据服务器。本发明专利技术的有益效果为:根据独立元数据统计索引文件的迁移属性,实现海量数据在不同服务器之间的迁移,提高了服务器的空间利用率,同时对用户透明,保证分布式文件系统的读写性能不受影响。

【技术实现步骤摘要】

本专利技术涉及海量数据迁移
,尤其是一种基于独立元数据组织结构的海量数据迁移方法和装置
技术介绍
分布式文件系统通过将索引文件分布保存在多个服务器上来实现数据的海量存储和快速检索。基于写性能的考虑,分布式文件系统被部署在高性能的X86服务器上。随着数据量的飞速扩充,X86服务器远不能满足低成本、高容量的需求。为此,分布式文件系统被混合部署在X86和ARM两种类型的服务器上,X86服务器作为可写数据服务器提供数据读写服务,ARM服务器作为只读数据服务器提供数据读服务。如何高效正确实现数据从可写数据服务器到只读数据服务器的迁移是保证分布式文件系统读写性能的关键技术。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种基于独立元数据组织结构的海量数据迁移方法和装置,可实现文件在可写数据服务器到只读数据服务器之间的迁移,提高服务器的空间利用率和吞吐量,提高分布式文件系统的读写性能。为解决上述技术问题,本专利技术提供一种基于独立元数据组织结构的海量数据迁移方法,包括如下步骤:(1)根据索引文件的元数据统计索引文件的迁移属性;(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。优选的,步骤(1)的具体过程为:索引文件的元数据描述索引文件的唯一文件标识、物理存储位置、分区、文件大小以及状态,主控服务器通过元数据信息统一调度多个服务器上的索引文件及其副本;具备不可写属性的索引文件被迁移到只读数据服务器,同时迁移其副本。优选的,统计索引文件的迁移属性方法有两种:(a)当正在写入的索引文件大小超过最大值,该文件将不再允许被写入;(b)当天切换,分区非当天的索引文件将不会再被写入数据;以上两种情况下,索引文件的可写属性被更新为不可写,同时将该文件及其副本标识为待迁移。有限的,步骤(2)的具体过程为:选择当前空间剩余率最大的只读数据服务器作为目的服务器,选择目的服务器上当前磁盘空间剩余率最大的磁盘作为目的路径,将所有待迁移索引文件迁移到目的路径,并将相应的副本迁移到次优服务器做备份,选择待迁移索引文件和目的路径,流控实现海量索引文件的迁移。相应的,一种基于独立元数据组织结构的海量数据迁移装置,包括统计模块、迁移模块和管控模块;统计模块用于根据索引文件的元数据统计索引文件的迁移属性,迁移模块用于根据索引文件的迁移属性将索引文件迁移到最优服务器,管控模块用于根据索引文件的迁移结果更新元数据服务器。优选的,统计模块位于主控服务器,从元数据服务器中获取并保存所有位于可写和只读数据服务器上索引文件的元数据,通过检测元数据信息更新统计待迁移索引文件;当可写数据服务器上索引文件被写满后,上报主控服务器,主控服务器更新元数据信息,统计模块检测到索引文件被变更为不可写属性,将其及其副本迁入待迁移队列;索引文件带有分区属性,数据写入当天的索引文件中,统计模块检测到当天切换,统计元数据中分区属性非当天的索引文件,将其及其副本迁入待迁移队列。优选的,迁移模块用于决策出最佳路径,将待迁移队列中的索引文件拷贝到目的路径,数据服务器定时上报磁盘空间利用率,主控服务器实时更新服务器的元数据信息,包括各个磁盘的空间占用量,迁移模块统计出所有只读数据服务器的总空间剩余率以及各个磁盘的空间剩余率,比较得出总空间剩余率最大的只读数据服务器作为目的服务器,目的服务器上磁盘空间剩余率最大的磁盘作为目的路径,迁移模块采用流控方式触发拷贝,通知源可写数据服务器将索引文件拷贝到目的只读数据服务器;迁移模块校验索引文件在拷贝前后的数据一致性,迁移模块收到源可写数据服务器的拷贝响应,通知目的只读数据服务器CRC校验索引文件,校验成功,迁移模块通知管控模块索引文件迁移成功,反之,拷贝或校验失败,通知管控模块迁移失败。优选的,管控模块用于根据迁移模块的迁移结果,更新元数据服务器,包括索引文件的存储路径、文件状态;管控模块根据迁移模块的迁移结果,处理迁移过程中产生的垃圾文件,迁移模块通知迁移成功,源可写数据服务器上索引文件被废弃被垃圾文件,管控模块将其移入垃圾回收站,超过回收期彻底删除,反之,目的只读数据服务器上残留迁移过程中的垃圾文件,管控模块将其直接删除。本专利技术的有益效果为:根据独立元数据统计索引文件的迁移属性,实现所述文件在不同服务器之间的迁移,提高了服务器的空间利用率,同时对用户透明,分布式文件系统的读写性能不受影响。附图说明图1是本专利技术的海量数据迁移方法的流程示意图。图2是本专利技术的海量数据迁移装置的结构示意图。具体实施方式如图1所示,一种基于独立元数据组织结构的海量数据迁移方法,包括如下步骤:(1)根据索引文件的元数据统计索引文件的迁移属性;索引文件的元数据描述索引文件的唯一文件标识、物理存储位置、分区、文件大小以及状态,主控服务器通过元数据信息统一管理调度多个数据服务器上的索引文件及其副本,具备不可写属性的索引文件被迁移到只读数据服务器,同时迁移其副本。(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。选择当前空间剩余率最大的只读数据服务器作为目的服务器,选择目的服务器上当前磁盘空间剩余率最大的磁盘作为目的路径,将所有待迁移索引文件迁移到目的路径,并将相应的副本迁移到次优服务器做备份,迁移到只读数据服务器的索引文件通过CRC校验保持数据一致性。如图2所示,一种基于独立元数据组织结构的海量数据迁移装置,包括统计模块、迁移模块和管控模块;统计模块用于根据索引文件的元数据统计索引文件的迁移属性,迁移模块用于根据索引文件的迁移属性将索引文件迁移到最优服务器,管控模块用于根据索引文件的迁移结果更新元数据服务器。统计模块位于主控服务器,从元数据服务器中获取并保存所有存储在可写和只读数据服务器的索引文件的元数据信息,通过检测元数据信息更新统计待迁移索引文件;当可写数据服务器上索引文件被写满后,上报主控服务器,主控服务器更新元数据信息,统计模块检测到索引文件被变更为不可写属性,将其及其副本迁入待迁移队列;索引文件带有分区属性,数据写入当天的索引文件中,统计模块检测到当天切换,统计元数据中分区属性非当天的索引文件,将其及其副本迁入待迁移队列。迁移模块用于决策出最佳路径,将待迁移队列中的索引文件拷贝到目的路径,数据服务器定时上报磁盘空间利用率,主控服务器实时更新服务器的元数据信息,包括各个磁盘的空间占用量,迁移模块统计出所有只读数据服务器的总空间剩余率以及各个磁盘的空间剩余率,比较得出总空间剩余率最大的只读数据服务器作为目的服务器,目的服务器上磁盘空间剩余率最大的磁盘作为目的路径,迁移模块采用流控方式触发拷贝,通知源可写数据服务器将索引文件拷贝到目的只读数据服务器;迁移模块校验索引文件在拷贝前后的数据一致性,迁移模块收到源可写数据服务器的拷贝响应,通知目的只读数据服务器CRC校验索引文件,校验成功,迁移模块通知管控模块索引文件迁移成功,反之,拷贝或校验失败,通知管控模块迁移失败。管控模块用于根据迁移模块的迁移结果,更新元数据服务器,包括索引文件的存储路径、文件状态等;管控模块根据迁移模块的迁移结果,处理迁移过程中产生的垃圾文件,迁移模块通知迁移成功,源可写数据服务器上索引文件被废弃被垃圾文件,管控模块将其移入垃圾回收站,超过回收期彻底删除,反之,目的只读数据服务器上残本文档来自技高网...
一种基于独立元数据组织结构的海量数据迁移方法和装置

【技术保护点】
一种基于独立元数据组织结构的海量数据迁移方法,其特征在于,包括如下步骤:(1)根据索引文件的元数据统计索引文件的迁移属性;(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。

【技术特征摘要】
1.一种基于独立元数据组织结构的海量数据迁移方法,其特征在于,包括如下步骤:(1)根据索引文件的元数据统计索引文件的迁移属性;(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。2.如权利要求1所述的基于独立元数据组织结构的海量数据迁移方法,其特征在于,步骤(1)的具体过程为:索引文件的元数据描述索引文件的唯一文件标识、物理存储位置、分区、文件大小以及状态,主控服务器通过元数据信息统一调度多个服务器上的索引文件及其副本;具备不可写属性的索引文件被迁移到只读数据服务器,同时迁移其副本。3.如权利要求2所述的基于独立元数据组织结构的海量数据迁移方法,其特征在于,统计索引文件的迁移属性方法有两种:(a)当正在写入的索引文件大小超过最大值,该文件将不再允许被写入;(b)当天切换,分区非当天的索引文件将不会再被写入数据;以上两种情况下,索引文件的可写属性被更新为不可写,同时将该文件及其副本标识为待迁移。4.如权利要求1所述的基于独立元数据组织结构的海量数据迁移方法,其特征在于,步骤(2)的具体过程为:选择当前空间剩余率最大的只读数据服务器作为目的服务器,选择目的服务器上当前磁盘空间剩余率最大的磁盘作为目的路径,将所有待迁移索引文件迁移到目的路径,并将相应的副本迁移到次优服务器做备份,选择待迁移索引文件和目的路径,流控实现海量索引文件的迁移。5.一种基于独立元数据组织结构的海量数据迁移装置,其特征在于,包括:统计模块、迁移模块和管控模块;统计模块用于根据索引文件的元数据统计索引文件的迁移属性,迁移模块用于根据索引文件的迁移属性将索引文件迁移到最优服务器,管控模块用于根据索引文件的迁移结果更新元数据服务器。6.如权利要求5所述的基于独立元数据组织结构的海量数据迁移装置,其特征在于,统计模块位于主控服务器,从元数据服...

【专利技术属性】
技术研发人员:曹姣姣宋书磊薛坤
申请(专利权)人:南京中新赛克科技有限责任公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1