一种数据迁移的异常检测方法、装置、系统和存储介质制造方法及图纸

技术编号:37422024 阅读:10 留言:0更新日期:2023-04-30 09:44
本申请实施例提出了一种数据迁移的检测方法、装置、系统和存储介质,所述方法包括:分别获取源文件和目标文件的下一层子文件的信息摘要;所述源文件表示被迁移数据的文件包;所述目标文件表示对所述源文件进行迁移后得到的文件包;所述子文件的信息摘要包括所述子文件的大小、所述子文件的存储位置和所述子文件的下一层文件的数量;基于所述源文件的下一层子文件的信息摘要生成所述源文件的信息摘要;基于所述目标文件的下一层子文件的信息摘要生成所述目标文件的信息摘要;根据所述源文件的信息摘要和所述目标文件的信息摘要确定数据迁移的检测结果。数据迁移的检测结果。数据迁移的检测结果。

【技术实现步骤摘要】
一种数据迁移的异常检测方法、装置、系统和存储介质


[0001]本申请涉及数据迁移技术,尤其涉及一种数据迁移的异常检测方法、装置、系统和存储介质。

技术介绍

[0002]相关技术中,将文件迁移的异常检测应用到大数据平台的过程中,由于所涉及到的数据量级可能达到太字节(Terabyte,TB)、拍字节(Petabyte,PB)等,在通过数据内容计算这些数据的信息摘要的情况下,往往需要消耗较多的计算资源,导致难以进行大批量检测。

技术实现思路

[0003]本申请实施例期望提供一种数据迁移的异常检测方法、装置、系统和存储介质。
[0004]第一方面,本申请实施例提供了一种数据迁移的检测方法,包括:
[0005]分别获取源文件和目标文件的下一层子文件的信息摘要;所述源文件表示被迁移数据的文件包;所述目标文件表示对所述源文件进行迁移后得到的文件包;所述子文件的信息摘要包括所述子文件的大小、所述子文件的存储位置和所述子文件的下一层文件的数量;
[0006]基于所述源文件的下一层子文件的信息摘要生成所述源文件的信息摘要;
[0007]基于所述目标文件的下一层子文件的信息摘要生成所述目标文件的信息摘要;
[0008]根据所述源文件的信息摘要和所述目标文件的信息摘要确定数据迁移的检测结果。
[0009]第二方面,本申请实施例提供了一种数据迁移的检测装置,包括:
[0010]获取模块,用于分别获取源文件和目标文件的下一层子文件的信息摘要;所述源文件表示被迁移数据的文件包;所述目标文件表示对所述源文件进行迁移后得到的文件包;所述子文件的信息摘要包括所述子文件的大小、所述子文件的存储位置和所述子文件的下一层文件的数量;
[0011]第一生成模块,用于基于所述源文件的下一层子文件的信息摘要生成所述源文件的信息摘要;
[0012]第二生成模块,用于基于所述目标文件的下一层子文件的信息摘要生成所述目标文件的信息摘要;
[0013]第一确定模块,用于根据所述源文件的信息摘要和所述目标文件的信息摘要确定数据迁移的检测结果。
[0014]第三方面,本申请公开实施例还提供了一种数据迁移的检测系统,包括:存储器和处理器;
[0015]所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求上述任一项所述数据迁移的检测方法中的步骤。
[0016]第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现上述任一项所述数据迁移的检测方法中的步骤。
[0017]在本申请实施例中,通过获取源文件和目标文件的下一层子文件的信息摘要,并分别根据源文件的下一层子文件的信息摘要生成所述源文件的信息摘要,根据目标文件的下一层子文件的信息摘要生成所述目标文件的信息摘要,最后,根据所述源文件的信息摘要和所述目标文件的信息摘要确定数据迁移的检测结果。由于源文件和目标文件的信息摘要是根据下一层子文件的信息摘要生成的,并不是基于源文件和目标文件的全部文件内容生成的,因此,可以有效解决信息摘要的计算资源消耗的问题,适用于大批量数据检测。
[0018]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
[0020]图1为本申请实施例提供的一种数据迁移的检测方法的实现流程示意图;
[0021]图2为本申请实施例提供的大数据平台迁移文件异常的批量检测方法的实现流程示意图;
[0022]图3为本申请实施例提供的深维下钻的过程示意图;
[0023]图4为本申请实施例提供的任务开始时摘要生成指令的传递流程示意图;
[0024]图5为本申请实施例提供的检测到异常时摘要生成指令传递流程示意图;
[0025]图6为本申请实施例提供的信息传递模块传递摘要生成模块、异常检测模块和深维下钻模块之间的信息的流程示意图;
[0026]图7为本申请实施例提供的异常检测模块判断源文件信息摘要I(X
i
)和目的文件信息摘要I(Y
i
)是否一致的实现流程示意图;
[0027]图8为本申请实施例提供的深维下钻模块与其它模块交互实现的算法流程示意图;
[0028]图9为本申请实施例提供的结果输出算法的实现流程示意图;
[0029]图10为本申请实施例提供的一种数据迁移的检测装置的组成结构示意图;
[0030]图11为本申请实施例提供的一种数据迁移的检测系统的结构示意图。
具体实施方式
[0031]以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本申请,并不用于限定本申请。另外,以下所提供的实施例是用于实施本申请的部分实施例,而非提供实施本申请的全部实施例,在不冲突的情况下,本申请实施例记载的技术方案可以任意组合的方式实施。
[0032]需要说明的是,在本申请实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要
素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。
[0033]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,U和/或W,可以表示:单独存在U,同时存在U和W,单独存在W这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括U、W、V中的至少一种,可以表示包括从U、W和V构成的集合中选择的任意一个或多个元素。
[0034]在开展大数据平台迁移工作过程中,两个资源池的数据文件经常会由于网络连接异常、任务处理线程异常、访问超时、集群资源紧张等原因,导致传输异常。全面检测数据文件异常的必要性主要体现在以下几个方面:
[0035]①
件数量繁多:每日迁移的文件个数高达百万级;
[0036]②
数据体量庞大:单日迁移数据体量高达百亿字节(Trillionbyte,TB)级,甚至拍字节PB级;
[0037]③
问题出现频繁:尤其是在迁移业务上线初期,网络和集群不稳定的概率更大;
[0038]④
异常类型复杂:存在数据文件或校验文件丢失、目标文件和源文件大小不一致、迁移工具重命名失败、重复推送文件等问题。
[0039]相关数据迁移技术中,存在以下缺点:
[0040]1、将键相同的数据进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据迁移的检测方法,其特征在于,包括:分别获取源文件和目标文件的下一层子文件的信息摘要;所述源文件表示被迁移数据的文件包;所述目标文件表示对所述源文件进行迁移后得到的文件包;所述子文件的信息摘要包括所述子文件的大小、所述子文件的存储位置和所述子文件的下一层文件的数量;基于所述源文件的下一层子文件的信息摘要生成所述源文件的信息摘要;基于所述目标文件的下一层子文件的信息摘要生成所述目标文件的信息摘要;根据所述源文件的信息摘要和所述目标文件的信息摘要确定数据迁移的检测结果。2.根据权利要求1所示的方法,其特征在于,所述根据所述源文件的信息摘要和所述目标文件的信息摘要确定数据迁移的检测结果,包括:从所述源文件的信息摘要中确定待检测的异常类型对应的源文件信息和从所述目标文件的信息摘要中确定所述待检测的异常类型对应的目标文件信息;在所述源文件信息和所述目标文件信息一致的情况下,确定所述数据迁移中所述待检测的异常类型的检测结果为检测正常;在所述源文件信息和所述目标文件信息不一致的情况下,确定所述数据迁移中所述待检测的异常类型的检测结果为检测异常。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述源文件信息和所述目标文件信息不一致的情况下,将所述源文件和所述目标文件均确定为数据立方体模型中的顶点文件包;对每一所述顶点文件包进行至少一次下钻分析,得到目标下钻分析结果;基于所述目标下钻分析结果,确定所述待检测的异常类型的异常子文件。4.根据权利要求1所述的方法,其特征在于,所述分别获取源文件和目标文件的下一层子文件的信息摘要,包括:基于所述源文件的下一层子文件的各磁盘扇区目录项的inode和所述目录项对应的区块信息,确定所述源文件的下一层子文件的文件属性对应的文件属性值为所述源文件的下一层子文件的信息摘要;基于所述目标文件的下一层子文件对应的各磁盘扇区目录项的inode和目录项对应的区块信息,确定所述目标文件的下一层子文件的文件属性对应的文件属性值为所述目标文件的下一层子文件的信息摘要。5.根据权利要求4所述的方法,其特征在于,所述源文件的下一层子文件的文件属性包括孙子文件的数量;则,所述基于所述源文件的下一层子文件的各磁盘扇区目录项的inode和目录项对应的区块信息,确定所述源文件的下一层子文件的文件属性对应的文件属性值为所述源文件的下一层子文件的信息摘要,包括:获取所述源文件的下一层子文件的文件目录;根据所述源文件的下一层子文件的文件目录从所述各磁盘扇区目录项的inode中,确定出所述源文件的下一层子文件的文件目录对应的区块信息;从所述源文件的下一层子文件的文件目录对应的区块信息中确定所述源文件的下一层子文件的孙子文件所包括的孙子文件名和每一所述孙子文件名对应的inode;根据每一所述孙子文件名对应的inode,确定所述孙子文件的数量为所述源文件的下一层子文件的信息摘要。
6.根据权利要求5所述的方法,其特征在于,所述源文件的下一层子文件的文件属性还包括子文件大小,所述基于...

【专利技术属性】
技术研发人员:李晶晶李运田史可庆
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1