一种大批量数据自动比对的方法及计算机可读存储介质技术

技术编号:21547775 阅读:54 留言:0更新日期:2019-07-06 21:22
本发明专利技术提供一种大批量数据自动比对的方法及计算机可读存储介质,包括:步骤10、自动获取迁移前的数据库文件及迁移后的数据库文件,并进行分别拆分与导出;步骤20、将拆分导出的迁移前的数据库文件进行预处理,得到基准文件集,将拆分导出的迁移后的数据库文件进行预处理,得到比较文件集;步骤30、扫描所述基准文件集的文件,生成比对文件目录;步骤40、根据所述比对文件目录将所述基准文件集中的需要比对的文件逐一与所述比较文件集中对应的文件进行MD5值比对并得到比对结果。本发明专利技术提供的一种大批量数据自动比对的方法及计算机可读存储介质,通过程序对迁移前后的数据文件进行自动预处理、比对等,减少人工环节的操作,提高数据比对效率。

A Method of Automatic Comparing Mass Data and Computer Readable Storage Media

【技术实现步骤摘要】
一种大批量数据自动比对的方法及计算机可读存储介质
本专利技术涉及数据处理领域,具体涉及一种大批量数据自动比对的方法及计算机可读存储介质。
技术介绍
近些年,信息化竞争加剧,大数据成了企业争夺的战略前沿,随着“智慧经济”的崛起,采集数据、掌握数据、运用数据成了企业的核心竞争力。传统的Oracle数据库已经满足不了大数据并行处理的需求,去Oracle逐渐提上日程。数据迁移作为企业提高数据运用效率的手段,也带来了数据迁移的完整性、准确性如何保障的问题。传统比对迁移前后数据的方法,每张表比对都要通过人工检查、分析,耗时长、人工投入大。随着计算机技术的发展,利用算法技术进行比对的方法也层出不穷,将主备端数据导入内存,并采用各种查找算法进行比对。现有的公开号为CN104239301B,公开日为2018年2月13日的专利技术专利《一种数据比对方法和装置》,该专利技术提出了一种数据比对方法,包括:确定待比对的第一数据集和第二数据集,数据集中的每个比较对象包括一个或多个比较项;确定比较项的类型,所述类型至少包括:第一类比较项和非第一类比较项;对第一数据集中的比较对象和第二数据集中的比较对象进行比对,其中,如果第一数据集中的第一比较对象的第一类比较项和所述第二数据集中的第二比较对象中的对应第一类比较项相同,且第一比较对象的非第一类比较项与第二比较对象的对应非第一类比较项之间的差异满足预设条件,则判断第一比较对象和第二比较对象一致。现有的公开号为CN107679104A,公开日为2018年2月9日的专利技术专利《大表流式并行高速数据比对方法》,该专利技术提出了一种大表流式并行高速数据比对方法,其特征是,包括如下步骤:(1-1)比对应用程序通过数据库链接配置待比对的主数据库表信息和备数据库表的信息,如果主数据库表信息和备数据库表信息结构不一致,返回无法比对;(1-2)比较主数据库表信息和备数据库表的索引字段,获取最小值min和最大值max,用于比对开始与结束标记;并设置并行比对通道数N,N动态生成,用于并行处理;(1-3)将主备数据库表的记录按索引字段递增排序,并将排序结果按并行比对通道数N进行分块,且各个通道分别流式读取数据,存于缓存中;(1-4)在各个通道中并行处理数据比对,记录比对结果。以上专利技术方法至少存在以下问题:1、目前的方法针对的是单个文件数据或小批量数据比对的方法,无法满足大量数据比对的要求;2、目前的方法是基于文件内容的检查,耗时长、效率低,未能有效压缩比对时长;3、对比过程中需接触到实体数据,未考虑数据安全性问题,可能存在数据泄露风险。
技术实现思路
本专利技术要解决的技术问题之一,在于提供一种大批量数据自动比对的方法,通过程序对迁移前后的数据文件进行自动预处理、比对等,减少人工环节的操作,提高数据比对效率。本专利技术实施例要解决的技术问题之一是这样实现的:一种大批量数据自动比对的方法,包括如下步骤:步骤10、对数据库配置项进行设置,自动对迁移前的数据库文件及迁移后的数据库文件分别进行拆分并导出;步骤20、将拆分导出的迁移前的数据库文件进行预处理,得到基准文件集,将拆分导出的迁移后的数据库文件进行预处理,得到比较文件集;步骤30、扫描所述基准文件集的文件,生成比对文件目录;步骤40、根据所述比对文件目录将所述基准文件集中的需要比对的文件逐一与所述比较文件集中对应的文件进行MD5值比对,如MD5值一致则判定已对比通过,如MD5值不一致则生成错误记录,供后续数据分析与追踪。优选的,所述方法进一步包括:对数据库配置项及使用的程序文件设置第一访问权限,对所述基准文件集和比较文件集设置第二访问权限,对所述比对文件目录和错误记录设置第三访问权限。优选的,所述方法进一步包括:步骤50、设置存储空间释放开关,当开关打开时,同时删除基准文件集和比较文件集中已对比通过的文件,当开关关闭时,不进行文件删除。优选的,所述步骤20中预处理具体包括:对文件进行数据标准化处理,包括去除无用字段、消除异构数据库存在的差异,确保两端结构一致;将标准化处理后的数据进行排序,确保两端顺序一致。优选的,所述步骤30具体为:定时扫描所述基准文件集的数据文件,生成比对文件目录,当文件在所述比对文件目录中不存在或已存在于比对文件目录但创建时间晚于目录中记录的创建时间时,判断文件为新文件,并将所述新文件的信息加入比对文件目录,所述比对文件目录信息包括文件路径、文件创建时间、“是否已比对”及“比对情况”。优选的,所述步骤40具体包括:步骤41、将比对文件目录中“是否已比对”状态为“否”的文件作为比对文件任务;步骤42、根据所述比对文件任务将所述基准文件集中的需要比对的文件逐一与所述比较文件集中对应的文件进行比对,如MD5值一致则判定已对比通过,将“是否已比对”标记为“是”、将“比对情况”标记为“MD5一致”;如MD5值不一致则将所述比较文件集中的比对文件与基准文件集中对应的文件进行逐行比对,将“是否已比对”标记为“是”、将“比对情况”标记为“文件比对不一致”,生成错误记录,供后续数据分析与追踪。本专利技术要解决的技术问题之二,在于提供一种计算机可读存储介质,通过程序对迁移前后的数据文件进行自动预处理、比对等,减少人工环节的操作,提高数据比对效率。本专利技术实施例要解决的技术问题之二是这样实现的:一种计算机可读存储介质,其上存储有计算机程序(指令),该程序(指令)被处理器执行时实现以下步骤:步骤10、对数据库配置项进行设置,自动对迁移前的数据库文件及迁移后的数据库文件分别进行拆分并导出;步骤20、将拆分导出的迁移前的数据库文件进行预处理,得到基准文件集,将拆分导出的迁移后的数据库文件进行预处理,得到比较文件集;步骤30、扫描所述基准文件集的文件,生成比对文件目录;步骤40、根据所述比对文件任务将所述比较文件集中的需要比对的文件逐一与所述基准文件集中对应的文件进行MD5值比对,如MD5值一致则判定已对比通过,如MD5值不一致则生成错误记录,供后续数据分析与追踪。优选的,所述程序还执行:对数据库配置项及使用的程序文件设置第一访问权限,对所述基准文件集和比较文件集设置第二访问权限,对所述比对文件目录和错误记录设置第三访问权限。优选的,所述程序还执行:步骤50、设置存储空间释放开关,当开关打开时,同时删除基准文件集和比较文件集中已对比通过的文件,当开关关闭时,不进行文件删除。优选的,所述程序还执行:对文件进行数据标准化处理,包括去除无用字段、消除异构数据库存在的差异,确保两端结构一致;将标准化处理后的数据进行排序,确保两端顺序一致。优选的,所述步骤30具体为:定时扫描所述基准文件集的数据文件,生成比对文件目录,当文件在所述比对文件目录中不存在或已存在于比对文件目录但创建时间晚于目录中记录的创建时间时,判断文件为新文件,并将所述新文件的信息加入比对文件目录,所述比对文件目录信息包括文件路径、文件创建时间、“是否已比对”及“比对情况”。优选的,所述步骤40具体包括:步骤41、将比对文件目录中“是否已比对”状态为“否”的文件作为比对文件任务;步骤42、根据所述比对文件任务将所述比较文件集中的需要比对的文件逐一与所述基准文件集中对应的文件进行MD5值比对,如MD5值一致则判定已对比通过,将“是否已比本文档来自技高网
...

【技术保护点】
1.一种大批量数据自动比对的方法,其特征在于,包括如下步骤:步骤10、对待比对数据库配置项进行设置,根据数据库配置项信息自动获取迁移前的数据库文件及迁移后的数据库文件,并进行分别拆分与导出;步骤20、将拆分导出的迁移前的数据库文件进行预处理,得到基准文件集,将拆分导出的迁移后的数据库文件进行预处理,得到比较文件集;步骤30、扫描所述基准文件集的文件,生成比对文件目录;步骤40、根据所述比对文件目录将所述基准文件集中的需要比对的文件逐一与所述比较文件集中对应的文件进行MD5值比对,如MD5值一致则判定已对比通过,如MD5值不一致则生成错误记录,供后续数据分析与追踪。

【技术特征摘要】
1.一种大批量数据自动比对的方法,其特征在于,包括如下步骤:步骤10、对待比对数据库配置项进行设置,根据数据库配置项信息自动获取迁移前的数据库文件及迁移后的数据库文件,并进行分别拆分与导出;步骤20、将拆分导出的迁移前的数据库文件进行预处理,得到基准文件集,将拆分导出的迁移后的数据库文件进行预处理,得到比较文件集;步骤30、扫描所述基准文件集的文件,生成比对文件目录;步骤40、根据所述比对文件目录将所述基准文件集中的需要比对的文件逐一与所述比较文件集中对应的文件进行MD5值比对,如MD5值一致则判定已对比通过,如MD5值不一致则生成错误记录,供后续数据分析与追踪。2.根据权利要求1所述的一种大批量数据自动比对的方法,其特征在于,所述方法进一步包括:对数据库配置项及使用的程序文件设置第一访问权限,对所述基准文件集和比较文件集设置第二访问权限,对所述比对文件目录和错误记录设置第三访问权限。3.根据权利要求1所述的一种大批量数据自动比对的方法,其特征在于,所述方法进一步包括:步骤50、设置存储空间释放开关,当开关打开时,同时删除基准文件集和比较文件集中已对比通过的文件,当开关关闭时,不进行文件删除。4.根据权利要求1所述的一种大批量数据自动比对的方法,其特征在于,所述步骤20中预处理具体包括:对文件进行数据标准化处理,包括去除无用字段、消除异构数据库存在的差异,确保两端结构一致;将标准化处理后的数据进行排序,确保两端顺序一致。5.根据权利要求1所述的一种大批量数据自动比对的方法,其特征在于,所述步骤30具体为:定时扫描所述基准文件集的数据文件,生成比对文件目录,当文件在所述比对文件目录中不存在或已存在于比对文件目录但创建时间晚于目录中记录的创建时间时,判断文件为新文件,并将所述新文件的信息加入比对文件目录,所述比对文件目录信息包括文件路径、文件创建时间、“是否已比对”及“比对情况”。6.根据权利要求1所述的一种大批量数据自动比对的方法,其特征在于,所述步骤40具体包括:步骤41、将比对文件目录中“是否已比对”状态为“否”的文件作为比对文件任务;步骤42、根据所述比对文件任务将所述基准文件集中的需要比对的文件逐一与所述比较文件集中对应的文件进行比对,如MD5值一致则判定已对比通过,将“是否已比对”标记为“是”、将“比对情况”标记为“MD5一致”;如MD5值不一致则将所述比较文件集中的比对文件与基准文件集中对应的文件进行逐行比对,将“是否已比对”标记为“是”、将“比对情况”标记为“文件比对不一致”,生成错误记录,供后续数据分析与追踪。7...

【专利技术属性】
技术研发人员:蔡卓明蔡伟杰郭超年王桐森陈金德
申请(专利权)人:福建省农村信用社联合社
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1