本发明专利技术设计数据处理的技术领域,尤其涉及一种大数据多表数据联合校验方法、系统、设备及介质,大数据多表数据联合校验方法包括步骤:在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;基于多个所述数据源表中的数据获取第一数据特征信息;基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果;根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。本申请具有高数据验证过程的效率,同时对多个数据源表进行验证的效果。多个数据源表进行验证的效果。多个数据源表进行验证的效果。
【技术实现步骤摘要】
一种大数据多表数据联合校验方法、系统、设备及介质
[0001]本专利技术涉及数据处理的
,尤其是涉及一种大数据多表数据联合校验方法、系统、设备及介质。
技术介绍
[0002]随着时代的发展,互联信息化技术的普及,大数据概念的兴起,越来越多企业注重发展大数据业务。为了保证大数据的准确性,需要对企业的大数据进行测试,目前,对企业的大数据测试方法包括抽样测试,但是抽样测试方法对数据测试的覆盖率小,容易存在大数据漏测试的隐患,但是企业的大数据存在数据量量级大,字段多、内容长、数据表种类多,对大数据的测试验证时间过长,进而导致数据验证效率低,因此,存在一定的改进空间。
技术实现思路
[0003]为了提高数据验证过程的效率,同时对多个数据源表进行验证,本申请提供一种大数据多表数据联合校验方法、系统、设备及介质。
[0004]本申请的上述专利技术目的一是通过以下技术方案得以实现的:一种大数据多表数据联合校验方法,所述大数据多表数据联合校验方法包括步骤:在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;基于多个所述数据源表中的数据获取第一数据特征信息;基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。
[0005]通过采用上述技术方案,在对企业的大数据进行验证测试时,在预构建的数据库内获取多个数据源表,数据源表包括初始数据表、中间数据表和应用数据表,分别对初始数据表、中间数据表和应用数据表进行数据分析,得到第一数据特征信息,利用第一数据特征信息对初始数据表、中间数据表和应用数据表进行联合处理,将多个数据源表内发现重复的数据去除,形成联合数据表,能够避免对重复数据进行重复验证,对联合数据表内的数据进行分析,得到第二数据特征信息,通过对第一数据特征信息和第二数据特征信息进行比对,根据比对结果判断联合数据表的数据内容是否与多个数据源表内的数据内容是否一致,进而完成数据校验过程,采用多个数据源表联合处理后在进行数据校验,降低大数据的数据校验花费时间,提高数据校验效率。
[0006]本申请在一较佳示例中可以进一步配置为:所述在预设的数据库获取多个数据源表各自的数据,具体包括:获取预设的数据库内的初始源数据,将所述初始源数据整理集合,形成初始数据
表;对所述初始源数据进行聚合处理,得到聚合数据,基于所述聚合数据集合形成中间数据表;基于所述聚合数据获取数据类型信息,根据所述数据类型信息进行数据分类,形成应用数据表。
[0007]通过采用上述技术方案,对数据库内的数据进行整理集合,得到初始数据表,对初始数据表内的初始数据进行聚合处理,形成聚合数据,将一些重复数据形成中间数据,能够减少对重复数据进行重复加工的工作,有效提高数据验证的效率,将聚合数据集合形成中间数据表,对中间数据表内的聚合数据进行数据分类,将同类型的聚合数据整理集合形成应用数据表,对数据库内的数据形成初始数据表、中间数据表和应用数据表的数据层结构,便于对数据库内的海量大数据进行存储,进而便于对多个数据源表进行数据验证。
[0008]本申请在一较佳示例中可以进一步配置为:所述基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息,具体包括:根据所述第一数据特征信息获取第一数据内容信息,基于所述第一数据内容信息获取重复数据集合;根据所述重复数据集合获取内容信息重复数据,合并所述内容信息重复数据,将合并内容信息重复数据后的数据以及其他数据形成联合数据,基于所述联合数据集合得到联合数据表;对所述联合数据进行数据特征提取,得到第二数据特征信息。
[0009]通过采用上述技术方案,通过对第一数据特征信息分析,得到多个数据源表的数据内容信息,根据数据内容信息提取出内容信息重复的数据,将内容信息重复的数据合并,只留下一条内容信息重复的数据,将合并后的内容信息重复数据以及其他数据整理集合形成联合数据,以联合数据为基础集合形成联合数据表,实现对多个数据源表联合功能,对联合数据表内的联合数据进行数据分析,提取得到第二数据特征信息,通过利用第二数据特征信息以便于对多个数据源表进行联合数据校验。
[0010]本申请在一较佳示例中可以进一步配置为:所述将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,具体包括:基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量;比较所述第一数据总量与第二数据总量是否相同,根据所述比较结果形成数据对比结果。
[0011]通过采用上述技术方案,通过对第一数据特征信息分析得到多个数据源表中单个数据源表的数据总量,利用第二数据特征信息分析得到数据联合表内数据的数据总量,比较判断多个数据源表联合后形成的联合数据表的数据总量与多个数据源表内的数据的数据总量是否一致,利用数据总量的比较结果,实现对数据校验功能。
[0012]本申请在一较佳示例中可以进一步配置为:所述基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量,具体包括:根据所述第一数据特征信息获取多个第一数据特征段,统计所述第一数据特征段
的数量,基于所述第一数据特征段获取第一数据内容,将所述第一数据内容以及第一数据特征段数量并作为第一数据总量;根据所述第二数据特征信息获取多个第二数据特征段,统计所述第二数据特征段的数量,基于所述第二数据特征段获取第二数据内容,将所述第二数据内容以及第二数据特征段数量并作为第二数据总量。
[0013]通过采用上述技术方案,通过对第一数据特征信息进行分析,得到多个第一数据特征段,统计第一数据特征段的数量,同时通过第一数据特征段识别出第一数据内容,以第一数据特征段数量以及第一数据内容形成第一数据总量,实现对多个数据源表的数据计算统计功能,通过对第二数据特征信息进行分析,得到多个第二数据特征段,统计第二数据特征段的数量,同时通过第二数据特征段识别出第二数据内容,以第二数据特征段数量以及第二数据内容形成第二数据总量,实现对联合数据表的数据计算统计功能。
[0014]本申请在一较佳示例中可以进一步配置为:所述大数据多表数据联合校验方法还包括步骤:获取与多个所述数据源表相同数据源的第二数据源表,基于所述第二数据源表内获取第三数据特征信息;将所述第一数据特征信息与第三数据特征信息进行对比,根据所述对比结果,判断所述第二数据源表的数据与多个数据源表的数据是否一致。
[0015]通过采用上述技术方案,在对大数据进行数据迁移或者转移到第二终端设备过程中,获取与多个数据源表相同数据源的第二数据源表,对第二数据源表内的数据进行整理分析,得到第三数据特征信息,利用第三数据特征信息与第一数据特征信息进行对比,判断第二数据源表的数据与多本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种大数据多表数据联合校验方法,其特征在于,所述大数据多表数据联合校验方法包括步骤:一种大数据多表数据联合校验方法,所述大数据多表数据联合校验方法包括步骤:在预设的数据库获取多个数据源表各自的数据,其中多个所述数据源表包括初始数据表、中间数据表和应用数据表;基于多个所述数据源表中的数据获取第一数据特征信息;基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息;将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,根据所述数据对比结果,判断所述联合数据表的数据与多个数据源表的数据是否一致。2.根据权利要求1所述的一种大数据多表数据联合校验方法,其特征在于,所述在预设的数据库获取多个数据源表各自的数据,具体包括:获取预设的数据库内的初始源数据,将所述初始源数据整理集合,形成初始数据表;对所述初始源数据进行聚合处理,得到聚合数据,基于所述聚合数据集合形成中间数据表;基于所述聚合数据获取数据类型信息,根据所述数据类型信息进行数据分类,形成应用数据表。3.根据权利要求1所述的一种大数据多表数据联合校验方法,其特征在于,所述基于所述第一数据特征信息对多个所述数据源表进行联合处理,得到联合数据表,根据所述联合数据表内的数据获取第二数据特征信息,具体包括:根据所述第一数据特征信息获取第一数据内容信息,基于所述第一数据内容信息获取重复数据集合;根据所述重复数据集合获取内容信息重复数据,合并所述内容信息重复数据,将合并内容信息重复数据后的数据以及其他数据形成联合数据,基于所述联合数据集合得到联合数据表;对所述联合数据进行数据特征提取,得到第二数据特征信息。4.根据权利要求1所述的一种大数据多表数据联合校验方法,其特征在于,所述将所述第一数据特征信息与第二数据特征信息进行对比,得到数据对比结果,具体包括:基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量;比较所述第一数据总量与第二数据总量是否相同,根据所述比较结果形成数据对比结果。5.根据权利要求4所述的一种大数据多表数据联合校验方法,其特征在于,所述基于所述第一数据特征信息获取第一数据总量,基于所述第二数据特征信息获取第二数据总量,具体包括:根据所述第一数据特征...
【专利技术属性】
技术研发人员:黎学军,
申请(专利权)人:企知道网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。