【技术实现步骤摘要】
基于MD5&ASCII的时序性数据一致性比较装置及方法
[0001]本专利技术属于一致性比较领域,涉及一种基于MD5&ASCII的时序性数据一致性比较装置及方法。
技术介绍
[0002]很多企业在基于大户数据平台组件进行数据湖数据同步的时候,必须向数据应用方证明目的端数据同步的一致性,目前比对工作面临的问题是:源端和目的端的数据存储平台异构,缺乏手段,直接进行异构数据端之间数据的一致性校验;对源端和目的端基于数据库引擎直接进行数据比对,影响数据库的使用性能和可用连接数;大批量数据比对容易消耗完数据库或第三方硬件资源,造成结果无法输出;遇见长文本或二进制字段比对时,会严重消耗系统性能;源端和目的端数据类型基于数据库本身设置,类型多种多样。需实现比较时,内容格式上的一致性。
技术实现思路
[0003]有鉴于此,本专利技术的目的在于提供一种基于MD5&ASCII的时序性数据一致性比较装置,提供一种组件类工具,实现低成本、高通用,多线程的进行异步的数据一致性比对工作。
[0004]为达到上述目的,本专利技术提供如下技术方案:
[0005]一种基于MD5&ASCII的时序性数据一致性比较装置,包括类型转换天梯系统,内存数据库,数据比较分析模块,配置文件组;
[0006]所述类型转换天梯系统用于将异构数据系统的数据类型以及格式进行统一,实现输入数据比较分析模块的内容是一致的;
[0007]所述内存数据库用于对时间切片的数据进行临时存储 ...
【技术保护点】
【技术特征摘要】
1.一种基于MD5&ASCII的时序性数据一致性比较装置,其特征在于:包括类型转换天梯系统,内存数据库,数据比较分析模块,配置文件组;所述类型转换天梯系统用于将异构数据系统的数据类型以及格式进行统一,实现输入数据比较分析模块的内容是一致的;所述内存数据库用于对时间切片的数据进行临时存储并在完成后销毁,还用于存储异常数据条目;所述数据比较分析模块用于将同一时间切片中的两队列数据进行MD5码加ASCII码的转换以及基于字符代码的计算,并将异常数据输出到内存数据库;所述配置文件组用于控制可同步开启的最大进程数,设置时间切片的间隔,配置内存数据库连接信息。2.根据权利要求1所述的基于MD5&ASCII的时序性数据一致性比较装置,其特征在于:所述类型转换天梯系统由数据适配器,类型天梯对比表,数据逻辑分析模块构成;所述数据适配器,负责采集源端和目的端表/流中字段类型以及相关信息,并在最后按操作逻辑,从输出端发送转换内容;所述类型天梯转义模块,包含一套各数据库或系统间的类型兼容性对比表,依据兼容性高低对类型进行分层;对传入的源端的信息进行信息转换,并将包含转移后源端字段类型信息的新的参数集传递给数据元素分析模块;所述数据元素分析模块,对从类型天梯转义模块传入的数据进行分析,对数据类型的多维度信息进行判断,是否要对输出或目的端字段规范进行重定义。3.根据权利要求1所述的基于MD5&ASCII的时序性数据一致性比较装置,其特征在于:所述数据比较分析模块对同一时间切片中的两队列数据进行MD5转换,变成32位长的字符串,并进行大写转换;此时列内容转写的字符串,只包括0
‑
9、A
‑
Z;对转完后的字符串进行ASCII码转换,变成32个整形数后进行求和;然后将每一列以序号从小到大的顺序,按步长1进行累加求和,直到比较完所有数据,当和值在某一轮循环累加中出现不一致时,该轮次对应的序号就是出现一致性问题的源与目的记录行所在次序,将存在一致性问题的轮次对应的联合主键和列名记录在内存数据库中。4.一种基于MD5&ASCII的时序性数据一致性比较方法,其特征在于:包括以下步骤:S1:定时在内存中形成时间切片,在内存中记录下时间切片中抽取的记录行的联合主键列表;S2:启动线程,将联合主键作为唯一性索引,同时从源端和目的端拿到数量可接受的对应的记录行,并基于联合主键排序;在类型天梯转义模块中配置一致性比较装置与其他数据库产品类型转换的对照关系,在数据提取时,将源端和目的端的数据向一致性比较装置设置的类型转写,实现内容的格式一致;S3:在数据比较分析模块中对每行记录的每一列进行数据内容MD5码加ASCII码的转换以及基于字符代码的计算,并将异常数据输出到内存数据库;S4:基于配置文件的设置值,控制并发分析的线程的数量。5.根据权利要求4所述的基于MD5&ASCII的时序性数据一致性比较方法,其特征在于:所述联...
【专利技术属性】
技术研发人员:李翀,舒金才,陈金雄,尚华,
申请(专利权)人:北京高灵智腾信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。