多源数据归并增量抽取方法和系统技术方案

技术编号:44912082 阅读:18 留言:0更新日期:2025-04-08 18:55
本发明专利技术涉及异构数据源数据同步技术领域,提供一种多源数据归并增量抽取方法和系统,方法包括:将源表中所有数据记录插入到目标表中;分别对源表和目标表进行逐行特征值计算;对计算得到的源表和目标表中的特征值进行归并排序,得到第一集合和第一时间复杂度以及第二集合和第二时间复杂度;计算差集;根据差集计算结果,确认插入记录和删除记录;分别对确认的插入记录和删除记录对应的插入数据和删除数据进行分片操作,形成多个插入分片和多个删除分片;分片操作后,先执行线程池批量删除各删除分片,再执行线程池批量插入各插入分片。本发明专利技术适用于所有关系型数据库表,库表无需存在自增主键或时间戳等特殊字段。

【技术实现步骤摘要】

本专利技术涉及异构数据源数据同步,尤其涉及一种多源数据归并增量抽取方法和系统


技术介绍

1、伴随着大数据时代的到来,每时每刻都产生巨大的数据,数据类型也呈现多样化趋势。传统的数据库同步技术面临巨大的压力和挑战。

2、当前常见的增量抽取技术主要有以下几种:

3、数据库日志,其适用性较好,抽取性能较好,对源库性能影响较小,但对源库侵入性较大,需要适配每种数据库、成本高;

4、触发器方式,其适用性较好,抽取性能较好,对源库性能影响大,对源库侵入性一般,管理复杂;

5、自增主键(或时间戳),其适用性较差,抽取性能较好,对源库性能影响很小,对源库侵入性较大,须有自增主键或时间戳,否则需要修改源表结构;

6、删除全同步,其适用性较好,抽取性能较差,对源库性能没有影响,对源库没有侵入性;如已存在大量数据,全量同步性能差;

7、上述传统方案均无法实现高效、准确、可对接多类数据库,并适用于大数据场景的增量抽取,具体地,上述传统方案对于存在主键的库表,可以使用主键作为该行记录的标识,但对于无主键的库表,本文档来自技高网...

【技术保护点】

1.多源数据归并增量抽取方法,其特征在于,包括:

2.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,所述分别对源表和目标表进行逐行特征值计算为通过MD5算法对源表和目标表进行逐行特征值计算,源表和目标表中各行特征值为MD5值。

3.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,采用双指针法分别计算第一集合-第二集合的差集以及第二集合-第一集合的差集。

4.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,根据差集计算结果,使用哈希映射确认插入记录和删除记录。

5.根据权利要求1所述的多源数据归并增量抽取方法,...

【技术特征摘要】

1.多源数据归并增量抽取方法,其特征在于,包括:

2.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,所述分别对源表和目标表进行逐行特征值计算为通过md5算法对源表和目标表进行逐行特征值计算,源表和目标表中各行特征值为md5值。

3.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,采用双指针法分别计算第一集合-第二集合的差集以及第二集合-第一集合的差集。

4.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,根据差集计算结果,使用哈希映射确认插入记录和删除记录。

5.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,分别对确认的插入记录和删除记录对应的插入数据和删除数据进行分片操作,形成...

【专利技术属性】
技术研发人员:张中国王晨戈乔宏肖辉李晓东
申请(专利权)人:陕西航天七零六信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1