【技术实现步骤摘要】
本专利技术涉及异构数据源数据同步,尤其涉及一种多源数据归并增量抽取方法和系统。
技术介绍
1、伴随着大数据时代的到来,每时每刻都产生巨大的数据,数据类型也呈现多样化趋势。传统的数据库同步技术面临巨大的压力和挑战。
2、当前常见的增量抽取技术主要有以下几种:
3、数据库日志,其适用性较好,抽取性能较好,对源库性能影响较小,但对源库侵入性较大,需要适配每种数据库、成本高;
4、触发器方式,其适用性较好,抽取性能较好,对源库性能影响大,对源库侵入性一般,管理复杂;
5、自增主键(或时间戳),其适用性较差,抽取性能较好,对源库性能影响很小,对源库侵入性较大,须有自增主键或时间戳,否则需要修改源表结构;
6、删除全同步,其适用性较好,抽取性能较差,对源库性能没有影响,对源库没有侵入性;如已存在大量数据,全量同步性能差;
7、上述传统方案均无法实现高效、准确、可对接多类数据库,并适用于大数据场景的增量抽取,具体地,上述传统方案对于存在主键的库表,可以使用主键作为该行记录的标识,
...【技术保护点】
1.多源数据归并增量抽取方法,其特征在于,包括:
2.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,所述分别对源表和目标表进行逐行特征值计算为通过MD5算法对源表和目标表进行逐行特征值计算,源表和目标表中各行特征值为MD5值。
3.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,采用双指针法分别计算第一集合-第二集合的差集以及第二集合-第一集合的差集。
4.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,根据差集计算结果,使用哈希映射确认插入记录和删除记录。
5.根据权利要求1所述的多源数
...【技术特征摘要】
1.多源数据归并增量抽取方法,其特征在于,包括:
2.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,所述分别对源表和目标表进行逐行特征值计算为通过md5算法对源表和目标表进行逐行特征值计算,源表和目标表中各行特征值为md5值。
3.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,采用双指针法分别计算第一集合-第二集合的差集以及第二集合-第一集合的差集。
4.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,根据差集计算结果,使用哈希映射确认插入记录和删除记录。
5.根据权利要求1所述的多源数据归并增量抽取方法,其特征在于,分别对确认的插入记录和删除记录对应的插入数据和删除数据进行分片操作,形成...
【专利技术属性】
技术研发人员:张中国,王晨戈,乔宏,肖辉,李晓东,
申请(专利权)人:陕西航天七零六信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。