【技术实现步骤摘要】
大数据环境下实现全量数据同步的方法
本专利技术涉及计算机软件领域,特别涉及企业应用领域,具体指大数据环境下实现全量数据同步的方法。
技术介绍
在企业级数据治理领域,元数据管理是数据治理的基础,它负责将企业涉及的各类源系统数据进行集成和管理,为企业业务系统和数据分析的开发、运维提供支撑。元数据采集作为元数据管理的基础,负责采集以上各类元数据,并将这些数据整合处理后统一存储于元数据仓库,支撑元数据的统一管理。元数据采集需要定期全量同步更新某一类别的元数据,即采集该类别的源系统数据,并全量更新至元数据仓库,以保证数据的准实时性和有效性。随着企业业务的发展,源系统建设越来越多,源系统数据的复杂程度也越来越大,元数据采集需要支持采集的数据量也越来越大,支持全量同步更新大数据量元数据成为问题的瓶颈。为解决上述问题,目前有多种解决方案,如下:比较上述解决方案,要么无法满足业务需求,要么操作步骤繁多,效率低下,因此迫切需要一种稳定高效的支持大数据量的全量数据同步的方法,满足全量数据同步完成后,目标元数 ...
【技术保护点】
1.一种在大数据环境下实现全量数据同步的方法,该方法包括如下步骤:/n(1)执行插入源数据模块,负责将源元数据分批插入元数据仓库新创建的元数据表中;/n(2)执行生成交集数据模块,联合源元数据和元数据仓库中的目标元数据,做可重复的并集操作,并将结果按业务主键分组统计条目;/n(3)基于交集数据获取并插入需添加的记录模块,按业务主键连接交集数据和源元数据,查询获取需新添加的所有数据,并插入至目标元数据表;/n(4)基于交集数据生成需更新的记录模块,按业务主键连接交集数据、源元数据、目标元数据,并对源元数据的所有属性、目标元数据的所有属性做比对,得出需更新的记录;/n(5)基于 ...
【技术特征摘要】 【专利技术属性】
1.一种在大数据环境下实现全量数据同步的方法,该方法包括如下步骤:
(1)执行插入源数据模块,负责将源元数据分批插入元数据仓库新创建的元数据表中;
(2)执行生成交集数据模块,联合源元数据和元数据仓库中的目标元数据,做可重复的并集操作,并将结果按业务主键分组统计条目;
(3)基于交集数据获取并插入需添加的记录模块,按业务主键连接交集数据和源元数据,查询获取需新添加的所有数据,并插入至目标元数据表;
(4)基于交集数据生成需更新的记录模块,按业务主键连接交集数据、源元数据、目标元数据,并对源元数据的所有属性、目标元数据的所有属性做比对,得出需更新的记录;
(5)基于更新的记录更新数据模块,按业务主键连接需更新的记录与源元数据,执行更新;
(6)基于交集数据删除需删除的记录模块,按业务主键连接交集数据和目标元数据,查询获取需删除的所有数据,得出所有需删除的数据执行删除。
2.根据权利要求1所述的对大数据环境下实现全量数据同步的方法,其特征在于,所述的插入源数据模块,负责将源元数据分批插入元数据仓库新创建的元数据表中,包括以下步骤:
(11)判断元数据仓库中是否已经存在表T`,如T`已经存在则表示上一个全量数据同步的任务因为一些原因中断了,此时跳过下列步骤,直接进入(2)生成次数据模块的操作;如T`不存在则进入步骤(12);
(12)在元数据仓库中复制创建新的元数据表(记为T`),表结构与存储目标元数据的表(记为T)结构完全一致;
(13)将源系统的元数据,分批插入元数据仓库新创建的元数据表T`中;
(14)为新创建的元数据表T`添加业务主键索引;
(15)对该模块进行合法性校验,如校验通过,则进入下一个模块,否则进入(16);
(16)删除表T`,且该任务终止,并给出错误提示。
3.根据权利要求1所述的对大数据环境下实现全量数据同步的方法,其特征在于,所述的生成交集数据模块,包括以下步骤:
(21)判断元数据仓库中是否已经存在表TMP_UNION,如已经存在则删除之;
(22)联合源元数据和元数据仓库中的目标元数据,做可重复的并集操作,并将结果按业务主键分组统计条目;
(23)将查询所得的统计数据存储于新创建的临时表TMP_UNION中;
(24)分别为临时表TMP_UNION创建业务主键索引、统计条目索引;
(25)对该模块进行合法性校验,如校验通过,则进入下一个模块,否则进入(26);
(26)删除临时表TMP_UNION,且该任务终止,并给出错误提示。
技术研发人员:陈汉清,
申请(专利权)人:车配齐珠海横琴科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。