【技术实现步骤摘要】
基于世系的数据增量采集方法、装置、存储介质和电子设备
本申请属于计算机
,具体涉及一种基于世系的数据增量采集方法、装置、存储介质和电子设备。
技术介绍
目前,相关技术中,数据增量采集方式主要有两类,第一类是数据源中有识别数据变化的标识如时间戳标识、自增长标识等,基于此标识可实现数据的增量采集,当数据的变化时标识列记录了数据的变化,通过与上一次采集的基准标识比较即可识别出增量的变化内容。第二类为通过数据库管理系统提供的功能来实现,比如oracle、sqlserver等商用数据库的变化数据捕获(CDC)组件可分发数据的变化,有些开源的数据库如mysql可通过解析数据库运行日志来实现变化数据的捕获,数据库管理系统的CDC组件会在数据变化时将捕获到的变化数据分发到下游任务的存储上但这两类数据增量采集方式中,数据源中有增量标识的方式依赖于数据源的结构设计,而大部分现有的系统都无专门的设计,添加时需修改系统的数据库设计。数据库管理系统CDC的方式需要数据库管理系统中添加CDC扩展组件,会对系统的运营和维护造成风险。CDC方 ...
【技术保护点】
1.一种基于世系的数据增量采集方法,其特征在于,包括:/n从数据源中加载数据;/n基于当前次加载数据与上一次加载数据的比较,识别数据源中变化的数据;/n基于识别结果对加载数据进行处理。/n
【技术特征摘要】
1.一种基于世系的数据增量采集方法,其特征在于,包括:
从数据源中加载数据;
基于当前次加载数据与上一次加载数据的比较,识别数据源中变化的数据;
基于识别结果对加载数据进行处理。
2.根据权利要求1所述的数据增量采集方法,其特征在于,所述从数据源中加载数据,具体为:
针对所述数据源创建表级别的数据采集任务,基于执行所述数据采集任务来实现加载数据。
3.根据权利要求2所述的数据增量采集方法,其特征在于,基于当前次加载数据与上一次加载数据的比较,识别数据源中变化的数据,包括:
基于数据指纹对当前次加载数据与上一次加载数据进行比较,比较得到,
新增数据
更新数据Cm={d|d∈Cn∩d∈Co∩dn≠do},
未变化数据Cu={d|d∈Cn∩d∈Co∩dn=do},
删除数据Cd={d|d∈(Cn-Ca-Cm-Cu)},
其中,Cn为当前次加载数据,Co为上一次加载数据,dn为Cn中的任意一条记录为dn,do为Co中的任意一条记录。
4.根据权利要求3所述的数据增量采集方法,其特征在于,所述基于识别结果对加载数据进行处理,具体为:
将新增数据Ca添加到上一次加载数据Co中,将更新数据Cm覆盖到上一次加载数据Co中唯一标识相同的数据,将删除数据Cd从上一次加载数据Co中删除。
5.根据权利要求3所述的数据增量采集方法,其特征在于,所述基于识别结果...
【专利技术属性】
技术研发人员:高留杰,张君福,张世琨,刘普祥,
申请(专利权)人:北京北大软件工程股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。