System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种数据采集汇聚处理方法、装置、设备及存储介质。
技术介绍
1、数据技术的发展伴随着数据应用需求的演变,影响着数据投入生产的方式和规模,数据在相应技术和产业背景的演变中逐渐成为促进生产的关键要素。数据采集汇聚可有效解决各级部门和组织中各类数据难以落地的问题,通过多源异构的数据处理能力、库表交换能力、文件交换能力、增量和全量数据抽取能力,实现各类分散数据有机采集汇聚。
2、目前,数据的采集汇聚主要在定义适配器、数据预处理、唯一性标识数据实例等方面优化数据采集有效性,通过中间件、多线程、异步非阻塞等工具或方法优化数据采集效率。现有技术采用优化数据采集的有效性和效率的方法,增加了数据采集作业的配置参数,每个数据采集作业独立完成一张源数据库表到目标数据仓库表的映射配置,相互独立数据采集作业、数据采集调度任务、数据采集执行器提供技术性的关联配置。
3、然而,现有技术的数据采集汇聚处理方法实现复杂,数据处理效率低。
技术实现思路
1、本申请提供一种数据采集汇聚处理方法、装置、设备及存储介质,以解决现有技术的数据采集汇聚处理方法实现复杂,数据处理效率低的技术问题。
2、第一方面,本申请提供数据采集汇聚处理方法,包括:
3、获取整库采集入库的日志数据;
4、根据数据扫描周期,扫描数据源库表信息;
5、根据所述数据源库表信息和所述整库采集入库的日志数据,确定库表数据是否发生变化;
6、若确
7、本申请实施例提出一种能够灵活管理数据采集作业的方法,能够基于整库采集入库的日志数据与定期扫描到的数据源库表信息,重点识别出发生变化的库表,基于库表数据的变化情况执行作业配置管理,按照统一调度任务,数据推送方整库推送的库表大多数库表不是全部实时都在更新,通过第一次整库采集入库的日志保留下来跟后续数据推送后进行比较,能够明确发生的变化的库表,配置采集作业和调度任务,降低短时间大批量工作任务,降低对服务器资源的消耗,且基于上述方法,每次只需配置发生变化且未配置作业和调度任务的库表,优化并减少执行器资源的分配,根据分析识别出库表变化的结果,识别出无变化的库表无需在配置作业和调度任务,减少执行器资源分配,降低了数据采集汇聚处理方法的复杂性,提高了数据处理效率。
8、可选地,所述库表数据变化情况包括新增表、删除表、表结构发生变化和表结构发生变化但数据发生变化中的至少一种。
9、可选地,所述根据库表数据变化情况,执行作业配置管理,包括:
10、判断所述库表数据变化情况是否为新增表;
11、若所述库表数据变化情况为新增表,则执行批量作业配置处理,将新增表作为采集作业配置到目标数据仓库。
12、可选地,所述根据库表数据变化情况,执行作业配置管理,还包括:
13、若所述库表数据变化情况为删除表,则确定无需配置作业。
14、可选地,所述根据库表数据变化情况,执行作业配置管理,还包括:
15、若所述库表数据变化情况为表结构发生变化,则根据变化后的表结构重新建表,根据新建表执行作业配置管理,配置采集作业至目标数据仓库。
16、可选地,所述根据库表数据变化情况,执行作业配置管理,还包括:
17、若所述库表数据变化情况为表结构发生变化但数据发生变化,则复用整库采集入库的作业配置,配置多表批量采集入库。
18、可选地,所述根据数据扫描周期,扫描数据源库表信息,包括:
19、获取数据提供方推送数据频率;
20、根据所述数据提供方推送数据频率,扫描数据源库表信息。
21、可选地,在所述若确定库表数据发生变化,则根据库表数据变化情况,执行作业配置管理之后,还包括:
22、根据所述数据提供方推送数据频率,配置调度任务。
23、可选地,在所述根据所述数据提供方推送数据频率,配置调度任务之后,还包括:
24、根据调度任务执行时间和调度任务执行频率,将库表数据同步至目标数据仓库。
25、第二方面,本申请实施例提供了一种数据采集汇聚处理装置,包括:
26、第一获取模块,用于获取整库采集入库的日志数据;
27、扫描模块,用于根据数据扫描周期,扫描数据源库表信息;
28、比对模块,用于根据所述数据源库表信息和所述整库采集入库的日志数据,确定库表数据是否发生变化;
29、执行模块,用于若确定库表数据发生变化,则根据库表数据变化情况,执行作业配置管理。
30、可选地,所述库表数据变化情况包括新增表、删除表、表结构发生变化和表结构发生变化但数据发生变化中的至少一种。
31、可选地,所述执行模块具体用于:
32、判断所述库表数据变化情况是否为新增表;
33、若所述库表数据变化情况为新增表,则执行批量作业配置处理,将新增表作为采集作业配置到目标数据仓库。
34、可选地,所述执行模块还具体用于:
35、若所述库表数据变化情况为删除表,则确定无需配置作业。
36、可选地,所述执行模块还具体用于:
37、若所述库表数据变化情况为表结构发生变化,则根据变化后的表结构重新建表,根据新建表执行作业配置管理,配置采集作业至目标数据仓库。
38、可选地,所述执行模块还具体用于:
39、若所述库表数据变化情况为表结构发生变化但数据发生变化,则复用整库采集入库的作业配置,配置多表批量采集入库。
40、可选地,所述扫描模块具体用于:
41、获取数据提供方推送数据频率;
42、根据所述数据提供方推送数据频率,扫描数据源库表信息。
43、可选地,在所述执行模块用于若确定库表数据发生变化,则根据库表数据变化情况,执行作业配置管理之后,上述装置还包括调度模块,用于:
44、根据所述数据提供方推送数据频率,配置调度任务。
45、可选地,在所述调度模块用于根据所述数据提供方推送数据频率,配置调度任务之后,上述装置还包括:
46、同步模块,用于根据调度任务执行时间和调度任务执行频率,将库表数据同步至目标数据仓库。
47、第三方面,本申请提供一种数据采集汇聚处理设备,包括:至少一个处理器和存储器;
48、所述存储器存储计算机执行指令;
49、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的数据采集汇聚处理方法。
50、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种本文档来自技高网...
【技术保护点】
1.一种数据采集汇聚处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述库表数据变化情况包括新增表、删除表、表结构发生变化和表结构发生变化但数据发生变化中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述根据库表数据变化情况,执行作业配置管理,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据库表数据变化情况,执行作业配置管理,还包括:
5.根据权利要求2所述的方法,其特征在于,所述根据库表数据变化情况,执行作业配置管理,还包括:
6.根据权利要求2所述的方法,其特征在于,所述根据库表数据变化情况,执行作业配置管理,还包括:
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据数据扫描周期,扫描数据源库表信息,包括:
8.根据权利要求7所述的方法,其特征在于,在所述若确定库表数据发生变化,则根据库表数据变化情况,执行作业配置管理之后,还包括:
9.根据权利要求8所述的方法,其特征在于,在所述根据所述数据提供方推送数据频率,配置调度任务之
10.一种数据采集汇聚处理设备,其特征在于,包括:
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至9中任一项所述的数据采集汇聚处理方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9中任一项所述的数据采集汇聚处理方法。
...【技术特征摘要】
1.一种数据采集汇聚处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述库表数据变化情况包括新增表、删除表、表结构发生变化和表结构发生变化但数据发生变化中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述根据库表数据变化情况,执行作业配置管理,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据库表数据变化情况,执行作业配置管理,还包括:
5.根据权利要求2所述的方法,其特征在于,所述根据库表数据变化情况,执行作业配置管理,还包括:
6.根据权利要求2所述的方法,其特征在于,所述根据库表数据变化情况,执行作业配置管理,还包括:
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据...
【专利技术属性】
技术研发人员:刘文飞,吕烨,邹展,宋雨伦,李大中,谢云龙,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。