System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种全链路的数据缓慢变化监测方法、装置、设备及介质制造方法及图纸_技高网

一种全链路的数据缓慢变化监测方法、装置、设备及介质制造方法及图纸

技术编号:40781514 阅读:2 留言:0更新日期:2024-03-25 20:25
本申请公开了一种全链路的数据缓慢变化监测方法、装置、设备及介质,涉及数据监测领域,包括:采集目标数据源的若干数据仓库中的初始数据,并配置数据字典;基于数据字典判断初始数据对应的数据集是否首次加载,将数据集分为首次加载数据集和历史加载数据集,并筛选历史加载数据集中的目标数据;确定目标数据的数据类型,将不同数据集中同类型的目标数据映射为标准类型数据,并映射至目标数据集中;基于标准类型数据确定清洗策略并进行清洗生成清洗后数据,以写入目标拉链表中。对传统数据拉链进行优化,增加跨数据库的能力,提升查询效率;增加数据类型适应的能力,高效实现数据的一致性;增加数据链路监控能力,及时精准的记录数据历史的变化。

【技术实现步骤摘要】

本专利技术涉及数据监测领域,特别涉及一种全链路的数据缓慢变化监测方法、装置、设备及介质


技术介绍

1、在大数据时代,数据量呈指数型增长,人们注重在海量数据中挖掘数据的内在价值。在互联网领域,数据正在为企业制定战略决策起到支撑性作用。但往往很多有价值的信息是通过对历史数据的分析比对得出的,掌握历史数据的变化趋势也是企业深入发展必不可少的需求。同时,随着业务的不断深入,势必会面临海量历史数据存储的问题,尤其在大规模数据支撑的商业模式下更突出,意味着历史数据的存储和历史信息的提取成为企业迫切需要解决的关键问题。

2、企业在运作过程中数据也在不断的更新变化,人们将数据随着时间所发生的维度变化的问题称为数据缓慢变化问题。数据拉链是一种将不同数据源或数据集合按照某种规则进行匹配和关联的技术。它通过共享共同的数据字段或属性,将数据集合中的记录进行连接,使得不同数据源之间的数据可以进行关联和整合。拉链表概念的提出能够有效缓解这一问题,通过非全量备份存储的方式记录下数据所有的变动信息,并最大程度地节省存储空间。伴随着大量业务数据堆积以及各类业务系统数据库杂糅的压力,普通拉链算法在运算速度、运算结果精确度、运算资源耗费程度难以支撑业务侧快速变化的数据分析需求,传统数据拉链的作用在于将不同数据源或数据集合中的记录进行连接和关联,从而实现数据整合和关联分析的目的,但存在无法跟踪数据过程的情况,因为传统数据拉链主要依赖于自身数据库的性能,无法实现跨数据库和跨数据平台进行及时敏感地响应原始数据。因此,如何基于数据拉链实现更加通用、高效地对数据缓慢变化维进行监测,是本领域有待解决的问题。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种全链路的数据缓慢变化监测方法、装置、设备及介质,通过对传统数据拉链进行优化,增加跨数据库的能力,提升查询效率;增加数据类型适应的能力,高效实现数据的一致性;增加数据链路监控能力,及时精准的记录数据历史的变化。其具体方案如下:

2、第一方面,本申请提供了一种全链路的数据缓慢变化监测方法,包括:

3、采集目标数据源的若干预设数据仓库中的初始数据,并根据所述初始数据配置数据字典;

4、基于所述数据字典判断所述初始数据对应的数据集是否为首次加载,根据判断结果将所述数据集分类为首次加载数据集和历史加载数据集,并筛选所述历史加载数据集中的目标数据;所述目标数据为基于所述历史加载数据集对应的历史数据确定的所述历史加载数据集中的新增数据;

5、确定所述目标数据的数据类型,利用对象关系映射技术将不同数据集中同类型的所述目标数据映射为标准类型数据,并利用预设对象匹配方法将所述标准类型数据映射至目标数据集中;

6、基于所述标准类型数据的数据类型确定对应的清洗策略,并利用所述清洗策略对所述标准类型数据进行数据清洗生成清洗后数据,以将所述清洗后数据写入目标拉链表中。

7、可选的,所述采集目标数据源的若干预设数据仓库中的初始数据,并根据所述初始数据配置数据字典,包括:

8、采集所述目标数据源的若干所述预设数据仓库中的所述初始数据,并将所述初始数据对应的数据库信息、域信息和数据拉链表信息配置到所述数据字典中;

9、生成所述目标数据源的位置主键或联合主键,并将所述位置主键或所述联合主键作为所述初始数据的唯一标识。

10、可选的,所述筛选所述历史加载数据集中的目标数据之后,还包括:

11、基于所述历史数据筛选所述历史加载数据集中已删除的删除数据和发生变化的变化数据,并修改所述删除数据和所述变化数据对应的所述历史加载数据集中对应数据的数据标识。

12、可选的,所述基于所述标准类型数据的数据类型确定对应的清洗策略之前,还包括:

13、基于预设正则规则生成不同所述数据类型的所述清洗策略。

14、可选的,所述筛选所述历史加载数据集中的目标数据之后,还包括:

15、确定所述目标数据对应的数据执行任务,并基于所述目标数据对应的数据集对所述数据执行任务进行分组得到若干任务组;

16、并行执行若干所述任务组。

17、可选的,所述并行执行若干所述任务组过程中,包括:

18、监控若干所述任务组中所述数据执行任务的执行状态;

19、根据所述执行状态确定所述数据执行任务的内存占用情况,以根据所述内存占用情况调整系统可用内存。

20、可选的,所述监控若干所述任务组中所述数据执行任务的执行状态之后,还包括:

21、记录所述执行状态为执行错误的目标任务,并在若干所述任务组中的所述数据执行任务完成后,再次执行所述目标任务;

22、若所述目标任务再次执行错误,则上报至维护人员,以便所述维护人员根据所述目标任务对应的任务日志单独执行所述目标任务。

23、第二方面,本申请提供了一种全链路的数据缓慢变化监测装置,包括:

24、数据采集模块,用于采集目标数据源的若干预设数据仓库中的初始数据,并根据所述初始数据配置数据字典;

25、数据筛选模块,用于基于所述数据字典判断所述初始数据对应的数据集是否为首次加载,根据判断结果将所述数据集分类为首次加载数据集和历史加载数据集,并筛选所述历史加载数据集中的目标数据;所述目标数据为基于所述历史加载数据集对应的历史数据确定的所述历史加载数据集中的新增数据;

26、数据映射模块,用于确定所述目标数据的数据类型,利用对象关系映射技术将不同数据集中同类型的所述目标数据映射为标准类型数据,并利用预设对象匹配方法将所述标准类型数据映射至目标数据集中;

27、数据清洗模块,用于基于所述标准类型数据的数据类型确定对应的清洗策略,并利用所述清洗策略对所述标准类型数据进行数据清洗生成清洗后数据,以将所述清洗后数据写入目标拉链表中。

28、第三方面,本申请提供了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述的全链路的数据缓慢变化监测方法。

29、第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的全链路的数据缓慢变化监测方法。

30、本申请首先采集目标数据源的若干预设数据仓库中的初始数据,并根据初始数据配置数据字典;然后基于数据字典判断初始数据对应的数据集是否为首次加载,根据判断结果将数据集分类为首次加载数据集和历史加载数据集,并筛选历史加载数据集中的目标数据;其中目标数据为基于历史加载数据集对应的历史数据确定的历史加载数据集中的新增数据;然后确定目标数据的数据类型,利用对象关系映射技术将不同数据集中同类型的目标数据映射为标准类型数据,并利用预设对象匹配方法将标准类型数据映射至目标数据集中;最后基于标准类型数据的数据类型确定对应的清洗策略,并利用清洗策略对标准类型数据进行数据清洗本文档来自技高网...

【技术保护点】

1.一种全链路的数据缓慢变化监测方法,其特征在于,包括:

2.根据权利要求1所述的全链路的数据缓慢变化监测方法,其特征在于,所述采集目标数据源的若干预设数据仓库中的初始数据,并根据所述初始数据配置数据字典,包括:

3.根据权利要求1所述的全链路的数据缓慢变化监测方法,其特征在于,所述筛选所述历史加载数据集中的目标数据之后,还包括:

4.根据权利要求1所述的全链路的数据缓慢变化监测方法,其特征在于,所述基于所述标准类型数据的数据类型确定对应的清洗策略之前,还包括:

5.根据权利要求1至4任一项所述的全链路的数据缓慢变化监测方法,其特征在于,所述筛选所述历史加载数据集中的目标数据之后,还包括:

6.根据权利要求5所述的全链路的数据缓慢变化监测方法,其特征在于,所述并行执行若干所述任务组过程中,包括:

7.根据权利要求6所述的全链路的数据缓慢变化监测方法,其特征在于,所述监控若干所述任务组中所述数据执行任务的执行状态之后,还包括:

8.一种全链路的数据缓慢变化监测装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的全链路的数据缓慢变化监测方法。

10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的全链路的数据缓慢变化监测方法。

...

【技术特征摘要】

1.一种全链路的数据缓慢变化监测方法,其特征在于,包括:

2.根据权利要求1所述的全链路的数据缓慢变化监测方法,其特征在于,所述采集目标数据源的若干预设数据仓库中的初始数据,并根据所述初始数据配置数据字典,包括:

3.根据权利要求1所述的全链路的数据缓慢变化监测方法,其特征在于,所述筛选所述历史加载数据集中的目标数据之后,还包括:

4.根据权利要求1所述的全链路的数据缓慢变化监测方法,其特征在于,所述基于所述标准类型数据的数据类型确定对应的清洗策略之前,还包括:

5.根据权利要求1至4任一项所述的全链路的数据缓慢变化监测方法,其特征在于,所述筛选所述历史加载数据集中的目标数据之后,还包括:

6.根据权利要求5所...

【专利技术属性】
技术研发人员:张好霞
申请(专利权)人:中电通商数字技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1