System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据仓库优化方法、装置、设备及其存储介质制造方法及图纸_技高网

一种数据仓库优化方法、装置、设备及其存储介质制造方法及图纸

技术编号:40961212 阅读:2 留言:0更新日期:2024-04-18 20:39
本申请实施例属于金融科技技术领域,应用于金融行业数据仓库优化场景中,涉及一种数据仓库优化方法、装置、设备及其存储介质,通过计算目标数据仓库的线程池实时占用率;若未超过阈值,重复进行实时计算和识别;若超过阈值,则获取数据调用日志;解析以获得SQL执行语句;解析SQL执行语句,根据高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系;对目标数据仓库中数据进行更新优化,获得最新血缘关系图。避免金融业务类数据仓库中低频调用数据占用太多存储空间,也防止高频调用数据分散到多个表单。便于维护人员结合最新血缘关系图进行数据仓库维护管理,避免数据仓库压力过大,提高数据仓库的使用寿命。

【技术实现步骤摘要】

本申请涉及金融科技,应用于金融行业数据仓库优化场景中,尤其涉及一种数据仓库优化方法、装置、设备及其存储介质


技术介绍

1、随着互联网的飞速发展,各行各业都在依托互联网寻求行业突破点,近年来,金融行业也正在围绕着互联网进行线上业务拓展。由于金融行业涉及的业务量和数据量较大,使得业务平台对于金融类数据仓库的要求也越来越高。尤其是在金融投资、金融理财或者股票分析等多个金融服务领域。

2、目前的金融类数据仓库优化方式多为定时优化方式,即在时间达到某个固定的时间点,例如固定夜间三点到五点进行数据仓库优化,即达到夜间三点时触发优化机制对金融类数据仓库进行优化,这种方式是避开了业务高发期,但是极易造成无用优化,而且,无法在金融业务实时进行过程中对金融类数据仓库进行实时优化,容易造成目标数据仓库存储过多无用的数据、无法实时调整表单文件,导致数据仓库压力过大,降低了数据仓库的使用寿命,不便于维护人员进行维护管理。


技术实现思路

1、本申请实施例的目的在于提出一种数据仓库优化方法、装置、设备及其存储介质,以解决现有技术无法在金融业务实时进行过程中对金融类数据仓库进行实时优化,容易造成目标数据仓库存储过多无用的数据、无法实时调整表单文件,导致数据仓库压力过大,降低了数据仓库的使用寿命,不便于维护人员进行维护管理的问题。

2、为了解决上述技术问题,本申请实施例提供数据仓库优化方法,采用了如下所述的技术方案:

3、一种数据仓库优化方法,包括下述步骤:

4、步骤201,根据预设的实时计算组件计算目标数据仓库进行数据处理时的线程池实时占用率;

5、步骤202,通过对比方式,识别所述线程池实时占用率是否超过了预设的实时占用率阈值;

6、步骤203,若所述线程池实时占用率未超过所述实时占用率阈值,则执行所述步骤201;

7、步骤204,若所述线程池实时占用率超过了所述实时占用率阈值,则获取所述目标数据仓库对应的数据调用日志;

8、步骤205,通过解析所述数据调用日志,获得目标时间段内的sql执行语句;

9、步骤206,根据预设的sql解析组件对所述sql执行语句进行解析,识别出所述目标时间段内的高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系;

10、步骤207,基于所述高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系对所述目标数据仓库中数据进行更新优化,并根据更新优化结果获得最新的血缘关系图。

11、进一步的,所述根据预设的sql解析组件对所述sql执行语句进行解析,识别出所述目标时间段内的高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系的步骤,具体包括:

12、采用spark组件的sql解析工具对所述sql执行语句进行解析,通过解析结果识别出在所述目标时间段内被调用的所有表、所有字段以及所有被调用表间的依赖关系,或者,

13、采用hive组件的sql解析工具对所述sql执行语句进行解析,通过解析结果识别出在所述目标时间段内被调用的所有表、所有字段以及所有被调用表间的依赖关系,或者,

14、采用hadoop工具中的mapreduce组件对所述sql执行语句进行解析,通过解析结果识别出在所述目标时间段内被调用的所有表、所有字段以及所有被调用表间的依赖关系;

15、对所述目标时间段内被调用的所有表、所有字段进行调用次数统计,根据调用次数统计结果,确定出所述高频调用表、低频调用表、高频调用字段、低频调用字段。

16、进一步的,所述基于所述高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系对所述目标数据仓库中数据进行更新优化,并根据更新优化结果获得最新的血缘关系图的步骤,具体包括:

17、根据所述高频调用表、低频调用表、高频调用字段、低频调用字段分别对应的调用次数;

18、根据所述调用次数、所述高频调用字段、所述低频调用字段对所述高频调用表、低频调用表进行表单重构,获取重构后的目标表单;

19、根据所述所有被调用表间的依赖关系以及重构后的目标表单,对预设的原始血缘关系图进行更新,获得最新的血缘关系图。

20、进一步的,所述根据所述调用次数、所述高频调用字段、所述低频调用字段对所述高频调用表、低频调用表进行表单重构,获取重构后的目标表单的步骤,具体包括:

21、根据所述调用次数,识别出所述高频调用表中的高频调用字段和低频调用字段,以及所述低频调用表中的高频调用字段和低频调用字段;

22、获取所述高频调用表中的高频调用字段和低频调用字段分别对应的数据,以及获取所述低频调用表中的高频调用字段和低频调用字段分别对应的数据;

23、将所述高频调用表中高频调用字段对应的数据和所述低频调用表中高频调用字段对应的数据添加到同一个表单中,获得第一目标表单;

24、将所述高频调用表中低频调用字段对应的数据和所述低频调用表中低频调用字段对应的数据添加到同一个表单中,获得第二目标表单。

25、进一步的,在执行所述将所述高频调用表中高频调用字段对应的数据和所述低频调用表中高频调用字段对应的数据添加到同一个表单中,获得第一目标表单的步骤之后,所述方法还包括:

26、根据所述目标数据仓库中单个表单的行列存储要求,识别所述第一目标表单的行信息是否超过了预设的第一最大行值和所述第一目标表单的列信息是否超过了预设的第一最大列值;

27、若所述第一目标表单的行信息未超过所述第一最大行值且所述第一目标表单的列信息也未超过所述第一最大列值,则对所述第一目标表单进行命名,获得命名结果作为目标表名;

28、若所述第一目标表单的行信息超过了所述第一最大行值或所述第一目标表单的列信息超过了所述第一最大列值,则对所述第一目标表单内的数据进行拆分处理,获得拆分后的表单,其中,所述拆分后的表单满足行信息均未超过所述第一最大行值,且列信息也均未超过所述第一最大列值;

29、将所述拆分后的表单存放到所述目标数据仓库内预设的同一分区内,并结合分区标识对所述拆分后的表单分别进行重命名,获得所述拆分后的表单的表名信息作为目标表名。

30、进一步的,在执行所述将所述高频调用表中低频调用字段对应的数据和所述低频调用表中低频调用字段对应的数据添加到同一个表单中,获得第二目标表单的步骤之后,所述方法还包括:

31、根据所述目标数据仓库中单个表单的行列存储要求,识别所述第二目标表单的行信息是否超过了预设的第二最大行值和所述第二目标表单的列信息是否超过了预设的第二最大列值;

32、若所述第二目标表单的行信息未超过所述第二最大行值且所述第二目标表单的列信息也未超过所述第二最大列值,则继续在所述目标数据仓库中缓存所述第二目标表单;...

【技术保护点】

1.一种数据仓库优化方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的数据仓库优化方法,其特征在于,所述根据预设的SQL解析组件对所述SQL执行语句进行解析,识别出所述目标时间段内的高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系的步骤,具体包括:

3.根据权利要求1所述的数据仓库优化方法,其特征在于,所述基于所述高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系对所述目标数据仓库中数据进行更新优化,并根据更新优化结果获得最新的血缘关系图的步骤,具体包括:

4.根据权利要求3所述的数据仓库优化方法,其特征在于,所述根据所述调用次数、所述高频调用字段、所述低频调用字段对所述高频调用表、低频调用表进行表单重构,获取重构后的目标表单的步骤,具体包括:

5.根据权利要求4所述的数据仓库优化方法,其特征在于,在执行所述将所述高频调用表中高频调用字段对应的数据和所述低频调用表中高频调用字段对应的数据添加到同一个表单中,获得第一目标表单的步骤之后,所述方法还包括:

6.根据权利要求4所述的数据仓库优化方法,其特征在于,在执行所述将所述高频调用表中低频调用字段对应的数据和所述低频调用表中低频调用字段对应的数据添加到同一个表单中,获得第二目标表单的步骤之后,所述方法还包括:

7.根据权利要求5所述的数据仓库优化方法,其特征在于,所述根据所述所有被调用表间的依赖关系以及重构后的目标表单,对预设的原始血缘关系图进行更新,获得最新的血缘关系图的步骤,具体包括:

8.一种数据仓库优化装置,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的数据仓库优化方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的数据仓库优化方法的步骤。

...

【技术特征摘要】

1.一种数据仓库优化方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的数据仓库优化方法,其特征在于,所述根据预设的sql解析组件对所述sql执行语句进行解析,识别出所述目标时间段内的高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系的步骤,具体包括:

3.根据权利要求1所述的数据仓库优化方法,其特征在于,所述基于所述高频调用表、低频调用表、高频调用字段、低频调用字段以及所有被调用表间的依赖关系对所述目标数据仓库中数据进行更新优化,并根据更新优化结果获得最新的血缘关系图的步骤,具体包括:

4.根据权利要求3所述的数据仓库优化方法,其特征在于,所述根据所述调用次数、所述高频调用字段、所述低频调用字段对所述高频调用表、低频调用表进行表单重构,获取重构后的目标表单的步骤,具体包括:

5.根据权利要求4所述的数据仓库优化方法,其特征在于,在执行所述将所述高频调用表中高频调用字段对应的数据和所述低频调用表中高频调用字段对应的数据添加到...

【专利技术属性】
技术研发人员:吴丽璇
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1