System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种数据立方体存储方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、数据立方体是一种多维数据模型,用于分析和组织大量数据。数据立方体是由数据仓库中的多个维度字段和度量交叉组合而成。例如,n个维度字段,则可以产生个立方体,这个立方体称为数据立方体的完全立方体。
2、目前的数据立方体中数据的存储方法,是将数据立方体中每一维度层级的立方体数据按照每一维度层级中各维度字段组合以及各维度字段组合对应的度量字段的度量值的不同,分别存储在多维数组的不同行。
3、然而,目前的数据立方体存储方法中,如果数据立方体中维度很多,每个维度对应的维度值很多,再加入用于存储度量字段和维度字段间外键的事实表,这样会产生大量的存储数据,进而,占用较大的存储空间,大量消耗计算机资源。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够节约存储空间的数据立方体存储方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种数据立方体存储方法。所述方法包括:
3、获取待处理数据集;所述待处理数据集中包含维度字段、每一所述维度字段对应的泛化处理后的维度值、度量字段和所述度量字段对应的度量值;
4、基于所述待处理数据集,逐层计算各维度层级的数据立方体,并将所述各维度层级的数据立方体中包含的维度字段组合的维度值转换为索引值;
5、根据预设的排序规则,确定所述各维度层
6、基于所述维度字段组合的排序结果和所述度量字段对应的度量值的存储顺序,将所述维度字段组合对应的维度值的索引值,以及所述度量字段的度量值合并存储。
7、在其中一个实施例中,所述获取待处理数据集,包括:
8、获取维度字段和度量字段;
9、基于所述维度字段和所述度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段对应的泛化处理后的维度值;
10、基于所述维度字段,所述维度字段对应的泛化处理后的维度值,所述度量字段以及所述度量字段对应的度量值,得到待处理数据集。
11、在其中一个实施例中,所述基于所述维度字段和所述度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段对应的泛化处理后的维度值,包括:
12、在所述度量字段为分类变量,所述维度字段为数值变量的情况下,确定分类泛化策略;
13、以所述度量字段为标签,基于所述分类泛化策略中的预设分类模型,对每一所述维度字段对应的维度值进行数据划分,得到所述维度值的划分结果;
14、基于所述划分结果,得到所述维度字段对应的泛化处理后的维度值。
15、在其中一个实施例中,所述基于所述维度字段和所述度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段对应的泛化处理后的维度值,包括:
16、在所述度量字段为数值变量,所述维度字段为数值变量的情况下,确定回归泛化策略;
17、基于所述回归泛化策略中的预设回归模型,对每一所述维度字段对应的维度值进行数据划分,得到所述维度值的划分结果;
18、基于所述划分结果,得到所述维度字段对应的泛化处理后的维度值。
19、在其中一个实施例中,所述基于所述维度字段和所述度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段对应的泛化处理后的维度值,包括:
20、在所述度量字段为分类变量,所述维度字段为分类变量的情况下,确定第一相关性泛化策略;
21、对每一所述维度字段的各维度值与度量字段进行卡方检验,确定所述维度字段的各维度值与所述度量字段间的相关性;
22、基于所述维度字段的维度值与所述度量字段间的相关性,对所述维度字段的维度值进行泛化处理,得到所述维度字段对应的泛化处理后的维度值。
23、在其中一个实施例中,所述分类变量包括二分类变量和多分类变量,所述方法还包括:
24、若所述维度字段为分类变量中的多分类变量,则根据预设的编码转换规则,将所述多分类变量的维度字段对应的维度值转换为二分类变量的维度值;
25、若所述维度字段为分类变量中的二分类变量,则执行所述对每一所述维度字段的各维度值与度量字段进行卡方检验,确定所述维度字段的各维度值与所述度量字段间的相关性的步骤。
26、在其中一个实施例中,所述基于所述维度字段和所述度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段对应的泛化处理后的维度值,包括:
27、在所述度量字段为数值变量,所述维度字段为分类变量的情况下,确定第二相关性泛化策略;
28、以所述维度字段的维度值作为分类标签,所述度量字段作为变量,计算所述度量字段的信息量值;
29、基于所述信息量值,确定所述维度字段的各维度值与所述度量字段间的相关性;
30、基于所述维度字段的各维度值与所述度量字段间的相关性,对所述维度字段的维度值进行泛化处理,得到维度字段对应的泛化处理后的维度值。
31、在其中一个实施例中,所述基于所述待处理数据集,逐层计算各维度层级的数据立方体,包括:
32、基于所述待处理数据集中的所述维度字段和所述度量字段,计算底层维度层级的数据立方体,并将所述底层维度层级的数据立方体的数据量保存至维度立方体数据量表;所述底层维度层级的数据立方体为维度字段组合包含所述待处理数据集中全量维度字段的数据立方体;
33、将所述底层维度层级的数据立方体作为参考数据立方体,在计算上一维度层级的数据立方体时,在所述维度立方体数据量表中查询所述参考数据立方体;
34、基于所述参考数据立方体计算所述上一维度层级的数据立方体;
35、将所述上一维度层级的数据立方体作为新的参考数据立方体,执行所述在计算上一维度层级的数据立方体时,在所述维度立方体数据量表中查询所述参考数据立方体的步骤,直至得到各维度层级的数据立方体。
36、在其中一个实施例中,所述将所述各维度层级的数据立方体中包含的维度字段组合的维度值转换为索引值,包括:
37、将所述维度字段组合中各维度字段对应的维度值按照字典序排序,确定排序后各所述维度值对应的序号值;
38、以所述序号值作为索引值,将所述各维度层级的数据立方体中包含的维度字段组合的维度值转换为各所述维度值对应的索引值。
...【技术保护点】
1.一种数据立方体存储方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待处理数据集,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于维度字段和度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段泛化处理后的维度值,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于维度字段和度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段泛化处理后的维度值,包括:
5.根据权利要求2所述的方法,其特征在于,所述基于维度字段和度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段泛化处理后的维度值,包括:
6.根据权利要求5所述的方法,其特征在于,所述分类变量包括二分类变量和多分类变量,所述方法还包括:
7.根据权利要求2所述的方法,其特征在于,所述基于维度字段
8.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据集,逐层计算各维度层级的数据立方体,包括:
9.根据权利要求1所述的方法,其特征在于,所述将维度值转换为索引值,包括:
10.根据权利要求1所述的方法,其特征在于,所述根据与所述待处理数据集相匹配的排序规则,确定各所述数据立方体中包含的维度字段组合的排序结果,并基于所述排序结果确定所述度量字段对应的度量值的存储顺序,包括:
11.根据权利要求1所述的方法,其特征在于,所述基于所述维度字段组合的排序结果,对所述维度字段组合对应的索引值进行合并存储,以及基于所述度量字段对应的度量值的存储顺序,将所述度量字段的度量值合并存储,包括:
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
13.一种数据存储装置,其特征在于,所述装置包括:
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种数据立方体存储方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待处理数据集,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于维度字段和度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段泛化处理后的维度值,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于维度字段和度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段泛化处理后的维度值,包括:
5.根据权利要求2所述的方法,其特征在于,所述基于维度字段和度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段泛化处理后的维度值,包括:
6.根据权利要求5所述的方法,其特征在于,所述分类变量包括二分类变量和多分类变量,所述方法还包括:
7.根据权利要求2所述的方法,其特征在于,所述基于维度字段和度量字段的数据类型,确定维度值泛化策略,并通过所述维度值泛化策略对每一所述维度字段对应的维度值进行泛化处理,得到所述维度字段泛化处理后的维度值,包括:
8.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:黄波,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。