数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32473811 阅读:30 留言:0更新日期:2022-03-02 09:35
本公开提供一种数据处理方法、装置、电子设备及存储介质。该方法包括:对数据仓库的数据模型进行多次随机抽样,获得多个抽样样本数据;根据所述多个抽样样本数据的成本值确定目标样本数据;对所述目标样本数据中每个维度的每个字段的每个元素进行编码,获得每个元素的编码序列;根据每个元素的编码序列,确定每个维度中元素相同的字段重复的数量;根据每个维度的总长度和每个维度中元素相同的字段重复的数量,确定每个维度的粒度。该方法快速、准确地确定数据仓库中数据模型的每个维度的粒度。地确定数据仓库中数据模型的每个维度的粒度。地确定数据仓库中数据模型的每个维度的粒度。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]在数据仓库中进行自动建模创建关联路径时,以粗粒度为关联键建的模型关联以细粒度维度为关联键建的模型时,存在笛卡尔积的情况。为避免数据模型关联时出现笛卡尔积的情况,需要对维度粒度进行判断,以提取最佳关联路径,实现自动建模。
[0003]相关技术中,进行数据仓库中模型的维度粒度判断的方法是count(distinct维度字段),其中distinct执行的是group by加order by的操作。其中,distinct语句执行的是去重功能,group by语句用于结合合计函数,根据一个或多个列对结果集进行分组,order by语句用于根据指定的列对结果集进行排序。
[0004]在数据库数据量较大的时候group by执行性能差再加上order by操作,面对数据量级为上亿的数据仓库的时,count(distinct维度字段)计算缓慢,无法满足实时计算的需求。r/>[0005]需本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:对数据仓库的数据模型进行多次随机抽样,获得多个抽样样本数据;根据所述多个抽样样本数据的成本值确定目标样本数据;对所述目标样本数据中每个维度的每个字段的每个元素进行编码,获得每个元素的编码序列;根据每个元素的编码序列,确定每个维度中元素相同的字段重复的数量;根据每个维度的总长度和每个维度中元素相同的字段重复的数量,确定每个维度的粒度。2.根据权利要求1所述的方法,其特征在于,根据所述多个抽样样本数据的成本值确定目标样本数据,包括:确定每个抽样样本数据的每一列的信息熵;根据所述每个抽样样本数据的每一列的信息熵和衰减因子,确定每个抽样样本数据的加权信息熵;根据所述每个抽样样本数据的每一列的信息熵的中位数和最小值,确定每个抽样样本数据的惩罚项;根据每个抽样样本数据的加权信息熵和每个抽样样本数据的惩罚项,确定每个抽样样本数据的成本值;将成本值最大的抽样样本数据确定为所述目标样本数据。3.根据权利要求2所述的方法,其特征在于,根据所述每个抽样样本数据的每一列的信息熵的中位数和最小值,确定每个抽样样本数据的惩罚项,包括:对所述每个抽样样本数据的每一列的信息熵的中位数与最小值之差取倒数,获得每个抽样样本数据的惩罚项。4.根据权利要求2所述的方法,其特征在于,根据每个抽样样本数据的加权信息熵和每个抽样样本数据的惩罚项,确定每个抽样样本数据的成本值,包括:将每个抽样样本数据的加权信息熵和每个抽样样本数据的惩罚项之和作为每个抽样样本数据的成本值。5.根据权利要求1所述的方法,其特征在于,每个元素包括第一元素,所述编码序列包括编码,所述编码序列中所述编码的数量等于每个维度包含的字段数量,每个维度包括至少一个列;其中,对所述目标样本数据中每个维度的每个字段的每个元素进行编码,获得每个元素的编码序列,包括:确定所述第一元素所在列中与所述第一元素相同的目标元素;确定所述...

【专利技术属性】
技术研发人员:郭枝虾张超颖梁宝林王建秀马思聪
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1