【技术实现步骤摘要】
智慧大数据可视化处理方法、装置、设备及存储介质
[0001]本专利技术涉及数据可视化
,尤其涉及一种智慧大数据可视化处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]现实生活中的大数据通常包含可能对能对决策者有用的隐藏模式,但这些数据通常维度较高。例如,在入侵检测、欺诈检测、医疗分析领域的数据,通常包含数百维。模式识别、图像处理领域的数据通常包含上千个特征,现实数据高维特性的存在带来了计算成本增加维度灾难等问题,不利于对数据的理解分析。
[0003]现有的降维技术主要包括基于特征选择的方法,根据设定的标准选择原始数据特征的子集,以及基于特征变换的方法,通过指定的变换函数将高维数据映射到低维空间,但上述方法都是在数值数据的背景下进行的,然而大多数真实世界的数据集同时包含分类属性和数值属性。例如,信用系统的数据包括年龄、年薪、储蓄金额等数值属性,以及教育背景、职业、婚姻状况等分类属性,未考虑混合型大数据属性间的相互关系,造成数据语义丢失,影响后续的分类聚类等算法的精度和性能,进一步地造成大数据可视化的效果较差。
技术实现思路
[0004]本专利技术提供一种智慧大数据可视化处理方法、装置及计算机可读存储介质,其主要目的在于解决进行数据可视化效果较差的问题。
[0005]为实现上述目的,本专利技术提供的一种智慧大数据可视化处理方法,包括:
[0006]获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
[0007]计算所述数值型数据之 ...
【技术保护点】
【技术特征摘要】
1.一种智慧大数据可视化处理方法,其特征在于,所述方法包括:获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。2.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,所述计算所述分类型数据之间的分类数据距离,包括:计算所述分类型数据对应的分类属性的信息熵;根据所述信息熵计算所述分类属性的距离贡献度;利用如下公式计算所述分类属性的距离贡献度:其中,所述k为所述分类属性,所述w
k
为所述分类属性距离贡献度,所述H
k
为所述分类属性的信息熵,M2为所述分类型数据的分类属性总数;基于所述数据贡献度计算所述分类型数据的分类数据距离;利用如下公式计算所述分类型数据的分类数据距离:其中,所述i,j为第i,j个分类型数据,所述w
k
为所述分类属性距离贡献度,所述d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,所述x
i,k
为第i个分类型数据的k分类属性,所述x
j,k
为第j个分类型数据的k分类属性。3.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,利用如下公式计算所述混合型数据之间的混合数据距离:其中,D为混合数据距离,d
e
为数据数值距离,d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,M1为数值型数据的数值属性总数,M2为所述分类型数据的分类属性总数。4.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,所述根据所述混合数
据距离计算所述混合型数据的高维联合概率分布,包括:计算以所述混合型数据为中心的高斯函数方差;基于所述高斯函数方差及所述混合数据距离计算所述混合型数据之间的条件概率;利用如下公式计算所述混合型数据之间的条件概率:其中,所述ab,g为混合型数据,P
a|b
为混合型数据a在混合型数据b下的条件概率,D
ab
为混合型数据a,b之间的混合数据距离,D
ga
为混合型数据a,g之间的混合数据距离,σ为高斯函数方差;根据所述条件概率计算所述混合型数据的高维联合概率分布;利用如下公式计算所述混合型数据的高维联合概率分布:其中,所述P
ab
为高维联合概率分布,P
b|a
为混合型数据b在混合型数据a下的条件概率,n为混合型数据的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。