当前位置: 首页 > 专利查询>甘桃红专利>正文

智慧大数据可视化处理方法、装置、设备及存储介质制造方法及图纸

技术编号:36086784 阅读:17 留言:0更新日期:2022-12-24 11:02
本发明专利技术涉及数据可视化技术领域,揭露了一种智慧大数据可视化处理方法,包括:获取混合型数据集,将混合型数据集划分为数值型数据以及分类型数据;计算数值型数据之间的数值数据距离及分类型数据之间的分类数据距离;根据数值数据距离及分类数据距离计算混合数据距离,根据混合数据距离计算高维联合概率分布;构建对应的低维数据点集,并计算低维联合概率分布;计算高维联合概率分布与低维联合概率分布之间的相对熵,基于相对熵对所述低维数据点进行优化,得到最优数据点位置,基于最优数据点位置对混合型数据集进行可视化显示。本发明专利技术还提出一种智慧大数据可视化处理装置、电子设备以及存储介质。本发明专利技术可以提高大数据可视化效果。果。果。

【技术实现步骤摘要】
智慧大数据可视化处理方法、装置、设备及存储介质


[0001]本专利技术涉及数据可视化
,尤其涉及一种智慧大数据可视化处理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]现实生活中的大数据通常包含可能对能对决策者有用的隐藏模式,但这些数据通常维度较高。例如,在入侵检测、欺诈检测、医疗分析领域的数据,通常包含数百维。模式识别、图像处理领域的数据通常包含上千个特征,现实数据高维特性的存在带来了计算成本增加维度灾难等问题,不利于对数据的理解分析。
[0003]现有的降维技术主要包括基于特征选择的方法,根据设定的标准选择原始数据特征的子集,以及基于特征变换的方法,通过指定的变换函数将高维数据映射到低维空间,但上述方法都是在数值数据的背景下进行的,然而大多数真实世界的数据集同时包含分类属性和数值属性。例如,信用系统的数据包括年龄、年薪、储蓄金额等数值属性,以及教育背景、职业、婚姻状况等分类属性,未考虑混合型大数据属性间的相互关系,造成数据语义丢失,影响后续的分类聚类等算法的精度和性能,进一步地造成大数据可视化的效果较差。

技术实现思路

[0004]本专利技术提供一种智慧大数据可视化处理方法、装置及计算机可读存储介质,其主要目的在于解决进行数据可视化效果较差的问题。
[0005]为实现上述目的,本专利技术提供的一种智慧大数据可视化处理方法,包括:
[0006]获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
[0007]计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;
[0008]根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;
[0009]构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;
[0010]计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。
[0011]可选地,所述计算所述分类型数据之间的分类数据距离,包括:
[0012]计算所述分类型数据对应的分类属性的信息熵;
[0013]根据所述信息熵计算所述分类属性的距离贡献度;
[0014]利用如下公式计算所述分类属性的距离贡献度:
[0015][0016]其中,所述k为所述分类属性,所述w
k
为所述分类属性距离贡献度,所述H
k
为所述分类属性的信息熵,M2为所述分类型数据的分类属性总数;
[0017]基于所述数据贡献度计算所述分类型数据的分类数据距离;
[0018]利用如下公式计算所述分类型数据的分类数据距离:
[0019][0020]其中,所述i,j为第i,j个分类型数据,所述w
k
为所述分类属性距离贡献度,所述d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,所述x
i,k
为第i个分类型数据的k分类属性,所述x
j,k
为第j个分类型数据的k分类属性。
[0021]可选地,利用如下公式计算所述混合型数据之间的混合数据距离:
[0022][0023]其中,D为混合数据距离,d
e
为数据数值距离,d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,M1为数值型数据的数值属性总数,M2为所述分类型数据的分类属性总数。
[0024]可选地,所述根据所述混合数据距离计算所述混合型数据的高维联合概率分布,包括:
[0025]计算以所述混合型数据为中心的高斯函数方差;
[0026]基于所述高斯函数方差及所述混合数据距离计算所述混合型数据之间的条件概率;
[0027]利用如下公式计算所述混合型数据之间的条件概率:
[0028][0029]其中,所述a b,g为混合型数据,P
a|b
为混合型数据a在混合型数据b下的条件概率,D
ab
为混合型数据a,b之间的混合数据距离,D
ga
为混合型数据a,g之间的混合数据距离,σ为高斯函数方差;
[0030]根据所述条件概率计算所述混合型数据的高维联合概率分布;
[0031]利用如下公式计算所述混合型数据的高维联合概率分布:
[0032][0033]其中,所述P
ab
为高维联合概率分布,P
b|a
为混合型数据b在混合型数据a下的条件概率,n为混合型数据的总数。
[0034]可选地,所述构建与所述混合型数据集对应的低维数据点集,包括:
[0035]随机抓取一个混合型数据作为坐标原点,并将所述坐标原点作为圆心;
[0036]获取预设的圆形半径,基于所述圆心在所述圆形半径内构建数据搜索空间;
[0037]在所述数据搜索空间内随机选取数据点分别与所述混合型数据集中的数据相对应,得到低维数据点集。
[0038]可选地,利用如下公式计算所述混合型数据的低维联合概率分布:
[0039][0040]其中,q
uv
为第u,v个低维数据点之间的低维联合概率分布,y
u
,y
v
为第a,b混合型数据对应的第u,v个低维数据点,y
f
,y
l
为第f,l个低维数据点。
[0041]可选地,所述基于所述相对熵对所述低维联合概率分布进行优化,得到所述低维数据点在低维空间的最优数据点位置,包括:
[0042]根据所述相对熵计算所述低维数据点在所述低维概率分布上的梯度;
[0043]利用如下公式计算所述混合型数据点在所述低维概率分布上的梯度:
[0044][0045]其中,所述C为相对熵,为低维数据点y
u
在所述低维概率分布上的梯度,所述y
u
,y
v
为第u,v个低维数据点,所述p
ab
为高维联合概率分布,所述q
uv
为低维联合概率分布;
[0046]沿着所述梯度方向对所述低维数据点进行迭代修正;
[0047]在所述梯度为零时,得到所述低维数据点在所述低维空间的最优数据点。
[0048]为了解决上述问题,本专利技术还提供一种智慧大数据可视化处理装置,所述装置包括:
[0049]数据划分模块,用于获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;
[0050]数据距离计算模块,用于计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;
[0051]高维联合概率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智慧大数据可视化处理方法,其特征在于,所述方法包括:获取混合型数据集,将所述混合型数据集划分为数值型数据以及分类型数据;计算所述数值型数据之间的数值数据距离,并计算所述分类型数据之间的分类数据距离;根据所述数值数据距离及所述分类数据距离计算所述混合型数据集中每个混合型数据之间的混合数据距离,根据所述混合数据距离计算所述混合型数据的高维联合概率分布;构建与所述混合型数据集对应的低维数据点集,根据所述低维数据点集计算所述混合型数据的低维联合概率分布;计算所述高维联合概率分布与所述低维联合概率分布之间的相对熵,基于所述相对熵对所述低维数据点进行优化,得到所述低维数据点在低维空间的最优数据点位置,基于所述最优数据点位置对所述混合型数据集进行可视化显示。2.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,所述计算所述分类型数据之间的分类数据距离,包括:计算所述分类型数据对应的分类属性的信息熵;根据所述信息熵计算所述分类属性的距离贡献度;利用如下公式计算所述分类属性的距离贡献度:其中,所述k为所述分类属性,所述w
k
为所述分类属性距离贡献度,所述H
k
为所述分类属性的信息熵,M2为所述分类型数据的分类属性总数;基于所述数据贡献度计算所述分类型数据的分类数据距离;利用如下公式计算所述分类型数据的分类数据距离:其中,所述i,j为第i,j个分类型数据,所述w
k
为所述分类属性距离贡献度,所述d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,所述x
i,k
为第i个分类型数据的k分类属性,所述x
j,k
为第j个分类型数据的k分类属性。3.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,利用如下公式计算所述混合型数据之间的混合数据距离:其中,D为混合数据距离,d
e
为数据数值距离,d
ij
为第i个分类数据与第j个分类数据之间的分类数据距离,M1为数值型数据的数值属性总数,M2为所述分类型数据的分类属性总数。4.如权利要求1所述的智慧大数据可视化处理方法,其特征在于,所述根据所述混合数
据距离计算所述混合型数据的高维联合概率分布,包括:计算以所述混合型数据为中心的高斯函数方差;基于所述高斯函数方差及所述混合数据距离计算所述混合型数据之间的条件概率;利用如下公式计算所述混合型数据之间的条件概率:其中,所述ab,g为混合型数据,P
a|b
为混合型数据a在混合型数据b下的条件概率,D
ab
为混合型数据a,b之间的混合数据距离,D
ga
为混合型数据a,g之间的混合数据距离,σ为高斯函数方差;根据所述条件概率计算所述混合型数据的高维联合概率分布;利用如下公式计算所述混合型数据的高维联合概率分布:其中,所述P
ab
为高维联合概率分布,P
b|a
为混合型数据b在混合型数据a下的条件概率,n为混合型数据的...

【专利技术属性】
技术研发人员:甘桃红
申请(专利权)人:甘桃红
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1