一种数据转换方法、装置及数据处理系统制造方法及图纸

技术编号:36352044 阅读:13 留言:0更新日期:2023-01-14 18:07
本发明专利技术提供一种数据转换方法、装置及数据处理系统。所述方法包括:将待转换高维空间数据集A={x

【技术实现步骤摘要】
一种数据转换方法、装置及数据处理系统


[0001]本专利技术属于数据转换
,具体涉及一种数据转换方法、装置及数据处理系统。

技术介绍

[0002]数据转换是将数据从一种形式转换为另一种形式的过程。目前,越来越多的领域需要进行数据转换。随着科学技术的飞速发展和大数据时代的到来,数据规模和复杂性逐渐增加,数据维数通常可达到成百上千维,甚至更多。为了去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,对高维数据进行降维处理也更加必要。
[0003]数据降维是通过某种映射关系,将数据集从高维空间映射到低维空间,提取高维数据的主要特征,从而实现维度简化。可以说,对高维数据进行降维处理是大数据分析与挖掘的基础与前提。因此,如何对数据进行降维处理,以实现维度简化,去除高维度数据中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,成为本领域技术人员关注的热点。

技术实现思路

[0004]为了解决现有技术中存在的上述问题,本专利技术提出一种数据转换方法、装置及数据处理系统。
[0005]为了实现上述目的,本专利技术采用以下技术方案。
[0006]第一方面,本专利技术提供一种数据转换方法,包括以下步骤:
[0007]将待转换高维空间数据集A={x
i
}建模为高斯分布,将转换后的低维空间数据集B={y
i
}建模为t分布,y
i
为x
i
转换后的数据,i=1,2,

,M,M为A、B中的数据个数;
[0008]计算A中任意两个高维空间数据x
i
、x
j
的欧氏距离r(x
i
,x
j
),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小;
[0009]利用加权后的欧氏距离计算高维空间数据x
i
、x
j
的联合分布p
ij
,进而得到低维空间数据y
i
、y
j
的联合分布q
ij

[0010]构建目标优化函数,利用梯度下降法求解低维空间数据y
i
、y
j
的最优解,从而将高维空间数据集A转换为低维空间数据集B。
[0011]进一步地,所述两个高维空间数据x
i
、x
j
的欧氏距离为:
[0012][0013]式中,x
in
、x
jn
分别x
i
、x
j
的第n维分量,n=1,2,

,N,N为高维数据的维度。
[0014]更进一步地,所述加权系数的设定方法包括:
[0015]将所有欧氏距离r(x
i
,x
j
)按照从小到大的顺序排序;
[0016]将排序后的欧氏距离r(x
i
,x
j
)按照从前到后的顺序分成K组,依次为第1组、第2
组、

、第K组;
[0017]为每组的欧氏距离设置一个加权系数a
k
,且a1<a2<

<a
K

[0018]更进一步地,所述两个高维空间数据x
i
、x
j
的联合分布p
ij
为:
[0019][0020][0021][0022]式中,p
j︱i
、p
i︱j
为x
i
、x
j
的相似性条件概率;k1为第k组的第1个欧氏距离对应的x
i
的下标i,s

k为第k组的欧氏距离r
k
(x
i
,x
m
)的数量。
[0023]更进一步地,两个低维空间数据y
i
、y
j
的联合分布q
ij
为:
[0024][0025]式中,r(y
i
,y
j
)为y
i
、y
j
的欧氏距离。
[0026]更进一步地,所述目标优化函数M为:
[0027][0028]式中,KL为K

L散度。
[0029]更进一步地,所述方法在计算r(x
i
,x
j
)之后还包括按下式对r(x
i
,x
j
)进行归一化的步骤:
[0030][0031]式中,为r(x
i
,x
j
)的归一化值,r
min
、r
max
分别为r(x
i
,x
j
)的最小值和最大值。
[0032]更进一步地,所述低维空间数据的维度为2。
[0033]第二方面,本专利技术提供一种数据转换装置,包括:
[0034]数据分布设置模块,用于将待转换高维空间数据集A={x
i
}建模为高斯分布,将转换后的低维空间数据集B={y
i
}建模为t分布,y
i
为x
i
转换后的数据,i=1,2,

,M,M为A、B中的数据个数;
[0035]欧氏距离加权模块,用于计算A中任意两个高维空间数据x
i
、x
j
的欧氏距离r(x
i
,x
j
),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小;
[0036]概率分布计算模块,用于利用加权后的欧氏距离计算高维空间数据x
i
、x
j
的联合分
布p
ij
,进而得到低维空间数据y
i
、y
j
的联合分布q
ij

[0037]低维空间求解模块,用于构建目标优化函数,利用梯度下降法求解低维空间数据y
i
、y
j
的最优解,从而将高维空间数据集A转换为低维空间数据集B。
[0038]进一步地,所述两个高维空间数据x
i
、x
j
的欧氏距离为:
[0039][0040]式中,x
in
、x
jn
分别x
i
、x
j
的第n维分量,n=1,2,

,N,N为高维数据的维度。
[0041]第三方面,本专利技术提供一种数据处理系统,包括第二方面任一实施例所述的装置。
[0042]与现有技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据转换方法,其特征在于,包括以下步骤:将待转换高维空间数据集A={x
i
}建模为高斯分布,将转换后的低维空间数据集B={y
i
}建模为t分布,y
i
为x
i
转换后的数据,i=1,2,

,M,M为A、B中的数据个数;计算A中任意两个高维空间数据x
i
、x
j
的欧氏距离r(x
i
,x
j
),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小;利用加权后的欧氏距离计算高维空间数据x
i
、x
j
的联合分布p
ij
,进而得到低维空间数据y
i
、y
j
的联合分布q
ij
;构建目标优化函数,利用梯度下降法求解低维空间数据y
i
、y
j
的最优解,从而将高维空间数据集A转换为低维空间数据集B。2.根据权利要求1所述的数据转换方法,其特征在于,所述两个高维空间数据x
i
、x
j
的欧氏距离为:式中,x
in
、x
jn
分别x
i
、x
j
的第n维分量,n=1,2,

,N,N为高维数据的维度。3.根据权利要求2所述的数据转换方法,其特征在于,所述加权系数的设定方法包括:将所有欧氏距离r(x
i
,x
j
)按照从小到大的顺序排序;将排序后的欧氏距离r(x
i
,x
j
)按照从前到后的顺序分成K组,依次为第1组、第2组、

、第K组;为每组的欧氏距离设置一个加权系数a
k
,且a1<a2<

<a
K
。4.根据权利要求3所述的数据转换方法,其特征在于,所述两个高维空间数据x
i
、x
j
的联合分布p
ij
为:为:为:式中,p
j︱i
、p
i︱j
为x
i
、x
j
的相似性条件概率;k1为第k组的第1个欧氏距离对应的x
i
的下标i,s<...

【专利技术属性】
技术研发人员:曹瀛
申请(专利权)人:苏州碳氧网络科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1