【技术实现步骤摘要】
一种数据转换方法、装置及数据处理系统
[0001]本专利技术属于数据转换
,具体涉及一种数据转换方法、装置及数据处理系统。
技术介绍
[0002]数据转换是将数据从一种形式转换为另一种形式的过程。目前,越来越多的领域需要进行数据转换。随着科学技术的飞速发展和大数据时代的到来,数据规模和复杂性逐渐增加,数据维数通常可达到成百上千维,甚至更多。为了去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,对高维数据进行降维处理也更加必要。
[0003]数据降维是通过某种映射关系,将数据集从高维空间映射到低维空间,提取高维数据的主要特征,从而实现维度简化。可以说,对高维数据进行降维处理是大数据分析与挖掘的基础与前提。因此,如何对数据进行降维处理,以实现维度简化,去除高维度数据中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,成为本领域技术人员关注的热点。
技术实现思路
[0004]为了解决现有技术中存在的上述问题,本专利技术提出一种数据转换方法、装置及数据处理系统。
[0005]为了实现上述目的,本专利技术采用以下技术方案。
[0006]第一方面,本专利技术提供一种数据转换方法,包括以下步骤:
[0007]将待转换高维空间数据集A={x
i
}建模为高斯分布,将转换后的低维空间数据集B={y
i
}建模为t分布,y
i
为x
i
转换后的数据,i=1,2, ...
【技术保护点】
【技术特征摘要】
1.一种数据转换方法,其特征在于,包括以下步骤:将待转换高维空间数据集A={x
i
}建模为高斯分布,将转换后的低维空间数据集B={y
i
}建模为t分布,y
i
为x
i
转换后的数据,i=1,2,
…
,M,M为A、B中的数据个数;计算A中任意两个高维空间数据x
i
、x
j
的欧氏距离r(x
i
,x
j
),并对每个欧氏距离进行加权,欧氏距离越小,加权系数越小;利用加权后的欧氏距离计算高维空间数据x
i
、x
j
的联合分布p
ij
,进而得到低维空间数据y
i
、y
j
的联合分布q
ij
;构建目标优化函数,利用梯度下降法求解低维空间数据y
i
、y
j
的最优解,从而将高维空间数据集A转换为低维空间数据集B。2.根据权利要求1所述的数据转换方法,其特征在于,所述两个高维空间数据x
i
、x
j
的欧氏距离为:式中,x
in
、x
jn
分别x
i
、x
j
的第n维分量,n=1,2,
…
,N,N为高维数据的维度。3.根据权利要求2所述的数据转换方法,其特征在于,所述加权系数的设定方法包括:将所有欧氏距离r(x
i
,x
j
)按照从小到大的顺序排序;将排序后的欧氏距离r(x
i
,x
j
)按照从前到后的顺序分成K组,依次为第1组、第2组、
…
、第K组;为每组的欧氏距离设置一个加权系数a
k
,且a1<a2<
…
<a
K
。4.根据权利要求3所述的数据转换方法,其特征在于,所述两个高维空间数据x
i
、x
j
的联合分布p
ij
为:为:为:式中,p
j︱i
、p
i︱j
为x
i
、x
j
的相似性条件概率;k1为第k组的第1个欧氏距离对应的x
i
的下标i,s<...
【专利技术属性】
技术研发人员:曹瀛,
申请(专利权)人:苏州碳氧网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。