基于改进PCA的云计算网络中高维数据可视化方法技术

技术编号:14468377 阅读:164 留言:0更新日期:2017-01-20 23:44
本发明专利技术公开了一种基于改进PCA的云计算网络中高维数据可视化方法,对云计算网络中高维数据进行标准化处理;包括高维数据特征矩阵的组建和基于高维数据可视化的数据标准化处理优化两部分;在对高维数据可视化过程中,将原始高维数据矩阵中的变量进行标准化处理,给出新的高维数据特征矩阵,将矩阵中的特征值按顺序进行排列,选取方差最大的主成分数据;基于高维数据可视化的数据标准化处理优化中综合考虑主成分贡献率因素和列间的相似度,提出了新的数据列排序方。仿真结果表明,改进方法具有较好的可视化和分类效果,可以很好的实现云计算网络中高维数据标准化处理。

【技术实现步骤摘要】

本专利技术涉及一种基于改进PCA的云计算网络中高维数据可视化方法,属于高维数据标准化处理

技术介绍
目前,随着计算科技技术的飞速发展,高维数据呈现出海量增长的模式。在云计算网络中,大数据是云计算的基础和核心技术,在这些大数据中存在大量的高维数据,但当前人类认知能力具有一定的局限性,无法掌握复杂多变的高维数据中蕴含的深层信息,因此在这种情况下,如何有效地开发处理这些高维数据成为了相关领域亟待解决的主要问题,对高维数据进行可视化是进行高维数据进行标准化处理的前提,决定了标准化处理的效果。而云计算网络中高维数据可视化方法可以对原始高维数据矩阵中的变量进行标准化处理,对转换后的高维数据按行重新组建,完成了云计算网络中高维数据可视化呈现,是解决上述问题的根本途径,引起了很多专家与学者的重视。文献[1]提出了一种基于径向坐标可视化的云计算网络中高维数据可视化方法。该方法先利用最大似然原理估计出云计算网络中高维数据的本征维数,利用较少的变量结合与径向坐标原理相融合,在此基础上对云计算网络中高维数据进行降维可视化处理。该方法较为简单,但是存在方法局限性大的问题。文献[2]提出了一种基于随机森林的云计算网络中高维数据可视化方法。该方法先利用RF进行有监督学习,对高维数据样本间的相似度进行度量,并在低维空间中采用散点图对数据进行可视化,从而完成了对云计算网络中高维数据可视化呈现。该方法鲁棒性较强,但是采用当前算法对数据进行可视化处理时,无法消除高维数据集中包含大量无关信息和冗余信息,存在数据呈现误差大的问题。文献[3]采用了基于SOM的云计算网络中高维数据可视化方法。该方法先将云计算网络中的高维数据映射到三维空间中,利用TDSOM将三维坐标下点集的横坐标、纵坐标和竖坐标三个变量映射在数据集的属性类别中,在此基础上完成了云计算网络中高维数据可视化呈现。该方法可扩展性较强,但是存在难以清晰准确地展现高维数据的缺陷的问题。参考文献:[1]谢永华,王畅,袁复兴.基于线性八叉树光线投射算法在云可视化方面的应用[J].科学技术与工程,2014,14(30):191-195.[2]时钢.基于Mipmap的大规模地形绘制算法与仿真[J].计算机仿真,2015,32(2):270-274.[3]王晶,许志杰.基于时空纹理的实时群体行为检测[J].西安邮电大学学报,2015,20(2):64-76.
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提出一种基于改进PCA的云计算网络中高维数据可视化方法,对云计算网络中高维数据进行标准化处理,仿真结果表明,改进方法具有较好的可视化和分类效果,可以很好的实现云计算网络中高维数据标准化处理。主成分分析(PCA)是一种数学降维的方法,其方法是找出几个综合变量来代替原来众多的变量,使这些综合变量尽可能多地反映原来变量的信息量,而且彼此之间相互独立。技术方案:一种基于改进PCA的云计算网络中高维数据可视化方法,对云计算网络中高维数据进行标准化处理优化;包括高维数据特征矩阵的组建和基于高维数据可视化的数据标准化处理优化两部分。高维数据特征矩阵的组建在对高维数据可视化过程中,将原始高维数据矩阵中的变量进行标准化处理,给出新的高维数据特征矩阵,将矩阵中的特征值按顺序进行排列,选取方差最大的主成分数据。具体的步骤如下详述:假设,由代表云计算网络下原始数据矩阵,将X代表的各变量进行标准化预处理,利用式(5)获取标准化数据矩阵ZZij=xi,j-x‾isi2---(5)]]>式中,xi,j代表第i个高维数据的第j个类别属性,代表第i个高维数据的协方差矩阵,代表第i个高维数据的低维嵌入空间。则利用式(6)和式(7)计算出x‾i=1nΣj=1nxi,j---(6)]]>si2=1n-1Σj=1n|xij-x‾i|2---(7)]]>假设,由C代表协方差矩阵,则利用式(8)计算出CC=1nZTZ---(8)]]>利用雅可比法得到C的特征值矩阵Λ=diag(λ1,λ2,…λm)和特征向量W。将各个数据的特征值依据从大到小顺序排列λ1>λ2>…>λm,并对特征向量列的顺序进行相应的调整,促使第一个主成分具有最大的方差,促使第二个主成分具有次大的方差,而将最小的方差对应第d个主成分。选取方差最大的k个主成分,并促使k个主成分能够保留大部分的原始信息,一般情况下使选取的k个主成分的累积方差贡献大于总方差的85%,即假设,由wi代表选择的k个主成分的特征向量,则利用式(11)得到k个独立的线性组合新变量;ξk=wi×Wd⊕(λ1≥λ2≥...≥λm)---(11)]]>综上所述可以说明,在对高维数据可视化过程中,将原始高维数据矩阵中的变量进行标准化处理,给出新的高维数据特征矩阵,将矩阵中的特征值按顺序进行排列,选取方差最大的主成分数据,为实现对高维数据可视化奠定了基础。基于高维数据可视化的数据标准化处理优化综合考虑主成分贡献率因素和列间的相似度,提出了新的数据列排序方法,主要过程如下:假设,由Y代表主成分转换后的数据矩阵,以获取的ξk为依据,利用式(12)计算出YY=ξkFC⊗Gω*---(12)]]>式中,FC代表不同类别数据的类间分离度,G代表高维空间聚类数据,ω*代表类内聚集度。1.贡献度因子计算首先计算得到的列间的相似度矩阵为S=S11...S1d...SijSn1Snd]]>其中Sij表示第i列与第j列的相似度。则对于第i列,和其他所有列的平均相似度为Ti=Σk=1dSikd]]>Ti可以反映第i列和其他列的相似程度,因此可以定义新的贡献度因子为gi=aiΣk=1dakTi---(13)]]>ai代表贡献度因子权值,该贡献度因子由主成分贡献率因素和列间的相似度的乘积得到,可以更好地反映各列的重要性程度。2.数据排序对gi代表的贡献度因子依据从大到小的顺序排列,而且要相应的调整其对应在Y中列的顺序,假设,由Y′代表调整顺序后的矩阵,则利用式(14)进行表述Y′=...

【技术保护点】
一种基于改进PCA的云计算网络中高维数据可视化方法,其特征在于:对云计算网络中高维数据进行标准化处理优化;包括高维数据特征矩阵的组建和基于高维数据可视化的数据标准化处理优化两部分;高维数据特征矩阵的组建在对高维数据可视化过程中,将原始高维数据矩阵中的变量进行标准化处理,给出新的高维数据特征矩阵,将矩阵中的特征值按顺序进行排列,选取方差最大的主成分数据;基于高维数据可视化的数据标准化处理优化综合考虑主成分贡献率因素和列间的相似度,提出了新的数据列排序方法。

【技术特征摘要】
1.一种基于改进PCA的云计算网络中高维数据可视化方法,其特征在于:对云计算网络中高维数据进行标准化处理优化;包括高维数据特征矩阵的组建和基于高维数据可视化的数据标准化处理优化两部分;高维数据特征矩阵的组建在对高维数据可视化过程中,将原始高维数据矩阵中的变量进行标准化处理,给出新的高维数据特征矩阵,将矩阵中的特征值按顺序进行排列,选取方差最大的主成分数据;基于高维数据可视化的数据标准化处理优化综合考虑主成分贡献率因素和列间的相似度,提出了新的数据列排序方法。2.如权利要求1所述的基于改进PCA的云计算网络中高维数据可视化方法,其特征在于:高维数据特征矩阵的组建,具体的步骤如下详述:假设,由代表云计算网络下原始数据矩阵,将X代表的各变量进行标准化预处理,利用式(5)获取标准化数据矩阵ZZi,j=xi,j-xi‾si2---(5)]]>式中,xi,j代表第i个高维数据的第j个类别属性,代表第i个高维数据的协方差矩阵,代表第i个高维数据的低维嵌入空间;则利用式(6)和式(7)计算出x‾i=1nΣj=1nxi,j---(6)]]>si2=1n-1Σj=1n|xij-x‾i|2---(7)]]>假设,由C代表协方差矩阵,则利用式(8)计算出CC=1nZTZ---(8)]]>利用雅可比法得到C的特征值矩阵Λ=diag(λ1,λ2,...λm)和特征向量W;将各个数据的特征值依据从大到小顺序排列λ1>λ2>…>λm,并对特征向量列的顺序进行相应的调整,促使第一个主成分具有最大的方差,促使第二个主成分具有次大的方差,而将最小的方差对应第d个主成分;选取方差最大...

【专利技术属性】
技术研发人员:顾爱华李树军
申请(专利权)人:盐城师范学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1