一种数据降维方法技术

技术编号:20074917 阅读:42 留言:0更新日期:2019-01-15 00:35
本发明专利技术公开了一种数据降维方法,包括:对高维数据进行预处理得到高维数据集,并选取核函数;构建基于核主成分分析的全局目标函数,并求解核函数矩阵;自适应调整邻域参数值,采用局部保持投影法构建局部目标函数;确定平衡因子值以平衡所述全局目标函数和所述局部目标函数,并将所述全局目标函数和所述局部目标函数结合为总体目标函数;确定主成分个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集。本发明专利技术实施例提供的数据降维方法,基于核主成分分析和局部保持投影法,可以去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率。

A Data Dimension Reduction Method

The invention discloses a data dimension reduction method, which includes: preprocessing high-dimensional data to obtain high-dimensional data sets and selecting the kernel function; constructing the global objective function based on the kernel principal component analysis and solving the kernel function matrix; adaptively adjusting the neighborhood parameter values, using the local preserving projection method to construct the local objective function; and determining the balance factor values to balance the global objective function. The number of principal components and the projection matrix are determined, and the projection matrix is multiplied by the projection matrix and the high-dimensional data set to obtain the low-dimensional data set. The data dimension reduction method provided by the embodiment of the present invention can remove noise and redundant information in high-dimensional data sets, reduce unnecessary operation process in data mining and improve the operation efficiency of the algorithm based on the method of Kernel Principal Component Analysis and Local Preservation Projection.

【技术实现步骤摘要】
一种数据降维方法
本专利技术涉及数据处理
,尤其涉及一种数据降维方法。
技术介绍
随着电力通信网的蓬勃发展,电力通信数据的体量越来越大。传统的数据处理方式已经无法对海量数据进行有效的分析。与此同时,随着电力通信网、大数据处理和云计算所产生的数据维度不断增加,为了去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,对高维数据进行降维处理也更加必要。数据降维通过某种映射关系,将数据集从高维空间映射到低维空间,提取高维数据的主要特征,从而实现维度简化。可以说,对高维数据进行降维处理是大数据分析与挖掘的基础与前提。因此,如何研究出一种数据降维方法,以实现维度简化,去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,成为本领域技术人员所要研究的课题。
技术实现思路
本专利技术的目的在于提供一种数据降维方法,以去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率。为达此目的,本专利技术采用以下技术方案:一种数据降维方法,包括:对高维数据进行预处理得到高维数据集,并选取核函数;构建基于核主成分分析的全局目标函数,并求解核函数矩阵;自适应调整邻域参数值,采用局部保持投影法构建局部目标函数;确定平衡因子值以平衡所述全局目标函数和所述局部目标函数,并将所述全局目标函数和所述局部目标函数结合为总体目标函数;确定主成分个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集。可选的,所述对高维数据进行预处理得到高维数据集,并选取核函数的步骤包括:对所述高维数据进行z-score标准化,得到高维数据集XT,XT=[x1,x2,…xn]∈Rm*n,其中,m为数据集的维度,n为数据样本个数;选取高斯径向基函数作为所述核函数,所述高斯径向基函数为可选的,所述构建基于核主成分分析的全局目标函数,并求解核函数矩阵的步骤包括:构建所述全局目标函数其中φ(X)T=[φ(x1),φ(x2),…,φ(xn)],vTv=1,v为投影向量;其中,所述投影向量v在特征点φ(xi)的展开方向上存在一个向量u=(u1,u2,…,un)T,满足方程式引入核函数k(xi,xj)=φ(xi)·φ(xj),得到全局目标函数Jglobal(u)=maxuTKTKu=maxuTCu其中,K为所述核函数矩阵,所述核函数矩阵uTKu=1u。可选的,所述自适应调整邻域参数值,使用局部保持投影法构建局部目标函数的步骤包括:利用Parzen窗计算数据点的密度分布来自适应调整邻域参数ε,其中,所述Parzen窗的概率密度计算式n为数据样本个数,h为窗体宽度,V=hm为窗体体积,φ(x)为窗函数,且满足φ(x)≥0;以余弦角距离计算式作为相似度函数、以正态窗函数作为所述窗函数φ(x),则数据点xi的邻域概率密度根据所述邻域概率密度p(xi),并通过自适应调整所述邻域参数ε,其中,数据集分布的平均密度通过自适应的所述邻域参数ε,可以确定数据的邻域关系为||φ(xi)-φ(xj)||2≤ε,则得到所述局部目标函数Jlocal(v)=min(vTφ(X)T(D-S)φ(X)v),其中,sij为权重参数,S为邻域图权重矩阵,D为对角矩阵;通过引入核函数k(xi,xj)=φ(xi)·φ(xj),存在一个向量u,u=(u1,u2,…,un)T,满足方程式则所述局部目标函数转换为Jlocal(u)=min(uTKTLKu)=min(uTL'u),其中,矩阵L=D-S为拉普拉斯矩阵。可选的,所述确定平衡因子值以平衡所述全局目标函数和所述局部目标函数,并将所述全局目标函数和所述局部目标函数结合为总体目标函数的步骤包括:令平衡因子为η,则所述总体目标函数J(u)=η·Jglobal(u)+(η-1)·Jlocal(u)=max(uT(ηC+(η-1)L')u),其中η≤ρ(L')/(ρ(C)+ρ(L')),ρ(C)为矩阵C的最大特征值,ρ(L')为矩阵L'的最大特征值;采用搜索优化算法以确定平衡因子η的最佳取值。可选的,所述确定主成分个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集的步骤包括:在确定所述平衡因子η的值后,并在约束条件uTKu=1下,利用拉格朗日乘子法求解投影向量u,最大化L(u)=uTMu-λ(uTKu-1),使得L(u)对u的偏导数为零,得到Mu=λKu;求解Mu=λKu的广义特征值,得到特征值λ1,λ2,…,λn,使其降序排列,然后得到特征值对应的特征向量u1,u2,…,un,进而得到特征矩阵U=[u1,u2,…,un],其中,选取最大的k个特征值λ1,λ2,…,λk对应的特征向量u1,u2,…,un构成投影矩阵U'=[u1,u2,…,uk],将高维数据集XT与投影矩阵U'相乘,即得到降维后的低维数据集。与现有技术相比,本专利技术实施例具有以下有益效果:本专利技术实施例提供的数据降维方法,基于核主成分分析和局部保持投影法,可以去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的一种数据降维方法的方法流程图。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1所示,本实施例提供了一种一种数据降维方法,具体包括以下步骤:步骤S1:对高维数据进行预处理得到高维数据集,选择核函数;步骤S2:构建基于核主成分分析的全局目标函数,求解核函数矩阵;步骤S3:自适应调整邻域参数值,采用局部保持投影法构建局部目标函数;步骤S4:确定平衡因子值,将所述全局目标函数和所述局部目标函数结合为总体目标函数;步骤S5:确定主成分个数与投影矩阵,并将所述高维数据集投影到低维数据集。具体的,步骤S1包括对所述高维数据进行z-score标准化,得到高维数据集XT=[x1,x2,…xn]∈Rm*n,m为数据集的维度,n为数据样本个数。需要说明的是,z-score也叫z分数或标准分数,z分数的方程式为其中,μ为数据的均值,σ为数据的标准差。高维数据的标准化过程为,将所有数据标准化为均值为0,方差为1的概率分布。进一步的,选取核函数。核函数有线性核函数、P介多项式核函数、高斯径向基函数以及多层感知器核函数。本实施例中,选取高斯径向基函数作为核函数,其表达式为具体的,步骤S2包括:对于高维数据集XT,全局目标函数Jglobal(v)的目的是在高维特征空间中寻找多个投影向量v,来使得投影后的yi=φ(xi)T·v的方差最大化。其中,i=1,2,…,n,则yi表示投影后第i个向量对应的一维数据。因此本文档来自技高网...

【技术保护点】
1.一种数据降维方法,其特征在于,包括:对高维数据进行预处理得到高维数据集,并选取核函数;构建基于核主成分分析的全局目标函数,并求解核函数矩阵;自适应调整邻域参数值,采用局部保持投影法构建局部目标函数;确定平衡因子值以平衡所述全局目标函数和所述局部目标函数,并将所述全局目标函数和所述局部目标函数结合为总体目标函数;确定主成分个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集。

【技术特征摘要】
1.一种数据降维方法,其特征在于,包括:对高维数据进行预处理得到高维数据集,并选取核函数;构建基于核主成分分析的全局目标函数,并求解核函数矩阵;自适应调整邻域参数值,采用局部保持投影法构建局部目标函数;确定平衡因子值以平衡所述全局目标函数和所述局部目标函数,并将所述全局目标函数和所述局部目标函数结合为总体目标函数;确定主成分个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集。2.根据权利要求1所述的数据降维方法,其特征在于,所述对高维数据进行预处理得到高维数据集,并选取核函数的步骤包括:对所述高维数据进行z-score标准化,得到高维数据集XT,XT=[x1,x2,…xn]∈Rm*n,其中,m为数据集的维度,n为数据样本个数;选取高斯径向基函数作为所述核函数,所述高斯径向基函数为3.根据权利要求2所述的数据降维方法,其特征在于,所述构建基于核主成分分析的全局目标函数,并求解核函数矩阵的步骤包括:构建所述全局目标函数其中φ(X)T=[φ(x1),φ(x2),…,φ(xn)],vTv=1,v为投影向量;其中,所述投影向量v在特征点φ(xi)的展开方向上存在一个向量u=(u1,u2,…,un)T,满足方程式引入核函数k(xi,xj)=φ(xi)·φ(xj),得到全局目标函数Jglobal(u)=maxuTKTKu=maxuTCu其中,K为所述核函数矩阵,所述核函数矩阵uTKu=1u。4.根据权利要求3所述的数据降维方法,其特征在于,所述自适应调整邻域参数值,使用局部保持投影法构建局部目标函数的步骤包括:利用Parzen窗计算数据点的密度分布来自适应调整邻域参数ε,其中,所述Parzen窗的概率密度计算式n为数据样本个数,h为窗体宽度,V=hm为窗体体积,φ(x)为窗函数,且满足φ(x)≥0;以余弦角距离计算式作为相似度函数、以正态窗函数作为所述窗函数φ(x),则数据点xi的邻域概率密度根据所述邻域概率密度p(xi),并通过自适应调整所述...

【专利技术属性】
技术研发人员:李星南曾瑛林斌付佳佳施展吴赞红
申请(专利权)人:广东电网有限责任公司广东电网有限责任公司电力调度控制中心
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1