The invention discloses a data dimension reduction method, which includes: preprocessing high-dimensional data to obtain high-dimensional data sets and selecting the kernel function; constructing the global objective function based on the kernel principal component analysis and solving the kernel function matrix; adaptively adjusting the neighborhood parameter values, using the local preserving projection method to construct the local objective function; and determining the balance factor values to balance the global objective function. The number of principal components and the projection matrix are determined, and the projection matrix is multiplied by the projection matrix and the high-dimensional data set to obtain the low-dimensional data set. The data dimension reduction method provided by the embodiment of the present invention can remove noise and redundant information in high-dimensional data sets, reduce unnecessary operation process in data mining and improve the operation efficiency of the algorithm based on the method of Kernel Principal Component Analysis and Local Preservation Projection.
【技术实现步骤摘要】
一种数据降维方法
本专利技术涉及数据处理
,尤其涉及一种数据降维方法。
技术介绍
随着电力通信网的蓬勃发展,电力通信数据的体量越来越大。传统的数据处理方式已经无法对海量数据进行有效的分析。与此同时,随着电力通信网、大数据处理和云计算所产生的数据维度不断增加,为了去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,对高维数据进行降维处理也更加必要。数据降维通过某种映射关系,将数据集从高维空间映射到低维空间,提取高维数据的主要特征,从而实现维度简化。可以说,对高维数据进行降维处理是大数据分析与挖掘的基础与前提。因此,如何研究出一种数据降维方法,以实现维度简化,去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率,成为本领域技术人员所要研究的课题。
技术实现思路
本专利技术的目的在于提供一种数据降维方法,以去除高维度数据集中的噪声和冗余信息,减少数据挖掘中不必要的运算过程,提高算法的运行效率。为达此目的,本专利技术采用以下技术方案:一种数据降维方法,包括:对高维数据进行预处理得到高维数据集,并选取核函数;构建基于核主成分分析的全局目标函数,并求解核函数矩阵;自适应调整邻域参数值,采用局部保持投影法构建局部目标函数;确定平衡因子值以平衡所述全局目标函数和所述局部目标函数,并将所述全局目标函数和所述局部目标函数结合为总体目标函数;确定主成分个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集。可选的,所述对高维数据进行预处理得到高维数据集,并选取核函数的步骤包括:对所述高维数据进行z ...
【技术保护点】
1.一种数据降维方法,其特征在于,包括:对高维数据进行预处理得到高维数据集,并选取核函数;构建基于核主成分分析的全局目标函数,并求解核函数矩阵;自适应调整邻域参数值,采用局部保持投影法构建局部目标函数;确定平衡因子值以平衡所述全局目标函数和所述局部目标函数,并将所述全局目标函数和所述局部目标函数结合为总体目标函数;确定主成分个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集。
【技术特征摘要】
1.一种数据降维方法,其特征在于,包括:对高维数据进行预处理得到高维数据集,并选取核函数;构建基于核主成分分析的全局目标函数,并求解核函数矩阵;自适应调整邻域参数值,采用局部保持投影法构建局部目标函数;确定平衡因子值以平衡所述全局目标函数和所述局部目标函数,并将所述全局目标函数和所述局部目标函数结合为总体目标函数;确定主成分个数与投影矩阵,将所述投影矩阵与所述高维数据集相乘得到低维数据集。2.根据权利要求1所述的数据降维方法,其特征在于,所述对高维数据进行预处理得到高维数据集,并选取核函数的步骤包括:对所述高维数据进行z-score标准化,得到高维数据集XT,XT=[x1,x2,…xn]∈Rm*n,其中,m为数据集的维度,n为数据样本个数;选取高斯径向基函数作为所述核函数,所述高斯径向基函数为3.根据权利要求2所述的数据降维方法,其特征在于,所述构建基于核主成分分析的全局目标函数,并求解核函数矩阵的步骤包括:构建所述全局目标函数其中φ(X)T=[φ(x1),φ(x2),…,φ(xn)],vTv=1,v为投影向量;其中,所述投影向量v在特征点φ(xi)的展开方向上存在一个向量u=(u1,u2,…,un)T,满足方程式引入核函数k(xi,xj)=φ(xi)·φ(xj),得到全局目标函数Jglobal(u)=maxuTKTKu=maxuTCu其中,K为所述核函数矩阵,所述核函数矩阵uTKu=1u。4.根据权利要求3所述的数据降维方法,其特征在于,所述自适应调整邻域参数值,使用局部保持投影法构建局部目标函数的步骤包括:利用Parzen窗计算数据点的密度分布来自适应调整邻域参数ε,其中,所述Parzen窗的概率密度计算式n为数据样本个数,h为窗体宽度,V=hm为窗体体积,φ(x)为窗函数,且满足φ(x)≥0;以余弦角距离计算式作为相似度函数、以正态窗函数作为所述窗函数φ(x),则数据点xi的邻域概率密度根据所述邻域概率密度p(xi),并通过自适应调整所述...
【专利技术属性】
技术研发人员:李星南,曾瑛,林斌,付佳佳,施展,吴赞红,
申请(专利权)人:广东电网有限责任公司,广东电网有限责任公司电力调度控制中心,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。