基于邻域相似度的数据降维方法技术

技术编号:11545748 阅读:115 留言:0更新日期:2015-06-03 19:11
本发明专利技术公开了一种基于邻域相似度的数据降维方法,主要解决现有方法仅用欧氏距离来衡量样本邻域结构从而导致数据结构不均衡时识别结果不理想的问题。其实现步骤是:(1)输入数据并归一化,随机初始化基矩阵和系数矩阵;(2)计算样本的对角协方差矩阵;(3)由对角协方差矩阵计算KL离散度;(4)由KL离散度计算邻域样本相似度;(5)计算样本的邻域类标分布矩阵;(6)由邻域类标分布矩阵计算邻域类标相似度;(7)由邻域样本相似度和邻域类标相似度计算邻域相似度;(8)根据邻域相似度应用于迭代准则,得到降维后的基矩阵和系数矩阵。本发明专利技术准确率高,能有效地对数据进行特征提取与降维,可用于数据与图像处理。

【技术实现步骤摘要】
基于邻域相似度的数据降维方法
本专利技术属于数据处理
,特别涉及一种数据降维方法,可用于数据与计算机图像识别。
技术介绍
近年来科学技术的飞速发展使得原始数据的数量增多和可用性增强以爆炸的速度发生。随着传感器和计算机技术的发展,出现了越来越多可用的原始数据,如何从如此海量的数据中提取出有用的信息成为人们非常关注的焦点。数据降维是机器学习的一个重要研究领域。通过适当的降维技术来获取一种有效的表示方式,在多元数据分析中已经成为一个重要的、必要的和具有挑战性的问题。降维应该满足两个基本性质:第一,原始数据的尺寸应该减小;第二,找出并保留数据的主成分、隐藏的概念、突出的特性或潜在的变量,使得降维后的数据能有效地用于识别。在许多情况下,原始数据集或观察数据会被构成数据矩阵或张量,会被描述为线性或多重线性组合模型,所以,从代数的角度来看,降维可以被看做:将原始数据矩阵分解为两个因子矩阵。经典的降维方法,如主成分分析PCA,线性判别分析LDA,独立分量分析ICA,矢量量化VQ等都是一些低秩近似的范本。这些方法的统计特性各不相同,是因为它们对因子矩阵及其底层结构有不同的约束条件,它们也有一些共性:对因子矩阵中的元素没有任何约束。换句话说,在这些方法中,允许出现负数因子矩阵和减法运算。相比之下,非负矩阵分解NMF,它包含非负约束,具有局部表示特性,同时加强了相应问题的可解释性。这种方法及模型最早由Paatero和Tapper提出,在Lee和Seung之后引起了广泛的关注。非负矩阵分解有两个互补的优点——非负约束和加性结合。一方面,在现实世界的许多种数据,如图像、光谱和基因数据的分析任务中,不管是表面还是潜在的结构,负值都是缺乏物理意义的。而原型通常都与特定的语义解释相对应。例如在人脸识别中,基图像通常是局部的而非整体的,类似人脸的一部分,如眼睛、鼻子、嘴巴或脸颊。另一方面,人们最感兴趣的地方自然是构成物体的局部特点,加性结合意味着这些感兴趣的局部可以组装在一起拼凑出整体。于是NMF在真实环境的场景和任务中取得了极大的成功。如在文本聚类中,不管是在提高精度还是在潜在语义识别上,NMF已经超越了谱聚类等经典的方法。目前,NMF已经成功地应用于人脸识别、文本挖掘聚类、社区发现、基因数据分析等问题中。蔡登等人于2011年提出了图正则非负矩阵分解GNMF方法。在GNMF中作者构造了一个近邻图来表示样本的几何信息,要在矩阵分解的过程中保持这种几何结构。该方法是建立在局部不变性假设的基础上的:如果两个数据点的内在几何分布是紧密的,则这两个点在新基下的映射也应当是彼此靠近。这个假设在降维算法和流形学习理论中扮演着重要的角色。李子青等人为了学习视觉模型的局部子空间表示提出了一种局部非负矩阵分解方法LNMF。它在标准NMF的非负约束的基础上在目标函数中添加了局部约束:(1)基向量个数应尽可能的少,(2)为了使不同基向量间的冗余最小,不同的基向量应当尽可能的正交,(3)应当只保留包含重要信息的成分。上述LNMF与GNMF这两种方法存在的共同缺点是,仅采用欧氏距离来衡量样本邻域结构,其对距离相等但密度不同及类别分布不均匀的邻域结构不能合理的描述和保持结构信息,导致降维后数据的分类识别效果不理想。
技术实现思路
本专利技术的目的地在于针对上述已有技术的不足,提出一种基于邻域相似度的数据降维方法,以在数据结构分布不均衡的情况下,有效地实现了对数据的特征提取及降维,提高分类识别效果。本专利技术的技术思路是:通过在非负矩阵分解中引入邻域样本相似度和邻域类标相似度,对于邻域结构相似和类标分布相似的样本点,其分解所得的系数矩阵的约束项被赋予较高的权值,以此兼顾样本密度和类别分布不均衡的情况,同时考虑基向量的正交性,有效地实现对数据的特征提取及降维。本专利技术的技术方案包括如下步骤:(1)输入n=F×P幅原始图像,并对这些图像进行校准和对齐,裁剪为相同尺寸,其中F为原始图像类别数,P为每一类图像的张数;(2)将每幅图像像素点的灰度特征值按列取出并顺序排列形成一个m维列向量,组成一个m×n的矩阵,对该矩阵的每一列进行归一化,得到原始矩阵X;(3)对原始矩阵X进行基于邻域相似度的非负矩阵分解得到基矩阵U和系数矩阵V:(3.1)选取特征维数r=3×F,随机非负初始化基矩阵U的大小为m×r和系数矩阵V的大小为r×n;(3.2)将原始矩阵X的每一列为一个样本点,计算每个样本点xi与其近邻点xj间的邻域样本相似度ws(xi,xj);(3.3)计算每个样本点xi与其近邻点xj间的邻域类标相似度wl(xi,xj);(3.4)计算每个样本点xi与其近邻点xj间的邻域相似度w(xi,xj)以w(xi,xj)作为邻域相似度矩阵W的第(i,j)项元素,构成邻域相似度矩阵W;(3.5)根据邻域相似度矩阵W计算拉普拉斯矩阵L=D-W,D为对角矩阵,该对角矩阵的第j行第j列元素本专利技术与现有技术对比,具有如下优点:第一,本专利技术通过引入邻域协方差矩阵来计算邻域样本相似度,对于邻域结构相似的样本点,其分解所得的系数矩阵的约束项被赋予较高的权值,克服了已有权值计算方法在距离相等密度不同时的不合理性,更好地适应了样本密度不均衡的情况。第二,本专利技术在考虑邻域样本相似度的基础上,根据邻域样本的已知类标信息构建邻域类标分布矩阵,这样组合得到的邻域相似度有效地兼顾了数据类别分布不均衡的情况,提高了识别性能。第三,本专利技术考虑了基向量的正交性,通过使基向量个数尽可能少,不同基向量尽可能正交,在一定程度上避免了信息冗余,提升了降维的性能。附图说明图1为本专利技术的实现流程图;图2为本专利技术使用的ORL人脸库的图像样本;图3为本专利技术与现有三种方法在ORL人脸库中的聚类准确率随类数变化曲线;图4为本专利技术与现有三种方法在ORL人脸库中的归一化互信息随类数变化曲线;图5为本专利技术使用的Yale人脸库的图像样本;图6为本专利技术与现有三种方法在Yale人脸库中的聚类准确率随类数变化曲线;图7为本专利技术与现有三种方法在Yale人脸库中的归一化互信息随类数变化曲线;图8为实测雷达辐射源信号中6类样本的模糊函数切片特征;图9为本专利技术与现有三种方法在雷达辐射源信号中的聚类准确率随类数变化曲线;图10为本专利技术与现有三种方法在雷达辐射源信号中的归一化互信息随类数变化曲线。具体实施方式下面结合附图对本专利技术的具体实施步骤和效果做进一步的详细描述。参照图1,本专利技术的实现步骤如下:步骤1.输入原始图像。输入n=F×P幅原始图像,并对这些图像进行校准和对齐,裁剪为大小相同的尺寸,其中F为原始图像类别数,P为每一类图像的张数。步骤2.利用原始图像得到原始矩阵X。将每幅原始图像像素点的灰度特征值按列取出,并顺序排列形成一个m维列向量,组成一个m×n的矩阵X',对矩阵X'的每一列进行归一化,归一化是让矩阵X'的每一列各元素的和等于1,即:其中,v'j是矩阵X'的第j列向量,x'i是列向量v'j第i个元素,vj是归一化后矩阵X的第j列,j=1,2…,n;将归一化后的列向量vj按顺序排列构成原始矩阵X,即X={v1,…,vj}。步骤3.对原始矩阵X进行基于邻域相似度的非负矩阵分解,得到基矩阵U和系数矩阵V。(3.1)随机初始化非负基矩阵U和系数矩阵V:实验中在不同本文档来自技高网
...
基于邻域相似度的数据降维方法

【技术保护点】
一种基于邻域相似度的数据降维方法,包括如下步骤:(1)输入n=F×P幅原始图像,并对这些图像进行校准和对齐,裁剪为相同尺寸,其中F为原始图像类别数,P为每一类图像的张数;(2)将每幅图像像素点的灰度特征值按列取出并顺序排列形成一个m维列向量,组成一个m×n的矩阵,对该矩阵的每一列进行归一化,得到原始矩阵X;(3)对原始矩阵X进行基于邻域相似度的非负矩阵分解得到基矩阵U和系数矩阵V:(3.1)选取特征维数r=3×F,随机非负初始化基矩阵U的大小为m×r和系数矩阵V的大小为r×n;(3.2)将原始矩阵X的每一列为一个样本点,计算每个样本点xi与其近邻点xj间的邻域样本相似度ws(xi,xj);(3.3)计算每个样本点xi与其近邻点xj间的邻域类标相似度wl(xi,xj);(3.4)计算每个样本点xi与其近邻点xj间的邻域相似度w(xi,xj)以w(xi,xj)作为邻域相似度矩阵W的第(i,j)项元素,构成邻域相似度矩阵W;(3.5)根据邻域相似度矩阵W计算拉普拉斯矩阵L=D‑W,D为对角矩阵,该对角矩阵的第j行第j列元素(3.6)通过乘法法则更新,利用公式V=V·*UTX+λVL-UTUV+λVL+,U=U·*XVTUVVT+γU1]]>迭代求解系数矩阵V和基矩阵U,达到预设最大迭代次数后退出循环,得到r×n的系数矩阵V,r<<m,实现对原始矩阵X的降维,其中,.*表示矩阵按元素项相乘,1∈Rr×r是全部元素为1的矩阵,λ是系数矩阵V的非负正则化系数,γ是基矩阵U的非负正则化系数,L+=(abs(L)+L)/2,L‑=(abs(L)‑L)/2,abs(L)表示对拉普拉斯矩阵L的所有元素计算绝对值。...

【技术特征摘要】
1.一种基于邻域相似度的数据降维方法,包括如下步骤:(1)输入n=F×P幅原始图像,并对这些图像进行校准和对齐,裁剪为相同尺寸,其中F为原始图像类别数,P为每一类图像的张数;(2)将每幅图像像素点的灰度特征值按列取出并顺序排列形成一个m维列向量,组成一个m×n的矩阵,对该矩阵的每一列进行归一化,得到原始矩阵X;(3)对原始矩阵X进行基于邻域相似度的非负矩阵分解得到基矩阵U和系数矩阵V:(3.1)选取特征维数r=3×F,随机非负初始化基矩阵U的大小为m×r和系数矩阵V的大小为r×n;(3.2)将原始矩阵X的每一列为一个样本点,计算每个样本点xi与其近邻点xj间的邻域样本相似度ws(xi,xj);(3.3)计算每个样本点xi与其近邻点xj间的邻域类标相似度wl(xi,xj);(3.4)计算每个样本点xi与其近邻点xj间的邻域相似度w(xi,xj)以w(xi,xj)作为邻域相似度矩阵W的第(i,j)项元素,构成邻域相似度矩阵W;(3.5)根据邻域相似度矩阵W计算拉普拉斯矩阵L=D-W,D为对角矩阵,该对角矩阵的第j行第j列元素Djj=∑lwjl;(3.6)通过乘法法则更新,利用公式迭代求解系数矩阵V和基矩阵U,达到预设最大迭代次数后退出循环,得到r×n的系数矩阵V,r<<m,实现对原始矩阵X的降维,其中,.*表示矩阵按元素项相乘,1∈Rr×r是全部元素为1的矩阵,λ是系数矩阵V的非负正则化系数,γ是基矩阵U的非负正则化系数,L+=(abs(L)+L)/2,L-=(abs(L)-L)/2,abs(...

【专利技术属性】
技术研发人员:王磊姬红兵范笑宇王家俊张文博
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1