一种基于噪声数据的正则化局部切空间对齐算法制造技术

技术编号:32653502 阅读:20 留言:0更新日期:2022-03-17 11:00
本文提出了一种基于噪声数据集改进的局部切空间对齐算法。对于噪声样本集,首先确定每个样本的邻域空间,基于欧式距离确定样本最近的几个样本。然后基于已知的样本邻域优化添加截断核范数后的目标式,得到近似低秩矩阵,分解近似低秩矩阵得到邻域样本的切空间坐标表示。最后对齐邻域样本切空间坐标,构造ψ矩阵,并对ψ进行特征值分解,全局低维坐标表示即为前d个最小的非0特征值对应的特征向量。实验证明,改进的局部切空间对齐算法相比较于局部切空间对齐算法在噪声的干扰下,有更有效的流形结构学习能力。在人造数据集上表现出良好的可视化效果,在真实图像数据集上分类准确性提升50%。提升50%。提升50%。

【技术实现步骤摘要】
一种基于噪声数据的正则化局部切空间对齐算法


[0001]本专利技术主要涉及数据降维处理技术,具体涉及一种基于流形学习的局部切空间对齐算法。

技术介绍

[0002]在传统的模式识别过程中,高维度数据通常伴随着样本矩阵高稀疏以及距离计算困难的缺点,导致模式识别过程无法收敛以及识别率低。降维是高维数据在数据预处理阶段的一个关键步骤。众多的特征降维方法主要分为线性和非线性降维方法,它们共同的目的都是为了压缩数据集大小以加快模型学习速度,以及提炼或生成出数据模式中有用的变量维度。
[0003]PCA是机器学习中一种使用范围较广的基于特征向量的无监督线性降维方法。它通过计算由数据样本构成的协方差矩阵中的最大特征值对应的特征向量,来构成降维后的样本空间。其目的是为了找到原样本集在低维空间中线性投影方差最大的方向,在降维的过程中最大化的保留样本集信息。
[0004]流形学习是非线性降维领域的重要部分。流形学习方法可分为两种方式,基于局部特征保留思想和基于全局特征保留的思想。两种方式的目的都是为了将流形结构在高维空间中的特征以尽可能小的误差嵌入到低维空间中,从而实现特征空间降维的效果。局部切空间对齐算法是基于局部特征保留思想的典型算法之一。该算法将高维邻域的线性表示信息替换成高维切空间变换的信息,然后在低维空间中最优化信息保留的目标函数式。目前LTSA算法在图像特征提取、图像识别、生物技术和机械故障等领域得到广泛应用。
[0005]局部切空间对齐算法对噪声和算法参数都比较敏感,噪声的存在使得输入参数更加难以选择,参数较小的变化会导致差异显著的学习结果,因此提高流形学习的抗噪性成为待以解决的问题。基于EM算法改进PCA抗噪算法EM

PCA,研究者提出EM

LTSA对局部切空间算法的切空间坐标转换步骤从PCA改进成EM

PCA,提升LTSA对高噪声数据的鲁棒性。

技术实现思路

[0006]本专利技术目的在于提出一种基于噪声数据集改进的局部切空间对齐算法,以提高局部切空间对齐算法在高维流形噪声数据集上的流形结构学习能力和分类效果。假设该算法的数据输入为噪声数据集X∈R
n
×
m
,X=[x1,..,x
n
],需要输入的参数为近邻数k,降维维数d,截断参数r,误差参数ε,惩罚项系数λ。配置完直接调用系统接口,系统输出数据降维后的全局坐标T=[τ1,...,τ
N
]∈R
d
×
N

[0007]本专利技术的技术方案如下:
[0008]步骤S1,确定样本领域。对于目标数据集的每个样本,分别使用近邻查找算法基于欧几里得距离确定其k个最近邻,组成邻域样本矩阵X
i
=[x
i1
,..,x
ik
]。
[0009]步骤S2,针对每个样本,提取其邻域样本切空间坐标Θ
i
。对于每个样本的样本邻域X
i
,记A
r
和B
r
为L
i
截断后的左右奇异值向量,优化下式所述的目标公式,从
而得到近似低秩矩阵Z
i
,通过矩阵分解得到坐标Θ
i
,对应的计算公式如下述所示。关于目标公式优化的迭代过程如步骤S21至S2所示。
[0010][0011]步骤S21,输入数据L
i
,L
i
的左右奇异向量A
r
和B
r
,误差参数ε,惩罚项系数λ,初始化变量值l=1,Z0=L
i
,Y0=L
i
,t0=1,l=1。
[0012]步骤S22,循环更新第l轮的Z
l+1
,t
l+1
,Y
l+1
的值。直到目标函数式值收敛时,退出循环,即|obj
k+1

obj
k
‑1|≤ε。
[0013]步骤S23,固定Y
l
和t
l
,使用如下变换公式,更新Z
l+1
[0014][0015][0016][0017](s
i

λt
l
)
+
=max(s
i

λt
l
,0)。
[0018]步骤S24,固定Z
l+1
和Y
l
,使用如下变换公式,更新t
l+1
[0019][0020]步骤S25,固定Z
l+1
和t
l+1
,使用如下变换公式,更新Y
l+1
[0021][0022]步骤S26,重复S21至S25,直到目标函数式值收敛时,退出循环,即|obj
k+1

obj
k
‑1|≤ε。求得的Z
l+1
即为近似低秩矩阵Z
i
的最优解,对其进行矩阵分解从而得到Θ
i
,Θ
i
的求解公式如下:
[0023][0024][0025]步骤S3,对齐邻域样本切空间坐标,得到低维嵌入全局坐标T=[τ1,...,τ
N
]∈R
d
×
N
。记T
i
为样本邻域空间的全局映射坐标,令S
i
为TS
i
=T
i
的0

1近邻样本的选择矩阵。由步骤S2得到每个样本的邻域切空间坐标Θ
i
,可构造ψ矩阵。然后对ψ进行特征值分解,T
*
为前d个最小的非0特征值对应的特征向量。对应ψ和T
*
的计算表达式如下。
[0026][0027]ψ=PΣP
T
P=(p1,...,p
n
)∈R
n
×
n
[0028]T
*
=(v1,...,v
d
)
T
∈R
d
×
N
其中v
i
为按照矩阵ψ特征值从小到大排序后的特征向量
附图说明
[0029]读者在参照附图阅读了本专利技术的具体实施方式以后,将会更清楚地了解本专利技术的各个方面。其中,
[0030]图1为本专利技术一种基于噪声数据的正则化局部切空间对齐算法的流程图;
[0031]图2为本专利技术的具体实施过程图;
[0032]图3为人脸数据集添加噪声后的图像像素点丢失情况;
[0033]图4是本专利技术方法和原局部切空间对齐算法实验结果对比图。
具体实施方式
[0034]输入噪声数据集X∈R
n
×<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于噪声数据的正则化局部切空间对齐算法,其特征在于:对高维数据进行流形学习降维时,进行以下步骤:步骤1,数据集预处理。对数据进行最大最小归一化操作,加快梯度下降的求解速度,即提升模型的收敛速度。步骤2,对于目标数据集中的每个样本x
i
,分别使用近邻查找算法确定样本k个近邻,组成样本近邻矩阵X
i
。步骤3,针对每个样本x
i
,提取其样本邻域切空间坐标矩阵Θ
i
。优化切空间坐标提取目标式,采用EM

算法迭代求解,固定一部分变量值,更新一个变量值,直至目标函数式收敛,即求得近似最佳Θ
i
。步骤4,基于全部样本的邻域切空间坐标Θ
i
,以最小平凡误差为损失函数对齐不同样本领域中共有样本的切空间坐标,优化损失函数,从而求得最优的低维全局嵌入坐标T。2.根据权利要求1所述的基于噪声数据的正则化局部切空间对齐算法,其特征在于:在切空间坐标提取阶段,利用核范数易于计算和实现对矩阵的低秩性约束实现局部切空间对齐算法对噪声数据的干扰的鲁棒性作用,并在核范数的基础上应用截断概念,基于每个噪声样本的邻域矩阵X
i
,求得噪声样本邻域矩阵的近似低秩表达Z
i
。其中m为原数据集维数,k为近邻数,为邻域矩阵X
i
的均值,A
)
和B
)
为L
i
截断后的左右奇异值向量,截断参数r为超参数,小于k。L
i
=U∑V
T
ꢀꢀꢀ
(1)U=(u1,...,u
n
)∈R<...

【专利技术属性】
技术研发人员:袁玉波宋湘
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1