当前位置: 首页 > 专利查询>温州大学专利>正文

基于保持结构稀疏化的半监督字典学习方法技术

技术编号:13290523 阅读:68 留言:0更新日期:2016-07-09 09:08
本发明专利技术公开了一种基于保持结构稀疏化的半监督字典学习方法,主要包含以下步骤:首先通过保持样本稀疏编码之间的自表示关系,建立一种新的半监督字典学习模型;其次采用块坐标下降法对提出的半监督字典学习模型中的各类变量进行迭代优化,并从理论上证明了算法的收敛性;最后提出一种构建类别相关的子字典的方法,并通过样本在各类子字典下的重构误差来对样本进行分类。由于本发明专利技术通过引入结构稀疏化约束迫使大量的无标签样本能够自动加入到其所在类别中,并与其同类的有标签样本一起参与字典的学习,从而提高了字典的稀疏表达能力和判别能力。实验结果表明,相对于其它的经典字典学习方法,具有更准确的分类正确率,有很好的应用前景。

【技术实现步骤摘要】

本专利技术涉及计算机模式识别领域,特别是涉及一种基于保持结构稀疏化(structuralsparsity)的半监督字典学习方法。
技术介绍
字典学习(dictionarylearning),即利用训练样本学习一个过完备的基向量集(称为字典),从而获得输入样本在此字典下的稀疏表示。它是计算机模式识别领域中的研究热点之一,被广泛应用于图像去噪、图像恢复、图像分类以及压缩成像等领域。总的来说,目前的字典学习算法主要解决两个关键性问题:(1)字典的稀疏表达能力;(2)字典的判别能力。一般说来,字典的稀疏表达能力即能够用这个字典中尽可能少的原子(atom)精确重建输入样本的能力。Wright等人提出直接运用整个训练样本集作为字典来实现对输入样本的稀疏表示,并在人脸识别领域得到了不错的效果。然而,由于原始训练样本不可避免地会掺杂有噪音数据,从而影响字典的稀疏表达能力。为了能够得到自适应于输入样本集的字典,Engan等人提出了最优方向算法(methodofoptimaldirections,MOD),它是一种在字典更新和稀疏编码之间交替迭代的优化过程。Aharon等人提出了K-SVD算法,它通过奇异值分解(singularvaluedecomposition,SVD)获得对残差矩阵的秩一逼近,实现对字典原子的依次更新,并且同时得到与之相关的稀疏系数,从而降低了MOD算法的复杂度。Marial等人提出了一种随机的在线字典学习方法(onlinedictionarylearning,ODL),它能够处理具有百万级别的大数据集。以上这些方法都集中在学习字典的稀疏表达能力方面,却没有考虑字典的判别能力,因此它们不适合于分类问题。为了提高字典的判别能力,研究者利用训练样本的类别信息,提出了一些有监督的字典学习算法。Marial等人认为,每一类对应一个子字典,此类别相关的子字典应该能够很好地重建本类样本,但不能重建其它类的样本,他们将此判别性信息加入到字典学习的过程中,提高了字典的判别能力。Zhang等人将数据稀疏编码的分类误差作为判别项加入到K-SVD算法的目标函数中,从而提出了具有判别性的K-SVD算法(discriminativeK-SVD,D-KSVD)。Yang等人在字典的重构模型中加入了对稀疏编码的Fisher判别准则,提出了Fisher判别字典学习算法(Fisherdiscriminationdictionarylearning,FDDL)。Jiang等人引入“判别性稀疏编码误差”的类别一致性约束,并将它与样本的重构误差和分类误差相结合,提出了类别一致性K-SVD算法(labelconsistentK-SVD,LC-KSCD)。此外,还有一些研究者认为如果字典中的一些原子能够用来表示某个样本,则这些原子也能够用来表示此样本所在类别的其它样本,即同类样本应该共享少数字典原子。基于这个想法,Bengio等人提出了组稀疏编码模型。Chi等人运用块和组稀疏编码模型,提出了块内一致性抑制字典学习算法。有监督字典学习方法的性能很大程度上依赖于有标签训练样本的个数。当有标签样本个数很少时,学习出来字典的性能就很不稳定。然而,样本类别的标定是非常耗精力的,获得大量的有标签样本是非常困难的。另一方面,本专利技术可以从一些公共数据集中获得大量的无标签样本。这就促使研究者利用大量的无标签样本和少数有标签样本来共同训练字典,即半监督字典学习。Shrivastava等人在每一步迭代中根据当前字典对无标签样本的稀疏表达能力估计出无标签样本的类别置信度矩阵,并运用它来重新学习字典,从而将大量的无标签样本融入到字典更新的过程中,提出了半监督判别性字典学习算法(semi-superviseddiscriminativedictionarylearning,S2D2)。Zhang等人将有标签样本和无标签样本的重构误差、判别性稀疏编码误差以及分类误差整合在一个优化目标函数中,提出了一种在线的半监督字典学习算法。Babagholami-Mohamadabadi等人通过引入基于局部Fisher判别分析和局部线性嵌入的判别项,提出了基于概率的半监督字典学习模型。Wang等人运用对有标签样本和无标签样本的组稀疏正则化,提出了半监督的鲁棒字典学习(semi-supervisedrobustdictionarylearning,SSR-D)模型。
技术实现思路
半监督字典学习由于运用了大量的无标签样本,因此能够很大程度上提高字典的判别能力和稀疏表达能力。容易看出,半监督字典学习的关键在于有效地利用类别标签信息以及有标签样本与无标签样本的内在结构关系。鉴于这种思想,本专利技术提出了一种基于保持结构稀疏化的半监督字典学习方法。具体来说,通过保持训练样本的结构稀疏性,迫使无标签样本在字典学习的过程中能够自动加入到其所在的样本类别中,并与其同类的有标签样本共享少数字典原子,从而提高字典的稀疏表达能力和判别能力,实现较好的分类效果。为了实现上述目的,本专利技术采用了以下的技术方案:基于保持结构稀疏化的半监督字典学习方法,主要包括以下三个步骤:(1)根据训练样本构建基于保持结构稀疏化的半监督字典学习模型。把某训练样本在其它训练样本下的稀疏表示称为训练集的自表示,把某训练样本在字典下的稀疏表示系数称为样本的稀疏编码。通过保持样本稀疏编码之间的自表示关系,迫使无标签样本在训练过程中能够与其同类的有标签样本共享少数字典原子,从而提高字典的稀疏表达能力和判别能力。(2)采用块坐标下降法(blockcoordinatedescent,BCD)对半监督字典学习模型中的各类变量进行迭代优化,直到收敛。其中,对于稀疏编码变量,本发明提出用优化最小化算法(majorization-minimization,MM)来获得解析解,对于字典变量,本专利技术提出用交替方向乘子算法(AlternatingDirectionMethodofMultipliers,ADMM)获得解析解。(3)提出一种构建类别相关的子字典的方法,即对于每一类,找出能够准确稀疏表示该类样本的字典原子,这些字典原子就构成了该类别相关的子字典。进一步,通过样本在各类子字典下的重构误差来对样本进行分类。进一步说,所述的步骤(1)具体包括以下子步骤:首先,运用交替方向乘子算法计算每个训练样本在其它训练样本下的稀疏表示系数,即自表示系数;其次,通过保持训练样本的稀疏编码之间的自表示关系,构建结构稀疏化约束;最后,将结本文档来自技高网
...

【技术保护点】
一种基于保持结构稀疏化的半监督字典学习方法,其特征在于,包括以下步骤:1)根据训练样本构建基于保持结构稀疏化的半监督字典学习模型;2)采用块坐标下降法对半监督字典学习模型中的各类变量进行迭代优化,直到收敛;3)对于每一类别,找出能够准确稀疏表示该类样本的字典原子,这些字典原子就构成了该类别相关的子字典,通过样本在各类子字典下的重构误差来对样本进行分类。

【技术特征摘要】
1.一种基于保持结构稀疏化的半监督字典学习方法,其特征在于,包括以
下步骤:
1)根据训练样本构建基于保持结构稀疏化的半监督字典学习模型;
2)采用块坐标下降法对半监督字典学习模型中的各类变量进行迭代优化,
直到收敛;
3)对于每一类别,找出能够准确稀疏表示该类样本的字典原子,这些字典
原子就构成了该类别相关的子字典,通过样本在各类子字典下的重构误差来对样
本进行分类。
2.根据权利要求1所述的基于保持结构稀疏化的半监督字典学习方法,其特
征在于,所述的步骤1)具体包括以下步骤:
1.1)运用交替方向乘子算法计算每个训练样本在其它训练样本下的稀疏表
示系数,即自表示系数;
1.2)通过保持训练样本的稀疏编码之间的自表示关系,构建结构稀疏化约
束;
1.3)将结构稀疏化约束、有标签样本的组稀疏编码约束以及训练样本的重
构误差结合在一起,构建基于保持结构稀疏化的半监...

【专利技术属性】
技术研发人员:王迪张笑钦古楠楠樊明宇叶修梓
申请(专利权)人:温州大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1