基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法技术

技术编号:19009552 阅读:89 留言:0更新日期:2018-09-22 09:22
本发明专利技术公开了基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法,该方法包括:S1:根据训练样本构建基于原子拉普拉斯图正则化的半监督字典学习模型;S2:采用块坐标下降算法对所述的半监督字典学习模型中的各类变量进行优化,直到收敛;S3:根据所求解的字典原子标签以及无标签样本的稀疏编码,线性重构出测试样本的标签向量,并选取标签向量中元素最大的那个维度作为其所属的类别。本发明专利技术将字典原子看作重构训练样本集的锚点数据来构建字典原子之间的相似度矩阵,因此能够获得对异常样本更加鲁棒的图结构信息,这样迫使无标签样本能够更加有效地参与到字典学习过程中,使得学习的字典具有更好的稀疏表示能力和分类判别能力。

Sample classification method for semi supervised dictionary learning based on regularization of atomic Laplasse map

The invention discloses a sample classification method for semi-supervised dictionary learning based on atomic Laplacian regularization, which includes: S1: constructing a semi-supervised dictionary learning model based on atomic Laplacian regularization according to training samples; S2: adopting block coordinate descent algorithm to the semi-supervised dictionary learning model. Various variables are optimized until convergence; S3: According to the dictionary atomic label and sparse coding of unlabeled samples, the label vectors of test samples are reconstructed linearly, and the dimension with the largest element in the label vectors is selected as its category. The method regards dictionary atom as anchor point data of reconstructing training sample set to construct similarity matrix between dictionary atoms, so that more robust graph structure information can be obtained for abnormal samples, thus forcing unlabeled samples to participate in dictionary learning process more effectively and making the learning dictionary better. Sparse representation and classification.

【技术实现步骤摘要】
基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法
本专利技术涉及计算机模式识别和机器学习领域,特别是涉及一种基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法。
技术介绍
字典学习是利用普通稠密的训练样本学习一组过完备基(字典原子),从而获得输入样本在这些字典原子下的稀疏表达的过程,其广泛应用于图像处理方面,如图像恢复,图像压缩和图像分类等。简而言之,字典学习由稀疏表达和学习字典阶段两部分组成。因此,这导致学者可从字典的稀疏表示能力和分类判别能力两个角度来衡量学得字典的性能。字典的稀疏表示能力体现在能否用尽可能少的字典原子还原训练样本,而字典的分类判别能力则体现在各指定类的字典原子是否能够准确地判断出测试样本所属的类别。从字典的稀疏表示能力角度考虑,众多学者已经提出了各种不同的字典学习算法。例如Wright等人将训练样本作为基原子构建字典,对测试样本进行稀疏编码重构,进而提出了一种基于稀疏表示的分类(SRC)算法。该方法虽然在人脸分类方面取得了突破性的进步,但是由于其将所有训练样本作为字典基原子,导致字典规模太大,从而对后续的稀疏求解不利。为了能够获得自适应于训练样本集的字典,Engan等人提出了最优方向算法(MethodofOptimalDirections,MOD),它是一种在字典更新和稀疏编码之间交替迭代的优化过程。随后,Aharon和Elad等人提出了著名的K-SVD算法(广义的k-means),该方法能够同时更新字典和样本的稀疏表示系数,并能与任意一种匹配追踪算法,如FOCUSS,基追踪,匹配追踪等联合使用,这有利于实现字典对原始样本的稀疏表示。然而,以上方法均未充分利用到训练样本之间的类别信息,使得字典的判别能力较差。为了提高字典的分类判别能力,研究者们提出了有监督的字典学习算法。例如Zhang等人引入了一个分类器,并在K-SVD的优化目标函数基础上添加了一项分类误差项,进而提出了判别性的K-SVD算法(D-KSVD),使得所学习到的字典具有良好的表示能力和判别性能。Jiang和Lin等人基于D-KSVD提出了标签一致性K-SVD算法(LabelConsistent-KSVD,简称LC-KSVD),该方法通过在D-KSVD优化模型的基础上引入了一项“判别稀疏编码误差”的标签一致项,使得在字典学习过程中,不仅使用了训练数据的类别标签,而且将标签信息和每个字典基原子联系起来,从而达到增强字典的判别能力的效果。Yang和Zhang等人在稀疏编码上使用fisher判别标准来提高字典的判别能力,提出了费希尔判别性字典学习(FisherDiscriminationDictionaryLearning,FDDL)方法。有监督的字典学习算法都是建立在训练样本全部是有标签的情况下,而有标签数据在现实生活中存在比较少且依赖于外界“导师”的标注,因此,在有标签样本数目较少时,其学习的字典的分类效果会受到影响。
技术实现思路
本专利技术的目的是为了克服现有技术存在的缺点和不足,而提供一种基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法,该方法对样本类别的归类具有更好的稀疏表示能力和判别能力。为实现上述目的,本专利技术的技术方案是基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法,其特征在于,所述方法包括:S1:根据训练样本构建基于原子拉普拉斯图正则化的半监督字典学习模型;S2:采用块坐标下降算法对所述的半监督字典学习模型中的各类变量进行优化,直到收敛;S3:根据所求解的字典原子标签以及无标签样本的稀疏编码,线性重构出测试样本的标签向量,并选取标签向量中元素最大的那个维度作为其所属的类别。进一步设置是所述的步骤S1包括以下子步骤:S11:运用字典原子的数据表征构建原子拉普拉斯图,即数据表征相关的原子具有相似的标签,数据表征不相关的原子的标签具有较大的差别;S12:根据字典原子的标签以及有标签样本的稀疏编码,线性重构出有标签样本的软标签,并用平方损失函数构建其与真实标签之间的重构误差;S13:将字典对样本的稀疏重构项、有标签样本的标签重构误差以及字典原子的拉普拉斯图正则项结合在一起,构建基于原子拉普拉斯图正则化的半监督字典学习模型。进一步设置是所述的步骤S2包括以下子步骤:S21:运用块坐标下降算法将所述的半监督字典学习模型划分为关于原子标签、稀疏编码以及字典三个不同变量的子优化问题,并对各个变量进行迭代优化;S22:运用梯度为零的方法对原子标签变量进行解析求解;S23:运用交替方向乘子算法对训练样本的稀疏编码变量进行迭代求解;S24:运用交替方向乘子算法对字典三个不同变量进行迭代求解。进一步设置是所述的步骤S3包括以下子步骤:S31:运用交替方向乘子算法求解待归类样本在字典下的稀疏编码;S32:运用待归类样本的稀疏编码对字典原子的标签进行线性组合,从而获得待归类样本的软标签;S33:选取所述软标签向量中元素最大的那个维度作为该待归类样本所属的类别。本专利技术的方法将字典原子看作重构训练样本集的锚点数据,构建字典原子之间的相似度矩阵,从而一方面保证了图的简单性,另一方面也能够防止异常样本对图构造的影响;在字典学习过程中,实现字典与原子拉普拉斯图的不断交替更新和优化,从而使得学习到的字典具有更好的稀疏表示能力和判别能力。本专利技术的有益效果是:1、本专利技术提出了一种全新的并且通用的半监督字典学习方法,对任意待分类的图像数据(如人脸、手写体汉字等)都适用。2、本专利技术把字典原子看作重构训练样本集的锚点数据,通过字典原子在训练样本下的数据表征构建拉普拉斯图,获得对异常样本更加鲁棒的图结构信息,从而迫使无标签样本能够更加有效地参与到字典学习过程中,实现字典与原子拉普拉斯图的不断交替更新和优化,使得学习到的字典具有更好的稀疏表示能力和判别能力。3、本专利技术采用块坐标下降算法对所建的半监督字典学习模型中的各类变量进行分解迭代优化。对于原子标签变量,本专利技术提出用梯度为零的方法获得解析解,对于稀疏编码变量以及字典变量,本专利技术提出交替方向乘子算法进行迭代求解,从而实现快速有效的字典学习。4、本专利技术提出了一种新的样本标签预测方法,即用样本的稀疏编码对字典原子的标签进行线性组合,获得测试样本的软标签。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本专利技术的范畴。图1本专利技术的方法流程图;图2为本专利技术的整体流程运行图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。如图1至图2所示,为本专利技术实施例中,本专利技术为一种基于原子拉普拉斯图正则化的半监督字典学习方法,本专利技术的方法具体运行的硬件和编程语言并不限制,用任何语言编写都可以完成,为此其它工作模式不再赘述。本专利技术的实施例采用一台具有IntelXeon-E5中央处理器和16G字节内存的计算机,并用Matlab语言编制了基于原子拉普拉斯图正则化的半监督字典学习的工作程序,实现了本专利技术的方法。本专利技术的基于原子拉普拉斯图正则本文档来自技高网
...
基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法

【技术保护点】
1.一种基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法,其特征在于,所述方法包括:S1:根据训练样本构建基于原子拉普拉斯图正则化的半监督字典学习模型;S2:采用块坐标下降算法对所述的半监督字典学习模型中的各类变量进行优化,直到收敛;S3:根据所求解的字典原子标签以及无标签样本的稀疏编码,线性重构出测试样本的标签向量,并选取标签向量中元素最大的那个维度作为其所属的类别。

【技术特征摘要】
1.一种基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法,其特征在于,所述方法包括:S1:根据训练样本构建基于原子拉普拉斯图正则化的半监督字典学习模型;S2:采用块坐标下降算法对所述的半监督字典学习模型中的各类变量进行优化,直到收敛;S3:根据所求解的字典原子标签以及无标签样本的稀疏编码,线性重构出测试样本的标签向量,并选取标签向量中元素最大的那个维度作为其所属的类别。2.根据权利要求1所述的样本类别归类方法,其特征在于:所述的步骤S1包括以下子步骤:S11:运用字典原子的数据表征构建原子拉普拉斯图,即数据表征相关的原子具有相似的标签,数据表征不相关的原子的标签具有较大的差别;S12:根据字典原子的标签以及有标签样本的稀疏编码,线性重构出有标签样本的软标签,并用平方损失函数构建其与真实标签之间的重构误差;S13:将字典对样本的稀疏重构项、有标签样本的标签重构误差以及字典原子...

【专利技术属性】
技术研发人员:王迪刘倩倩张笑钦古楠楠叶修梓
申请(专利权)人:温州大学苍南研究院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1