一种基于低秩表示和流形正则化的零样本分类方法技术

技术编号:19635696 阅读:192 留言:0更新日期:2018-12-01 16:19
本发明专利技术公开了一种基于低秩表示和流形正则化的零样本分类方法,包括:计算可见类数据集中样本的视觉特征与语义特征之间的映射关系;计算不可见类数据集中样本的语义表示;引入稀疏约束并结合拉普拉斯正则约束,计算不可见类数据集中样本的低秩表示;计算权重矩阵和拉普拉斯矩阵;引入流形正则化,去除不可见类数据集中语义表示的噪声;预测不可见类数据集中样本的标签,实现样本分类。本发明专利技术设计的基于低秩表示和流形正则化的零样本分类方法有效克服传统分类方法针对样本数量少、样本标签信息丢失等情况下分类精度低的局限性,获得不可见类数据集上更准确的语义表示,增强对数据特征的描述能力,能够有效地提高零样本分类的精度。

A Zero Sample Classification Method Based on Low Rank Representation and Manifold Regularization

The invention discloses a zero sample classification method based on low rank representation and manifold regularization, which includes: calculating the mapping relationship between visual features and semantic features of samples in visible data sets; calculating the semantic representation of samples in invisible data sets; introducing sparse constraints and combining Laplacian regularization constraints to calculate. The low-rank representation of samples in invisible datasets; the calculation of weight matrix and Laplace matrix; the introduction of Manifold Regularization to remove the noise of semantic representation in invisible datasets; the prediction of the label of samples in invisible datasets to achieve sample classification. The zero-sample classification method based on low rank representation and Manifold Regularization designed by the invention effectively overcomes the limitation of low classification accuracy of the traditional classification method in the case of small sample number and missing sample label information, obtains more accurate semantic representation on invisible class data sets, and enhances the description ability of data features. It can effectively improve the accuracy of zero sample classification.

【技术实现步骤摘要】
一种基于低秩表示和流形正则化的零样本分类方法
本专利技术涉及样本分类
,尤其涉及一种基于低秩表示和流形正则化的零样本分类方法。
技术介绍
在大规模的分类问题中,缺乏足够的训练样本,或许多样本的标签信息丢失,在一定程度上限制了分类精度的提高。零样本分类是针对这一问题提出的一种有效的解决方法。现有技术中通常假设样本数据都分布在低维的子空间中且具有低秩的结构。已有方法基于数据分布近似跨越多个低维子空间的假设,专注于寻找数据的低秩表示。它通过l1/l2范数处理离群点,并在一定的技术条件下精确的恢复了样本的子空间结构,同时检测出了离群点。然而当数据分布于联合非线性子空间时,这类方法无法精确地恢复数据的几何结构。在实际的应用中,人脸的面部图像就是位于非线性的流形结构中。在样本去噪方面,现有技术通常假设样本数据严格分布在流形中,然而在实际应用中,样本数据往往都存在噪声。在这种情况下,一些方法通过惩罚流形中局部或全局的结构来处理噪声问题,然而这种过度的惩罚通常会降低分类器的泛化能力,导致了当前在缺乏足够的训练样本或样本的标签信息丢失时,分类精度低的问题。
技术实现思路
本专利技术提供了一种基于低秩表示和流形正则化的零样本分类方法,解决了当前在缺乏足够的训练样本或样本的标签信息丢失时,分类精度低的技术问题。本专利技术提供的一种基于低秩表示和流形正则化的零样本分类方法,包括:步骤1:计算可见类数据集中样本的视觉特征Xs和语义表示As之间的映射关系f,即f:Xs→As,其中可见类数据集为为可见类数据集中样本的视觉特征,p是样本视觉特征的维度,为可见类数据集中样本的语义表示,q是每个样本对应语义表示的维度,cs为可见类数据集样本的类别总数,m为可见类数据集的样本总数;步骤2:利用映射关系f计算不可见类数据集中样本的语义表示Au,其中不可见类数据集为为不可见类数据集中样本的视觉特征且cu为不可见类数据集样本的类别总数,n为不可见类数据集的样本总数,为计算得到的不可见类数据集Xu的语义表示,步骤3:计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示Z;步骤4:利用低秩表示Z计算权重矩阵W和拉普拉斯矩阵L;步骤5:引入流形正则化,去除不可见类数据集中的语义表示的噪声;步骤6:利用去噪后的不可见类数据集中的语义表示,预测不可见类数据集中样本的标签,实现样本分类。优选地,步骤3中计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示Z的表达式为:s.t.Xu=XuZ+EZ≥0||Z||0≤T其中E为噪声,α为第一预置可调参数,β为第二预置可调参数,||·||*表示核范数,||·||1表示l1范数,tr(·)表示迹函数,Z≥0保证了矩阵Z的非负特性,‖Z||0≤T保证了矩阵Z的稀疏特性。优选地,步骤5中引入流形正则化,去除不可见类数据集中的语义表示的噪声的公式为:其中,I为单位矩阵,λ为第三预置可调参数,为去噪后不可见类数据集中的语义表示。从以上
技术实现思路
可以看出,本专利技术具有以下优点:本专利技术在样本数量少、样本标签信息丢失等情况下,通过低秩表示和流形正则化获取不可见类数据集上更准确的语义表示,增强对数据特征的描述能力,能够有效地提高零样本分类的精度,解决了当前在缺乏足够的训练样本或样本的标签信息丢失时,分类精度低的问题。附图说明图1为本专利技术实施例提供的一种基于低秩表示和流形正则化的零样本分类方法的流程示意图。图2为本实施例提供的一种基于低秩表示和流形正则化的零样本分类方法的部分分类结果示意图。具体实施方式AttributePascalandYahoo(aPY)数据集包含32个类别,其中20个类别是可见类,用于训练,12个类别是不可见类,用于测试。每个样本有64个属性信息。本实施例使用aPY数据集对本专利技术提出的方法做示例性说明。为使得本专利技术的专利技术目的、特征、优点能够更加明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的方法进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例提供的一种基于低秩表示和流形正则化的零样本分类方法的一个实施例,包括:步骤1:计算可见类数据集中样本的视觉特征Xs和语义表示As之间的映射关系f,即f:Xs→As,其中可见类数据集为为可见类数据集中样本的视觉特征,p是样本视觉特征的维度,为可见类数据集中样本的语义表示,q是每个样本对应语义表示的维度,cs为可见类数据集样本的类别总数,m为可见类数据集的样本总数;步骤2:利用映射关系f计算不可见类数据集中样本的语义表示Au,其中不可见类数据集为为不可见类数据集中样本的视觉特征且cu为不可见类数据集样本的类别总数,n为不可见类数据集的样本总数,为计算得到的不可见类数据集Xu的语义表示,步骤3:计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示Z;需要说明的是,为了更好地获取数据的局部结构,引入稀疏约束项,计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示Z的表达式为:s.t.Xu=XuZ+EZ≥0||Z||0≤T其中E为噪声,α为第一预置可调参数,β为第二预置可调参数,‖·‖*表示核范数,||·||1表示l1范数,tr(·)表示迹函数,Z≥0保证了矩阵Z的非负特性,‖Z‖0≤T保证了矩阵Z的稀疏特性。步骤4:利用低秩表示Z计算权重矩阵W和拉普拉斯矩阵L;需要说明的是,计算权重矩阵W的公式为:计算拉普拉斯矩阵L的公式为:L=D-W(3)其中,D为n×n的度矩阵,即包含元素{d1,d2,d3,...,dn}的对角矩阵,其第k个对角元素dk表示无向权重图上与第k个顶点相连的所有边上的权重值之和;步骤5:引入流形正则化,去除不可见类数据集中的语义表示的噪声;需要说明的是,引入流形正则化,去除不可见类数据集中的语义表示的噪声的公式为:其中,I为单位矩阵,λ为第三预置可调参数,为去噪后不可见类数据集中的语义表示。步骤6:利用去噪后的不可见类数据集中的语义表示,预测不可见类数据集中样本的标签,实现样本分类,其公式为:请参阅图2,图2为本实施例提供的一种基于低秩表示和流形正则化的零样本分类方法的部分分类结果示意图。图中同一行的样本表示被分到同一类中,其中有错误符号×的样本为分类错误的样本,其他样本为分类正确的样本。在本实施例中,数据集可选择aPY数据集,实验平台可选择MATLABR2017a,操作系统可选择Windows10教育版,处理器可选择Intel(R)Core(TM)i7-6700KCPU@4.00GHz,内存可选择32.0GB。本实施例的基于低秩表示和流形正则化的零样本分类方法,能够有效克服传统分类方法针对样本数量少、样本标签信息丢失等情况下分类精度低的局限性,获得不可见类数据集上更准确的语义表示,增强对数据特征的描述能力,能够有效地提高零样本分类的精度,解决了当前在缺乏足够的训练样本或样本的标签信息丢失时,分类精度低的技术问题。以上所述,以上实施例仅用以说明本专利技术的方法,而非对其限制;尽管参照前述实施例对本专利技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可本文档来自技高网
...

【技术保护点】
1.一种基于低秩表示和流形正则化的零样本分类方法,其特征在于,包括以下步骤:步骤1:计算可见类数据集中样本的视觉特征Xs和语义表示As之间的映射关系f,即f:Xs→As,其中可见类数据集为

【技术特征摘要】
1.一种基于低秩表示和流形正则化的零样本分类方法,其特征在于,包括以下步骤:步骤1:计算可见类数据集中样本的视觉特征Xs和语义表示As之间的映射关系f,即f:Xs→As,其中可见类数据集为为可见类数据集中样本的视觉特征,p是样本视觉特征的维度,为可见类数据集中样本的语义表示,q是每个样本对应语义表示的维度,cs为可见类数据集样本的类别总数,m为可见类数据集的样本总数;步骤2:利用映射关系f计算不可见类数据集中样本的语义表示Au,其中不可见类数据集为为不可见类数据集中样本的视觉特征且cu为不可见类数据集样本的类别总数,n为不可见类数据集的样本总数,为计算得到的不可见类数据集Xu的语义表示,步骤3:计算不可见类数据集中样本的拉普拉斯正则化的非负稀疏低秩表示Z;步骤4:利用低秩表示Z计算权重矩阵W和拉普拉斯矩阵L;步骤5:引入流形正则化,...

【专利技术属性】
技术研发人员:孟敏詹箫玉
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1