当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于对抗自编码器模型的零样本分类方法技术

技术编号:20623641 阅读:26 留言:0更新日期:2019-03-20 14:54
一种基于对抗自编码器模型的零样本分类方法,利用在可见类别上训练好的对抗自编码器网络,选择可以最好的近似模拟视觉特征分布以及使视觉特征与类别语义特征关联的网络参数w和v,继而将未见类别的类别语义特征at输入到该网络中,利用解码器网络G生成视觉特征,计算生成的视觉特征与真实的视觉特征间的欧氏距离。最终,认为距离最小的类别为预测的类别,以此实现零样本分类任务。本发明专利技术更加符合真实数据的特点,同时对齐了视觉特征与类别语义特征,在零样本任务中能够实现更好的分类效果。

A Zero Sample Classification Method Based on Countermeasure Self-Encoder Model

A zero-sample classification method based on anti-self-encoding model is proposed. Using the anti-self-encoding network trained on visible categories, the network parameters w and V which can best simulate the distribution of visual features and associate visual features with category semantic features are selected. Then, the category semantic features at which no category is seen are input into the network, and the decoder network G is used to generate views. The Euclidean distance between the generated visual features and the real visual features is calculated. Finally, the category with the smallest distance is considered as the predicted category, so as to realize the task of zero sample classification. The method is more in line with the characteristics of real data, and aligns visual features and category semantic features, so as to achieve better classification effect in zero sample tasks.

【技术实现步骤摘要】
一种基于对抗自编码器模型的零样本分类方法
本专利技术涉及一种零样本分类方法。特别是涉及一种基于对抗自编码器模型的零样本分类方法。
技术介绍
深度学习极大地促进了计算机视觉的发展,例如物体分类,图像检索和动作识别等。这些任务的性能通常在利用大量的标注数据训练后进行评估。然而,一些任务只有一小部分训练数据甚至没有训练数据,使得传统分类模型性能较差。为了提高传统分类模型对具有少量数据或者没有数据的类别的分类性能,零样本学习引起了广泛关注。零样本学习(ZeroShotLearning)的任务就是对没有训练数据的类别进行分类。人类具备推理的能力,也就是说人类可以根据对物体的描述以及先验知识,成功推理出未见物体的类别。例如,当给了这样一句描述:“独角兽的外形类似于马,不同的是独角兽在头上多了一个长角”,人们可以马上辨认出独角兽。零样本学习通过模拟人类的推理能力来识别新的类别。在零样本学习中,数据分为两部分,分别是训练数据(可见类别)和测试数据(未见类别),并且两者的类别是不同的。对未见类别的识别通常由从可见类别到未见类别的知识迁移实现,在这个过程中,为了表征类别之间的语义关联,借助了可见类别与未见类别共同的语义特征,常用的类别语义特征有属性特征和文本矢量特征两种。属性特征是由人工标注的,文本矢量特征是在大的文本语料库上用自然语言技术处理得到的。图像通常由视觉特征表示,与语义特征之间存在语义鸿沟,不能与语义空间直接建立联系。大部分现有的零样本学习方法包括两个步骤,首先学习视觉空间和语义空间的映射函数,然后利用学习到的映射函数计算测试数据的视觉特征和未见类别的语义特征间的相似度,取相似度较大的类别为测试数据的标签。与人类的推理过程相比,这些方法把可见类别的语义特征作为先验知识,把未见类别的语义特征当做对物体的描述,但在本质上人类没有学习上述的映射函数,而是在脑中想象出未见物体的大致轮廓从而进行分类。因此,我们认为零样本学习可以模拟人类的行为生成未见类别的视觉特征。生成对抗网络(GAN)是作为一个可以学习特定的数据分布的生成模型。GAN主要解决的是生成类问题,可以利用一段任意的随机数生成图像。GAN包括两个网络模型,一个生成模型G(Generator)和一个判别模型D(Discriminator)。G以随机噪声作为输入,生成一张图像G(z),然后将G(z)和真实图像x输入到D中,对G(z)和x做一个二分类,检测谁是真实图像谁是生成的假图像。G和D会根据D输出的情况不断改进自己,G尽可能的提高G(z)和x的相似度来欺骗D,而D则会通过学习尽可能的不被G欺骗。当生成的图像与真实图像没有差别,也就是D的输出为0.5时,G获得了生成图像的能力。当把类别信息和噪声共同输入到G中时,可以生成满足特定分布的图像,以此在零样本方法中使用。在零样本方法中,通常假设在训练阶段给出了由N个三元组定义的可见类别的数据,其中xi∈Rp是可见类别第i个视觉特征的表示,ai∈Rq是第i个视觉特征的类别语义特征,是第i个视觉特征的类别标签,p和q分别是视觉和语义空间的维度。在测试阶段,根据未见类别的类别语义特征和类别标签{at,yt},对其视觉特征xt进行分类,其中并且有零样本的任务就是利用可见类别的数据训练模型,进而利用训练好的模型预测未见类别的标签yt。现存的基于生成类的方法主要包括以下步骤:1)利用训练样本,通过线性模型或者深度模型实现由类别语义空间A到视觉空间X的映射关系2)利用训练样本学习到的映射关系f将未见类别的真实类别语义特征映射到视觉空间,得到未见类别对应的预测视觉特征。3)利用预测得到的视觉特征与未见类别的真实视觉特征间的相似度关系,确定未见类别所属类别。通常确定类别使用的判别标准为最近邻方法。然而基于生成类的方法存在着以下问题:在利用线性模型求得由类别语义空间到视觉空间的映射关系时,线性模型在训练阶段很可能造成可见类别一些辨别信息的丢失,然而这些辨别性信息可能包含在未见类别当中。在利用深度模型求得该映射关系时,通常使用生成对抗网络。对抗网络利用生成器G和辨别器D间的对抗学习,训练一个可以拟合真实的视觉特征分布的生成器G。但是大部分对抗网络只关注于生成逼近真实视觉特征的分布,却忽略了视觉特征与类别语义特征间的对应关系,使生成的视觉特征在一定程度上缺少辨别性信息。
技术实现思路
本专利技术所要解决的技术问题是,提供一种可以较方便且更准确地应用在图像识别、信息检索的基于对抗自编码器模型的零样本分类方法。本专利技术所采用的技术方案是:一种基于对抗自编码器模型的零样本分类方法,包括如下步骤:1)初始化辨别器D,编码器E和解码器G的参数r,w和v;2)将训练样本的视觉特征x和类别语义特征a分别随机选取一组设定批量的数据,分别对应作为编码器E和解码器G的输入;3)根据如下对抗自编码器模型训练编码器E和解码器G,利用Adam优化器对所述模型参数进行优化,保留使所述模型计算结果最小的编码器E与解码器G的参数w和v:其中,第一项代表输入类别语义特征a时,通过解码器G得到视觉特征的过程;第二项代表输入类别语义特征a时,先后通过解码器G和编码器E重构类别语义特征的过程;是对应的对抗自编码器模型参数正则项;λ是该正则项对应的参数;为2范数表示;4)根据选取的设定批量的数据,利用训练好的编码器E与解码器G得到辨别器D的三个输入x,x'和其中,x对应真实的视觉特征;x'对应重构的视觉特征,即x先后通过编码器E和解码器网络G得到的特征,也属于真实的视觉特征;对应生成的视觉特征,即类别语义特征a通过解码器网络G得到的特征,属于假的视觉特征;5)根据如下辨别器D的模型训练辨别器D,利用Adam优化器对所述模型参数进行优化,保留使辨别器D性能最好的参数r:其中Εx和Εa分别代表视觉特征x和类别语义特征a的分布,log为取对数运算,σ为softmax函数;6)根据辨别器D的模型训练解码器G,利用Adam优化器对所述模型参数进行优化,保留使解码器G性能最好的参数v;7)按设定次数重复步骤2)~步骤6),得到最终的参数r,w和v;8)将未见类别的类别语义特征at输入到解码器G中,得到未见类别生成的视觉特征9)根据欧氏距离最小为原则,比较未见类别生成的视觉特征与测试样本的视觉特征xt间的距离,得到预测的类别标签。本专利技术的一种基于对抗自编码器模型的零样本分类方法,利用自编码器的方法模拟视觉特征的生成过程以及视觉特征与类别语义特征间的关联,更好的探究了视觉特征的分布,其优势主要体现在:(1)本专利技术首次将自编码器引入对抗学习中,构建了一个双向生成特征的网络结构,完成了视觉与语义间的对齐关系,设计了适合于图像数据特征的零样本分类技术。(2)本专利技术能够合成更趋近于真实分布的视觉特征。模型包括一个对抗网络,将真实的视觉特征,重构视觉特征以及生成的伪视觉特征作为辨别器的输入,可以使重构视觉特征与真实的视觉特征尽可能相似,由此既可以完成视觉特征与类别语义特征的关联,也可以保留绝大部分的语义信息,合成更真实的视觉特征。附图说明图1是本专利技术一种基于对抗自编码器模型的零样本分类方法的流程图。具体实施方式下面结合实施例和附图对本专利技术的一种基于对抗自编码器模型的零样本分类方法做出详细说明。本专利技术的一种基本文档来自技高网
...

【技术保护点】
1.一种基于对抗自编码器模型的零样本分类方法,其特征在于,包括如下步骤:1)初始化辨别器D,编码器E和解码器G的参数r,w和v;2)将训练样本的视觉特征x和类别语义特征a分别随机选取一组设定批量的数据,分别对应作为编码器E和解码器G的输入;3)根据如下对抗自编码器模型训练编码器E和解码器G,利用Adam优化器对所述模型参数进行优化,保留使所述模型计算结果最小的编码器E与解码器G的参数w和v:

【技术特征摘要】
1.一种基于对抗自编码器模型的零样本分类方法,其特征在于,包括如下步骤:1)初始化辨别器D,编码器E和解码器G的参数r,w和v;2)将训练样本的视觉特征x和类别语义特征a分别随机选取一组设定批量的数据,分别对应作为编码器E和解码器G的输入;3)根据如下对抗自编码器模型训练编码器E和解码器G,利用Adam优化器对所述模型参数进行优化,保留使所述模型计算结果最小的编码器E与解码器G的参数w和v:其中,第一项代表输入类别语义特征a时,通过解码器G得到视觉特征的过程;第二项代表输入类别语义特征a时,先后通过解码器G和编码器E重构类别语义特征的过程;是对应的对抗自编码器模型参数正则项;λ是该正则项对应的参数;为2范数表示;4)根据选取的设定批量的数据,利用训练好的编码器E与解码器G得到辨别器D的三个输入x,x'和其中,x对应真实的视觉特征;x...

【专利技术属性】
技术研发人员:冀中王俊月于云龙
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1