一种基于对抗式迁移学习的细粒度目标判别方法技术

技术编号:19481225 阅读:39 留言:0更新日期:2018-11-17 10:40
本发明专利技术公开了一种基于对抗式迁移学习的细粒度目标判别方法,所述方法包括:获取预训练细粒度目标识别模型,输入训练图像得到视觉属性特征;将训练图像输入预设卷积神经网络得到图像特征,获取视觉解释生成网络模型,输入图像特征得到训练图像的视觉解释信息;获取句子特征抽取网络模型,提取得到视觉解释信息的整体属性特征;利用视觉属性特征和视觉解释信息整体属性特征对视觉解释生成网络模型进行优化;将测试图像输入优化视觉解释生成网络模型,得到分类结果和视觉解释信息。本发明专利技术有机地结合了视觉目标细粒度分类识别和视觉解释生成过程,避免了解释模型对语义标签的依赖。

【技术实现步骤摘要】
一种基于对抗式迁移学习的细粒度目标判别方法
本专利技术属于计算机视觉以及自然语言处理
,具体是一种基于对抗式迁移学习的细粒度目标判别方法。
技术介绍
目前,在计算机视觉领域,细粒度深度目标分类算法已取得较大的突破,比如其在鸟类的种类识别方面上取得了较好的效果。然而对于智能系统而言,还不能满足于“黑盒子”方式,即仅仅输出预测结果还不够,不仅要“知其然”,还要“知其所以然”。能够解释视觉系统为什么会产生某个输出结论并获得其对应视觉证据是决策系统的智能化体现。因此,需要一种新型的目标判别方法,在对于目标进行判别的同时,还能够解释预测系统决策的内在原因。文字语言和图像是人类描述客观世界的两种非常重要的表达方式。2016年美国UCBerkeley的研究人员Lisa等人首次提出了视觉解释的想法和模型,并对视觉描述、视觉定义、视觉解释三个相近概念进行了区分。视觉描述是在没有任何图像内容标签的前提下,由场景中的对象内容引导产生图像内容的一般性描述;视觉定义是根据视觉对象的类别所产生的类别定义语句,该定义语句不要求与当前所见的图像视觉内容有关联,只与图像对象的类别相关;视觉解释是根据系统预测的视觉对象类别,结合视觉图像内容产生具有类别鉴别力的预测解释语句。在Lisa等人的工作中,他们为了增加语言解释的识别精度,利用到了图像已知的语义标签和全局视觉特征。然而在实际应用中,视觉系统不是总能获得图像内容的标签信息。
技术实现思路
为了解决上述现有技术中存在的问题,本专利技术提出一种基于对抗式迁移学习的细粒度目标判别方法,该方法无需对象属性标签信息,可直接根据图片内容产生目标判别结论以及视觉解释信息。本专利技术提出的一种基于对抗式迁移学习的细粒度目标判别方法包括:步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI;步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征fCNN,获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xs;步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xs对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息。可选地,所述视觉解释生成网络模型包括循环神经网络,所述循环神经网络包括门限循环单元和多层感知器,所述多层感知器包括全连接层和softmax层。可选地,所述步骤S3中,将所述视觉解释生成网络模型中多层感知器全连接层的输出作为所述视觉解释信息中每个单词的特征,利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。可选地,所述句子特征抽取网络模型采用卷积神经网络架构。可选地,所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层。可选地,所述步骤S4中,利用分类损失函数、分布差异损失函数、真假判别损失函数对于所述视觉解释生成网络模型进行优化。可选地,所述步骤S4包括:最大化分布差异损失函数以优化视觉属性特征xI和视觉解释信息整体属性特征xs之间的分布差异;最大化真假判别损失函数以优化视觉解释生成网络中判别器能力;固定所述分布差异和判别器,最小化分类损失函数以优化所述视觉解释生成网络中的类别分类器能力;通过最小化第一联合损失函数来优化所述句子特征抽取网络;通过最小化第二联合损失函数来优化所述视觉解释生成网络,如此迭代直到所述视觉解释生成网络收敛。可选地,所述分布差异损失函数表示为:Lwd-γLgrad,其中,N表示每次批量训练的图像样本个数,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征,代表数据集合中任意与特征点对的连线上的任意随机特征点,表示函数在变量取值为时的梯度,表示函数在输入变量取值为时的输出,γ是超参数。可选地,所述第一联合损失函数表示为:Lc+Lwd,其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示yi表示第i个样本的真实类别,表示第i个样本属于第k类的概率,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征。可选地,所述第二联合损失函数表示为:其中,N表示每次批量训练的图像样本个数,K为输入数据集的细粒度类别数量,δ(yi==k)表示yi表示第i个样本的真实类别,表示第i个样本属于第k类的概率,表示视觉解释生成网络中的特征分布回归器网络函数,表示第n个图像样本的视觉属性特征,表示第n个图像样本的视觉解释信息整体属性特征,表示视觉解释生成网络生成的语句,表示判别器网络函数。本专利技术所产生的有益效果是,有机地结合了视觉目标细粒度分类识别和视觉解释生成过程,避免了解释模型对语义标签的依赖。本专利技术利用迁移学习的思想,利用对抗学习的网络训练方式,使得解释模型能够专注于与预测的类别信息特征最相关的内容,同时生成符合人类语法习惯的、具有较强判别性的细粒度视觉解释语句。本专利技术至少可以有效地解决两个问题:(1)同步实现细粒度目标的类别预测和语法自然解释;(2)明确分类结论预测过程的内在视觉属性。附图说明图1是根据本专利技术一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的流程图;图2是根据本专利技术一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的框架示意图;图3是根据本专利技术一实施例的视觉解释生成网络模型的结构示意图;图4是根据本专利技术一实施例的句子特征抽取网络模型的结构示意图;图5是根据本专利技术一实施例的真假判别网络模型的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。目标判别以及视觉解释模型的输出需要满足两个基本的要求:第一,输出的解释语句具备明确可区分的类信息;第二,解释语句符合人们语法习惯,并可以准确描述视觉对象分类对应的视觉证据。对于非计算机视觉领域的人员而言,这种方式有助于他们通俗理解计算机内在的决策过程。本专利技术提出的判别方法能够完成细粒度视觉分类并且以自然语言形式输出关于预测结论的内在凭据解释。图1是根据本专利技术一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的流程图,图2是根据本专利技术一实施例的一种基于对抗式迁移学习的细粒度目标判别方法的框架示意图,如图1和图2所示,所述基于对抗式迁移学习的细粒度目标判别方法包括以下步骤:步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI;其中,所述训练图像可以为一幅也可以为多幅。在本专利技术一实施例中,所述细粒度目标识别模型可以为已经预先训练好的基于强监督信息的细粒度分类模型Mask-CNN。该模型在训练时,为了获得更高的分类精度,除了图像的类别标签外,还使用了物体标注框(Object本文档来自技高网...

【技术保护点】
1.一种基于对抗式迁移学习的细粒度目标判别方法,其特征在于,所述方法包括:步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI;步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征fCNN,获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xS;步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xS对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息。

【技术特征摘要】
1.一种基于对抗式迁移学习的细粒度目标判别方法,其特征在于,所述方法包括:步骤S1,获取预训练细粒度目标识别模型,将训练图像输入至所述预训练细粒度目标识别模型,得到所述训练图像的视觉属性特征xI;步骤S2,将所述训练图像输入预设卷积神经网络得到所述训练图像的图像特征fCNN,获取视觉解释生成网络模型,并将所述训练图像的图像特征fCNN输入至所述视觉解释生成网络模型,得到所述训练图像的视觉解释信息;步骤S3,获取句子特征抽取网络模型,并利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征xS;步骤S4,利用所述视觉属性特征xI和视觉解释信息整体属性特征xS对于所述视觉解释生成网络模型进行优化,得到优化视觉解释生成网络模型;步骤S5,将测试图像输入至所述优化视觉解释生成网络模型中,得到测试图像分类结果和相应的视觉解释信息。2.根据权利要求1所述的方法,其特征在于,所述视觉解释生成网络模型包括循环神经网络,所述循环神经网络包括门限循环单元和多层感知器,所述多层感知器包括全连接层和softmax层。3.根据权利要求1所述的方法,其特征在于,所述步骤S3中,将所述视觉解释生成网络模型中多层感知器全连接层的输出作为所述视觉解释信息中每个单词的特征,利用所述句子特征抽取网络模型提取得到所述视觉解释信息的整体属性特征。4.根据权利要求1-3任一所述的方法,其特征在于,所述句子特征抽取网络模型采用卷积神经网络架构。5.根据权利要求4所述的方法,其特征在于,所述句子特征抽取网络模型包括多尺度多卷积核的卷积层、时间序列池化层、全连接层以及批量正则化层。6.根据权利要求1所述的方法,其特征在于,所述步骤S4中,利用分类损失函数、分布差异损失函数、真假判别损失函数对于所述视觉解释生成网络模型进行优化。7.根据权利要求6所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:江爱文万剑怡王明文
申请(专利权)人:江西师范大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1