当前位置: 首页 > 专利查询>厦门大学专利>正文

基于生成对抗学习的快速弱监督目标检测方法技术

技术编号:19746365 阅读:33 留言:0更新日期:2018-12-12 04:56
基于生成对抗学习的快速弱监督目标检测方法,属于计算机视觉技术领域。1)使用随机梯度下降算法训练代理器

【技术实现步骤摘要】
基于生成对抗学习的快速弱监督目标检测方法
本专利技术属于计算机视觉
,尤其是涉及基于生成对抗学习的快速弱监督目标检测方法。
技术介绍
对于目标类别检测,相关研究工作一直是计算机视觉的研究热点。当前弱监督目标检测仍存在着挑战,总体来说,挑战性主要体现在以下两个方面:鲁棒性和计算复杂性。目标检测的鲁棒性主要由类内表观差异和类间表观差异影响,大的类内表观差异和小的类间表观差异通常会导致目标检测方法的鲁棒性降低。类内表观差异是指同类不同个体间的变化,例如,马的不同个体在颜色、纹理、形状、姿态等方面存在差异。由于光照、背景、姿态、视点的变化和遮挡的影响,即使同一匹马在不同的图像中看起来也会非常不同,使得构建具备泛化能力的表观模型极为困难。目标检测的计算复杂性主要源自待检测目标类别的数量、类别表观描述子的维度、大量有标签数据的获取。真实世界中物体类别数量成百上千并且表观描述子是高维度的,大量充足的有标签数据的获取极为耗时耗力,因此目标检测的计算机复杂性较高,设计高效的目标检测算法至关重要。当前部分工作提出了新的特征匹配方法和定位策略。另一类计算复杂性研究方向关注如何减少目标检测时的搜索空间,这类方法统称为选择性搜索策略(SelectiveSearch)或对象性估计(ObjectessEstimation)。它们的核心思想是一张图像中并不是每个子窗口都包含有类别无关的对象,仅有少量候选窗口是目标检测时有意义的候选窗口。除此之外,人工标注大量目标类别检测数据是极为耗时耗力的工作,通常训练目标检测需要大量人工标注的精细监督信息:目标类别标签和目标位置标签。目标类别标签通常用只包含0和1的向量来表示,1代表图中存在对应的目标,0表示图中不存在对应的目标。而目标位置标签通常用方形包围盒的形式来表示。通常只需要四个坐标就可以确定一个包围盒。这种精细的目标位置标签通常需要付出大量的人力物力来获取。在人工标注包围盒的过程会还会引入标注偏差进而影响训练结果。事实上,只带有目标类别标签的数据是比较容易获得或者标注的,比如用户在网络上传图像,通常会对图像添加标题或者描述。可以从互联网获得大量的弱监督标签信息的数据。因此,一个自然的想法就是只使用只有目标类别标签的数据来训练目标检测器。现有的弱监督目标检测方法还存在效率低下的问题。目前最快的弱监督目标检测方法的速度也只能每秒检测两帧左右,然而很多快速的强监督目标检测器可以达到上百帧的速度。一方面是因为目前的弱监督目标检测器大多是基于候选区域的检测器,提取候选区域需要耗费一定的时间,使得弱监督目标检测器无法达到实时速度。另外一方面是因为大多弱监督目标检测器需要扩展测试样本(通常扩展10倍,5种尺度以及翻转)来提高精度,然而这大大减低了检测速度。
技术实现思路
本专利技术的目的在于提供基于生成对抗学习的快速弱监督目标检测方法。本专利技术包括模型训练和模型推理两部分;所述模型训练包括以下步骤:1)使用随机梯度下降算法训练代理器直到收敛;2)使用随机梯度下降算法训练生成器3)使用随机梯度下降算法训练判别器4)使用随机梯度下降算法训练代理器结合生成器的反馈候选区域和原来的候选区域作为输入的候选区域,并且迭代一个数据回合;5)重复步骤2)~4)直到收敛。所述模型推理的具体步骤为:输入图像到生成器中,获得目标检测结果。在步骤2)中,所述使用随机梯度下降算法训练生成器的具体方法可为:迭代100次:在步骤3)中,所述使用随机梯度下降算法训练判别器的具体方法可为:迭代1000次:本专利技术是一种新颖的基于生成对抗学习的快速弱监督目标检测方法。众所周知,目前的弱监督目标检测算法的效率非常低下。已知的弱监督目标检测方法的速度最快在每秒两帧左右。本专利技术加速弱监督目标检测速度,至少提升了55倍,和快速强监督目标检测的速度差不多,并且准确率还有所提升。本专利技术使用生成对抗学习同时训练三个模型:判别器、生成器和代理器。生成器是快速强监督目标检测器,代理器是弱监督目标检测器,而判别器是用来判断检测结果是来自生成器还是代理器的。生成器模拟代理器的检测结果,以此来迷惑判别器。代理器用来挖掘弱监督数据集里的物体。训练的终止条件是三个模型都无法再改进。此时判别器无法分别测试结果是来自生成器还是代理器。在模型测试时候,只需要使用生成器就可以,代理器和判别器无需使用。生成器的检测速度不仅非常快,而且准确率还比代理器好。本专利技术利用强监督目标检测算法作为生成器,不仅大大提高了检测速度,还保证了检测准确率;本专利技术提出一种结构相似性损失和对抗损失来联合训练生成器。综上,本专利技术在已有的弱监督模型上,引入快速的强监督模型,同时使用生成对抗学习方法来同时学习两种模型。最终的效果是:本专利技术的弱监督目标检测器和快速强监督模型的检测速度一样快,比原来的弱监督目标检测器更加准确。大量的实验结果表明,本专利技术的方法取得优异的弱监督目标检测和定位性能。附图说明图1为本专利技术和其他方法的流程比较。图2为本专利技术的结构框架。图3为本专利技术中代理器的网络结构。具体实施方式以下结合附图及具体的实施例对本专利技术进行详细说明。首先定义本专利技术主要使用的符号。这里用表示生成器,表示判别器,表示代理器。用x表示一张RGB格式的输入图像。如图1所示,本专利技术使用VGGNet(Simonyan,Karen,andAndrewZisserman."Verydeepconvolutionalnetworksforlarge-scaleimagerecognition."ArXiv.2014.)等网络作为的基本模型后端结构。通常情况下模型后端的深度越深,模型的表达能力也越强。如图2所示,生成器使用了SSD模型(Liu,Wei,etal."Ssd:Singleshotmultiboxdetector."Europeanconferenceoncomputervision.Springer,Cham,2016.)。SSD是基于一个前向传播CNN网络,产生一系列固定大小包围盒,以及每一个包围盒中包含物体实例的可能性,即得分。之后,进行一个非极大值抑制得到最终的预测结果。SSD模型的最开始部分称作基础网络,是用于图像分类的标准架构。在基础网络之后添加了额外辅助的网络结构:首先添加了额外的卷积层,这些卷积层的大小是逐层递减的,可以在多尺度下进行预测。每一个添加的特征层(或者在基础网络结构中的特征层),可以使用一系列卷积核,去产生一系列固定大小的预测。预测的输出有两部分,一部分是归属类别的一个得分,另外一部分是相对于默认包围盒坐标的形状位移。每一个默认包围盒相对于与其对应的特征图网格的位置是固定的。在每一个特征图网格中,要预测得到的包围盒与默认包围盒之间的位移,以及每一个包围盒中包含物体的得分。如图2所示,判别器是一个深度卷积神经网络。它的输入是图像以及对应的包围盒。使用VGG16提取图像的特征图,把特征图、归一化后的包围盒坐标和得分输入两个全连接层,然后输出一个值,再经过sigmoid层来预测输入的包围盒是否是高质量的。如图2所示,代理器是弱监督目标检测器。是一个三分支深度模型。首先候选区域的特征被分为两个分支:分类分支和检测分支。假设有C个目标类别和R个候选区域{p1...pR},其中,p1表示一个候选区域本文档来自技高网
...

【技术保护点】
1.基于生成对抗学习的快速弱监督目标检测方法,其特征在于包括模型训练和模型推理两部分;所述模型训练包括以下步骤:1)使用随机梯度下降算法训练代理器

【技术特征摘要】
1.基于生成对抗学习的快速弱监督目标检测方法,其特征在于包括模型训练和模型推理两部分;所述模型训练包括以下步骤:1)使用随机梯度下降算法训练代理器直到收敛;2)使用随机梯度下降算法训练生成器3)使用随机梯度下降算法训练判别器4)使用随机梯度下降算法训练代理器结合生成器的反馈候选区域和原来的候选区域作为输入的候选区域,并且迭代一个数据回合;5)重复步骤2)~4)直到...

【专利技术属性】
技术研发人员:纪荣嵘沈云航
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1