一种基于引导注意力推理网络的弱监督语义分割方法技术

技术编号:19141803 阅读:185 留言:0更新日期:2018-10-13 08:55
本发明专利技术中提出的一种基于引导注意力推理网络的弱监督语义分割方法,其主要内容包括:对网络注意力的自我引导、整合额外的监督,其过程为,引导注意力推理网络具有分类流和注意力挖掘两个网络流,分类流有助于识别类的区域,注意力挖掘确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中,使注意力图变得更加完整、准确,通过这两种损失函数可以联合生成和训练注意力图;引入引导注意力推理网络的扩展,在弱监督的学习框架中无缝集成额外的监督,从而控制注意力图学习过程。本发明专利技术基于一个端到端的框架,可以在训练阶段直接将特定任务的监督应用于注意力图上,且可以减少弱监督和额外监督之间的差距,提高了其泛化性能。

A weakly supervised semantic segmentation method based on guided attention inference network

A weakly supervised semantic segmentation method based on directed attention reasoning network is proposed. The main contents of the method include: self-directing network attention and integrating additional supervision. The process is that the directed attention reasoning network has two network streams: classification flow and attention mining, and classification flow is helpful to identify classes. Attention Mining ensures that all areas that may contribute to classification decision-making will be brought into the attention of the network, making the attention map more complete and accurate. Attention maps can be generated and trained jointly by these two loss functions; an extension of the directed attention inference network is introduced to weak supervised learning. The framework integrates seamless additional monitoring to control the attention map learning process. Based on an end-to-end framework, the invention can directly apply the supervision of a specific task to the attention map during the training phase, and can reduce the gap between weak supervision and extra supervision, thereby improving its generalization performance.

【技术实现步骤摘要】
一种基于引导注意力推理网络的弱监督语义分割方法
本专利技术涉及语义分割领域,尤其是涉及了一种基于引导注意力推理网络的弱监督语义分割方法。
技术介绍
随着互联网的普及和多媒体技术的飞速发展,以图像为代表的多媒体信息呈现爆炸式增长的趋势,给图像的储存、管理和检索带了巨大的挑战。因此,如何实现对海量图像数据进行有效的识别、分类和管理成为了亟待解决的问题。图像语义分割是图像处理与分析的关键环节,也是计算机视觉领域中一个经典的研究分支。通过图像语义分割技术,可以对图像中的主要目标进行分割和识别,从而实现对图像信息的处理和分析。在医学领域,通过图像语义分割技术可以使计算机自动分割出病灶,进行后续的图像处理步骤,协助医生进行诊断和治疗。在交通领域,图像语义分割技术可以结合车载摄像头,对实时场景中的行人、树木、交通指示牌、障碍物等进行识别和分割,从而辅助驾驶员进行路况分析。在军事领域,图像语义分割技术可以对无人机等拍摄的图片等进行分割处理,帮助侦察员快速获取目标位置的相关情况。现有的语义分割方法无法完全将目标与背景分开,造成目标分割模糊和不准确的问题。本专利技术提出了一种基于引导注意力推理网络的弱监督语义分割方法,引导注意力推理网络具有分类流和注意力挖掘两个网络流,分类流有助于识别类的区域,注意力挖掘确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中,使注意力图变得更加完整、准确,通过这两种损失函数可以联合生成和训练注意力图;引入引导注意力推理网络的扩展,在弱监督的学习框架中无缝集成额外的监督,从而控制注意力图学习过程。本专利技术基于一个端到端的框架,可以在训练阶段直接将特定任务的监督应用于注意力图上,且可以减少弱监督和额外监督之间的差距,提高了其泛化性能。
技术实现思路
针对目标分割模糊和不准确的问题,本专利技术的目的在于提供一种基于引导注意力推理网络的弱监督语义分割方法,引导注意力推理网络具有分类流和注意力挖掘两个网络流,分类流有助于识别类的区域,注意力挖掘确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中,使注意力图变得更加完整、准确,通过这两种损失函数可以联合生成和训练注意力图;引入引导注意力推理网络的扩展,在弱监督的学习框架中无缝集成额外的监督,从而控制注意力图学习过程。为解决上述问题,本专利技术提供一种基于引导注意力推理网络的弱监督语义分割方法,其主要内容包括:(一)对网络注意力的自我引导;(二)整合额外的监督。其中,所述的引导注意力推理网络(GAIN),由于注意力映射反映了支持网络预测的输入图像上的区域,因此提出GAIN,其目的是在针对感兴趣的任务训练网络时监督注意力图。其中,所述的对网络注意力的自我引导,GAIN以正则化的引导方式直接在注意力图上形成约束;GAIN具有两个网络流:分类流Scl和注意力挖掘Sam,它们彼此共享参数;Scl流的约束旨在找出有助于识别类的区域;Sam确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中;通过这种方式,注意力图变得更加完整、准确,并针对分割任务进行量身定制;这里的关键是可以通过两种损失函数联合生成和训练注意力图。进一步地,所述的注意力挖掘,设计公式(1)中称为注意力挖掘损失的损失函数:其中,sc(I*c)表示类c的I*c的预测分数;n是该图像I的标定真实类别标签的数量;最终的自我引导损失Lself是分类损失Lcl和Lam的总和,即Lself=Lcl+αLam;其中,Lcl用于多标签和多类别分类,这里使用了多标签软边缘损失;备选损失函数可用于特定任务;α是加权参数,实验中α=1;在自我引导下,网络学习扩大输入图像的焦点区域,有助于尽可能地识别目标类别,从而使注意力映射适合于感兴趣的任务,即语义分割。进一步地,所述的注意力图,可以在每个推理中获得与输入样本相对应的注意力图,从而在训练统计中变得可训练;在分类流Scl中,对于给定的图像I,令fl,k为第l层中单元k的激活;对于来自标定真实数据标签的每个类别c,计算关于fl,k的激活图的相应于类别c的得分sc的梯度;这些梯度回流将通过全局平均池化层获得神经元重要性权重进一步地,所述的类别,使用可训练的注意力图Ac来生成一个软掩码以应用于原始输入图像;I*c代表超出网络当前注意力c类的区域,I*c=I-(T(Ac)⊙I);其中,⊙表示数组元素依次相乘;T(Ac)是基于阈值操作的掩码函数;为了使其可导,使用S型函数作为公式(2)中定义的近似值:其中,σ是元素都等于σ的阈值矩阵;ω是尺度参数,当大于σ时,确保T(Ac)i,j大约等于1,否则为0;I*c用作流Sam的输入以获得类别预测分数;由于目标是引导网络专注于感兴趣类别的所有部分,因此强制I*c尽可能少地包含属于目标类的特征,即注意力图区域上的高响应区域之外的区域应不包括可触发网络识别类别c的对象的单个像素;从损失函数的角度来看,它试图最小化I*c对c类的预测分数。进一步地,所述的权重,代表支持c类预测的激活图fl,k的重要性,然后使用权重矩阵wc作为内核,并在激活图矩阵fl上应用二维卷积以集成所有激活图,然后进行修正线性单元(ReLU)操作以获得注意力图Ac;注意力图可以在线训练,Ac上的约束会影响网络的学习;其中,l是来自最后卷积层的表示,其特征具有在高级语义和详细空间信息之间的最佳折衷;注意力图具有与卷积特征映射相同的大小。其中,所述的整合额外的监督,除了让网络自己探索注意力图的引导之外,还可以通过使用少量额外的监督来控制注意力图学习过程来告诉网络中它们应该关注图像的哪些部分,以便定制感兴趣的任务;基于这种对注意力图进行额外监督的想法,引入GAIN的扩展:GAINext,可以在弱监督的学习框架中无缝集成额外的监督;使用自我引导GAIN框架来改进弱监督语义分割任务;还可以应用GAINext来引导网络学习对数据集偏差具有鲁棒性的特征;当测试数据和训练数据来自不同的分布时,可提高其普遍性。进一步地,所述的弱监督语义分割任务,仍然使用弱监督的语义分割任务作为示例应用程序来解释GAINext;GAINext在训练阶段生成可训练注意力图的方式与自我引导GAIN相同;除了Lcl和Lam之外,根据给定的外部监督来设计另一个损失Le:其中,Hc表示额外的监督,例如例子中的像素级分割掩码;还可以添加一个外部流Se,并且这三个流共享所有参数。进一步地,所述的外部流,流Se的输入图像包括图像级标签和像素级分割掩模;可以通过流Se只使用非常少量的像素级标签,以利用GAINext获得性能改进;流Scl的输入包括仅具有图像级标签的训练集中的所有图像;GAINext的最终损失函数Lext定义如下:Lext=Lcl+αLam+ωLe(4)其中,ω是权重参数,实验中ω=10;可以通过修改GAINext以适应其他任务;一旦获得与网络最终输出相对应的激活图fl,k,就可以使用Le来引导网络将重点放在对感兴趣任务关键的区域。附图说明图1是本专利技术一种基于引导注意力推理网络的弱监督语义分割方法的系统流程图。图2是本专利技术一种基于引导注意力推理网络的弱监督语义分割方法的分割实例图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本专利技术作进本文档来自技高网
...

【技术保护点】
1.一种基于引导注意力推理网络的弱监督语义分割方法,其特征在于,主要包括对网络注意力的自我引导(一);整合额外的监督(二)。

【技术特征摘要】
1.一种基于引导注意力推理网络的弱监督语义分割方法,其特征在于,主要包括对网络注意力的自我引导(一);整合额外的监督(二)。2.基于权利要求书1所述的引导注意力推理网络(GAIN),其特征在于,由于注意力映射反映了支持网络预测的输入图像上的区域,因此提出GAIN,其目的是在针对感兴趣的任务训练网络时监督注意力图。3.基于权利要求书1所述的对网络注意力的自我引导(一),其特征在于,GAIN以正则化的引导方式直接在注意力图上形成约束;GAIN具有两个网络流:分类流Scl和注意力挖掘Sam,它们彼此共享参数;Scl流的约束旨在找出有助于识别类的区域;Sam确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中;通过这种方式,注意力图变得更加完整、准确,并针对分割任务进行量身定制;这里的关键是可以通过两种损失函数联合生成和训练注意力图。4.基于权利要求书3所述的注意力挖掘,其特征在于,设计公式(1)中称为注意力挖掘损失的损失函数:其中,sc(I*c)表示类c的I*c的预测分数;n是该图像I的标定真实类别标签的数量;最终的自我引导损失Lself是分类损失Lcl和Lam的总和,即Lself=Lcl+αLam;其中,Lcl用于多标签和多类别分类,这里使用了多标签软边缘损失;备选损失函数可用于特定任务;α是加权参数,实验中α=1;在自我引导下,网络学习扩大输入图像的焦点区域,有助于尽可能地识别目标类别,从而使注意力映射适合于感兴趣的任务,即语义分割。5.基于权利要求书3所述的注意力图,其特征在于,可以在每个推理中获得与输入样本相对应的注意力图,从而在训练统计中变得可训练;在分类流Scl中,对于给定的图像I,令fl,k为第l层中单元k的激活;对于来自标定真实数据标签的每个类别c,计算关于fl,k的激活图的相应于类别c的得分sc的梯度;这些梯度回流将通过全局平均池化层获得神经元重要性权重6.基于权利要求书5所述的类别,其特征在于,使用可训练的注意力图Ac来生成一个软掩码以应用于原始输入图像;I*c代表超出网络当前注意力c类的区域,I*c=I-(T(Ac)⊙I);其中,⊙表示数组元素依次相乘;T(Ac)是基于阈值操作的掩码函数;为了使其可导,使用S型函数作为公式(2)中定义的近似值:其中,σ是元素都等于σ的阈值矩阵;ω是尺度参数,当大于σ时,确保T(Ac)i,j大约等于1,否则为0;I*c用作流Sa...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1