A weakly supervised semantic segmentation method based on directed attention reasoning network is proposed. The main contents of the method include: self-directing network attention and integrating additional supervision. The process is that the directed attention reasoning network has two network streams: classification flow and attention mining, and classification flow is helpful to identify classes. Attention Mining ensures that all areas that may contribute to classification decision-making will be brought into the attention of the network, making the attention map more complete and accurate. Attention maps can be generated and trained jointly by these two loss functions; an extension of the directed attention inference network is introduced to weak supervised learning. The framework integrates seamless additional monitoring to control the attention map learning process. Based on an end-to-end framework, the invention can directly apply the supervision of a specific task to the attention map during the training phase, and can reduce the gap between weak supervision and extra supervision, thereby improving its generalization performance.
【技术实现步骤摘要】
一种基于引导注意力推理网络的弱监督语义分割方法
本专利技术涉及语义分割领域,尤其是涉及了一种基于引导注意力推理网络的弱监督语义分割方法。
技术介绍
随着互联网的普及和多媒体技术的飞速发展,以图像为代表的多媒体信息呈现爆炸式增长的趋势,给图像的储存、管理和检索带了巨大的挑战。因此,如何实现对海量图像数据进行有效的识别、分类和管理成为了亟待解决的问题。图像语义分割是图像处理与分析的关键环节,也是计算机视觉领域中一个经典的研究分支。通过图像语义分割技术,可以对图像中的主要目标进行分割和识别,从而实现对图像信息的处理和分析。在医学领域,通过图像语义分割技术可以使计算机自动分割出病灶,进行后续的图像处理步骤,协助医生进行诊断和治疗。在交通领域,图像语义分割技术可以结合车载摄像头,对实时场景中的行人、树木、交通指示牌、障碍物等进行识别和分割,从而辅助驾驶员进行路况分析。在军事领域,图像语义分割技术可以对无人机等拍摄的图片等进行分割处理,帮助侦察员快速获取目标位置的相关情况。现有的语义分割方法无法完全将目标与背景分开,造成目标分割模糊和不准确的问题。本专利技术提出了一种基于引导注意力推理网络的弱监督语义分割方法,引导注意力推理网络具有分类流和注意力挖掘两个网络流,分类流有助于识别类的区域,注意力挖掘确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中,使注意力图变得更加完整、准确,通过这两种损失函数可以联合生成和训练注意力图;引入引导注意力推理网络的扩展,在弱监督的学习框架中无缝集成额外的监督,从而控制注意力图学习过程。本专利技术基于一个端到端的框架,可以在训练阶 ...
【技术保护点】
1.一种基于引导注意力推理网络的弱监督语义分割方法,其特征在于,主要包括对网络注意力的自我引导(一);整合额外的监督(二)。
【技术特征摘要】
1.一种基于引导注意力推理网络的弱监督语义分割方法,其特征在于,主要包括对网络注意力的自我引导(一);整合额外的监督(二)。2.基于权利要求书1所述的引导注意力推理网络(GAIN),其特征在于,由于注意力映射反映了支持网络预测的输入图像上的区域,因此提出GAIN,其目的是在针对感兴趣的任务训练网络时监督注意力图。3.基于权利要求书1所述的对网络注意力的自我引导(一),其特征在于,GAIN以正则化的引导方式直接在注意力图上形成约束;GAIN具有两个网络流:分类流Scl和注意力挖掘Sam,它们彼此共享参数;Scl流的约束旨在找出有助于识别类的区域;Sam确保所有可能有助于分类决策的区域都将被纳入网络的注意力之中;通过这种方式,注意力图变得更加完整、准确,并针对分割任务进行量身定制;这里的关键是可以通过两种损失函数联合生成和训练注意力图。4.基于权利要求书3所述的注意力挖掘,其特征在于,设计公式(1)中称为注意力挖掘损失的损失函数:其中,sc(I*c)表示类c的I*c的预测分数;n是该图像I的标定真实类别标签的数量;最终的自我引导损失Lself是分类损失Lcl和Lam的总和,即Lself=Lcl+αLam;其中,Lcl用于多标签和多类别分类,这里使用了多标签软边缘损失;备选损失函数可用于特定任务;α是加权参数,实验中α=1;在自我引导下,网络学习扩大输入图像的焦点区域,有助于尽可能地识别目标类别,从而使注意力映射适合于感兴趣的任务,即语义分割。5.基于权利要求书3所述的注意力图,其特征在于,可以在每个推理中获得与输入样本相对应的注意力图,从而在训练统计中变得可训练;在分类流Scl中,对于给定的图像I,令fl,k为第l层中单元k的激活;对于来自标定真实数据标签的每个类别c,计算关于fl,k的激活图的相应于类别c的得分sc的梯度;这些梯度回流将通过全局平均池化层获得神经元重要性权重6.基于权利要求书5所述的类别,其特征在于,使用可训练的注意力图Ac来生成一个软掩码以应用于原始输入图像;I*c代表超出网络当前注意力c类的区域,I*c=I-(T(Ac)⊙I);其中,⊙表示数组元素依次相乘;T(Ac)是基于阈值操作的掩码函数;为了使其可导,使用S型函数作为公式(2)中定义的近似值:其中,σ是元素都等于σ的阈值矩阵;ω是尺度参数,当大于σ时,确保T(Ac)i,j大约等于1,否则为0;I*c用作流Sa...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。