一种基于注意力感知与对抗学习的细粒度图像识别方法技术

技术编号:28422117 阅读:24 留言:0更新日期:2021-05-11 18:29
本发明专利技术涉及一种基于注意力感知与对抗学习的细粒度图像识别方法,利用神经网络的注意力机制,只使用图像类别标签,定位出输入图像中目标物体的大概位置。同时为了针对细粒度图像任务中由于训练数据量较少,且类间方差小,类内方差大的而引起的显著过拟合现象,提出基于对抗学习的难样本挖掘算法,模型训练过程中神经网络自主选择网络难以判断的带掩码的难样本作为新的训练样本,一方面提升网络对难样本的识别鲁棒性,另一方面有助于网络关注其他具有判别意义的局部区域;在不增加额外参数的前提条件下,仅使用图像的类比标签,显著提升细粒度图像识别的准确度和对难样本的鲁棒性。

【技术实现步骤摘要】
一种基于注意力感知与对抗学习的细粒度图像识别方法
本专利技术涉及一种基于注意力感知与对抗学习的细粒度图像识别方法,属于计算机视觉中的细粒度图像识别研究领域。
技术介绍
细粒度图像识别任务是近年来随着深度神经网络的高速发展而兴起的计算机视觉、模式识别的研究领域之一,细粒度图像识别旨在解决同一大类别的更细致的子类别划分的问题。该任务相对于传统的图像识别问题主要难点在于细粒度图像任务中由于其本身的数据量较少且数据中同一类别的目标物体由于姿态、光照、背景等存在较大的类内方差,而不同类别的目标物体存在较小的类间方差,因此细粒度图像识别成了图像识别领域的新挑战。随着深度卷积神经网络的发展,传统的图像识别任务使用深度卷积特征来表征物体的类别,然而在细粒度图像识别任务中,不同目标物体的差距大都存在于一些细微的局部区域,直接使用深度卷积特征来表征物体的类别有很大的局限性,深度神经网络无法有效定位到图像中具有判别意义的局部区域,导致分类效果不理想。由于该任务的困难性,科研人员首先对训练样本进行标注,包括对样本中目标物体的最大外接框的标注和目标物体中具有判别意义的局部区域的标注,例如鸟类的额头、嘴巴、尾部羽毛、脚等等。使用这些带标注的数据首先很好的去除了背景信息对分类的干扰,也手动定位了具有判别意义的局部区域,大大提升了细粒度图像识别的准确度。然而,在实际应用场景中,带人工标注最大外接框和局部区域的训练数据获取的成本高,导致了强监督的细粒度图像识别算法不具有一般性和普适性,严重制约了算法在实际场景中的实用。因此如何设计不需要人工标注的弱监督细粒度图像识别算法成了该领域的主要研究问题。
技术实现思路
本专利技术技术解决问题:针对细粒度图像识别任务中,目前强监督细粒度图像识别算法中需要最大外接框的额外标注信息的缺陷,以及弱监督细粒度图像识别算法中使用弱监督检测算法带来的巨大计算量的特点,提供一种基于注意力感知与对抗学习的细粒度图像识别方法,在不增加额外参数的前提条件下,仅使用图像的类比标签,显著提升细粒度图像识别的准确度和对难样本的鲁棒性。本专利技术利用神经网络的注意力机制,只使用图像类别标签,定位出输入图像中目标物体的大概位置。同时为了针对细粒度图像任务中由于训练数据量较少,且类间方差小,类内方差大的而引起的显著过拟合现象,提出基于对抗学习的难样本挖掘算法,模型训练过程中神经网络自主选择网络难以判断的带掩码的难样本作为新的训练样本,一方面提升网络对难样本的识别鲁棒性,另一方面有助于网络关注其他具有判别意义的局部区域。本专利技术技术解决方案:一种基于注意力感知与对抗学习的细粒度图像识别方法,包括有下列步骤:训练阶段:步骤一:数据预处理每个轮次按批次读取训练数据集,对于每个输入样例,将图像缩放至固定尺度并实现数据增广,最后对输入进行归一化处理,得到预处理数据;步骤二:网络构建使用通用的图像识别网络为特征提取网络,修改通用图像识别网络的全连接层,输入结点数目保持不变,输出结点数修改为训练集中的类别数。使用ImageNet预训练权重初始化特征提取网络参数;步骤三:特征提取使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;步骤四:基于注意力机制的物体定位首先由特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A。公式(1)中fi表示第i通道的特征图,C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值。通过逐像素地比较特征图的激活值和激活均值对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,将通道响应大于均值的像素选择出来,如公式(3)表示坐标(x,y)处的掩码值,从而得到相应的掩码图掩码图中1的位置表述了目标物体出现的区域。为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息,使用最后两个卷积层conv5b和conv5c的掩码图的交集得到输入图像更准确的掩码图M,如公式(4)。然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息,最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息,位置信息包括目标框的左上角坐标和右下角坐标;步骤五:目标物体图像缩放与再训练使用步骤四中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度,再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同,但是减少了背景信息的干扰,更具有表征意义;步骤六:基于对抗学习的难样本挖掘算法对于步骤四中卷积层conv5c的特征图,将特征图划分为若干个网格,分别将每个网格的响应值置为0,对应得到若干个具有遮挡特性的子样本,通过分类损失函数计算每个子样本的损失,损失越大表示神经网络对该样本的判断越不准确,即该样本对于当前网络参数为一个难以识别成功的样本,具有遮挡特性的且计算出的损失值最大的样本为挖掘出的难样本,将该难样本作为新的训练样本;步骤七:多级损失函数计算与反向传播除了使用分类损失对类别进行约束,还使用ArcFace损失进行特征空间的约束。计算原始输入图像的分类损失、目标物体图像的分类损失、难样本的ArcFace损失,计算三个损失之和,并进行反向传播更新网络参数;测试阶段:步骤一:数据预处理每个轮次按批次读取训练数据集,对于每个输入样例,将图像缩放至固定尺度,然后对输入进行训练阶段相同的归一化处理,得到预处理数据;步骤二:特征提取使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;步骤三:基于注意力机制的物体定位首先由训练阶段构建的特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A。公式(1)中fi表示第i通道的特征图,C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值。通过逐像素地比较特征图的激活值和激活均值对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,将通道响应大于均值的像素本文档来自技高网
...

【技术保护点】
1.一种基于注意力感知和对抗学习的细粒度图像识别方法,其特征在于,分为训练阶段和测试阶段;/n所述训练阶段实现:/n步骤一:数据预处理/n每个轮次按批次读取训练数据集,对于每个输入样例,将图像缩放至固定尺度并实现数据增广,最后对输入进行归一化处理,得到预处理数据;/n步骤二:网络构建/n使用通用的图像识别网络为特征提取网络,修改通用图像识别网络的全连接层,输入结点数目保持不变,输出结点数修改为训练集中的类别数,使用ImageNet预训练权重初始化特征提取网络参数;/n步骤三:特征提取/n使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;/n步骤四:基于注意力机制的物体定位/n首先由特征提取网络得到的特征图,根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A,公式(1)中f

【技术特征摘要】
1.一种基于注意力感知和对抗学习的细粒度图像识别方法,其特征在于,分为训练阶段和测试阶段;
所述训练阶段实现:
步骤一:数据预处理
每个轮次按批次读取训练数据集,对于每个输入样例,将图像缩放至固定尺度并实现数据增广,最后对输入进行归一化处理,得到预处理数据;
步骤二:网络构建
使用通用的图像识别网络为特征提取网络,修改通用图像识别网络的全连接层,输入结点数目保持不变,输出结点数修改为训练集中的类别数,使用ImageNet预训练权重初始化特征提取网络参数;
步骤三:特征提取
使用步骤一得到的预处理数据作为输入,步骤二构建的特征提取网络作为特征提取器,对于一张输入图像,由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图,特征图的尺度为C×H×W,其中C为特征图的通道数,W为特征图的宽度,H为特征图的高度;
步骤四:基于注意力机制的物体定位
首先由特征提取网络得到的特征图,根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A,公式(1)中fi表示第i通道的特征图,通过公式(2)计算整个特征图的平均激活值将该激活均值作为定位输入图像中目标物体位置的关键,其中A(x,y)表示特征图中坐标(x,y)处的激活值,通过逐像素地比较特征图的激活值和激活均值对于特征图中大于激活均值的位置的卷积特征保留,掩码图中对应位置的值置为1,而特征图中小于激活均值的位置,掩码图中对应位置的值置为0,将通道响应大于均值的像素选择出来,如公式(3)表示坐标(x,y)处的掩码值,得到相应的掩码图掩码图中1的位置表述了目标物体出现的区域;为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息,使用最后两个卷积层conv5b和conv5c的掩码图的交集得到输入图像更准确的掩码图M,如公式(4),然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息,最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息,位置信息包括目标框的左上角坐标和右下角坐标;












步骤五:目标物体图像缩放与再训练
使用步骤四中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度,再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图;
步骤六:基于对抗学习的难样本挖掘算法
对于步骤四中卷积层conv5c的特征图,将特征图划分为若干个网格,分别将每个网格的响应值置为0,对应得到若干个具有遮挡特性的子样本,通过分类损失函数计算每个子样本的损失,损失越大表示神经网络对该样本的判断越不准确,即该样本对于当前网络参数为一个难以识别成功的样...

【专利技术属性】
技术研发人员:冷彪付志斌
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1