当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于卷积神经网络的注意力目标识别方法技术

技术编号:19904417 阅读:30 留言:0更新日期:2018-12-26 03:12
本发明专利技术的一种基于卷积神经网络的注意力目标识别方法,通过对卷积神经网络的不同层次的特征图进行特征增强以及特征注意力两大处理,从而获得更加具有表征目标物体能力的特征图,然后将所得的特征图分别进行目标检测操作,这样既保留了浅层特征图中的小目标信息,也保留了深层特征中的大目标信息,使得特征图更加具有表征目标物体的能力,作为一种单阶段目标检测器,在保证目标检测效率的同时,大大提升了目标检测的精度。

【技术实现步骤摘要】
一种基于卷积神经网络的注意力目标识别方法
本专利技术涉及一种注意力目标识别方法。特别是涉及一种基于卷积神经网络的注意力目标识别方法。
技术介绍
目标检测是计算机视觉领域中一项具有极大挑战性的任务,近几年,卷积神经网络被应用在目标检测任务上取得了显著的效果,从而引起科研人员对于卷积神经网络的模型的研究兴趣,模型的层数也不断被加深。但是,当模型的层数达到一定数目时,会造成网络在反向传播学习过程中梯度消失的问题,导致网络将不能有效地进行特征学习。深度残差网络被提出后,很好地解决了梯度消失的问题,使得神经网络模型可以向更深层次发展,常见的深度残差网络有Resent50,Resnet101,Resnet152等,在提升目标任务方面也有更好地表现。注意力模型近几年也被广泛应用到包括目标检测在内的不同类型的深度学习任务当中,是一个对神经网络结构的较重要地改进机制。该模型借鉴了人类视觉的注意力机制,视觉注意力机制是人类视觉所特有的大脑信号处理机制。当人类在看一幅图片时,首先获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。人类的视觉注意力机制极大地提高了视觉信息处理地效率与准确性。将注意力模型机制有效地引入到神经网络中,将会提高网络对于图片中目标物体特征学习地准确性与效率,从而会进一步提高对物体检测的性能。
技术实现思路
本专利技术所要解决的技术问题是,提供一种对既含有大目标物体又含有小目标物体的图片有较好检测性能的基于卷积神经网络的注意力目标识别方法。本专利技术所采用的技术方案是:一种基于卷积神经网络的注意力目标识别方法,包括如下步骤:1)通过卷积神经网络获取图像的特征,分别得到C3特征图、C4特征图和C5特征图;2)对所得的C3特征图、C4特征图和C5特征图分别采用1*1的卷积核,进行步长为1,卷积核通道数目为256的卷积操作,卷积操作后分别对应得到P3特征图、P4特征图和P5特征图;3)对步骤2)得的P3特征图、P4特征图和P5特征图分别进行特征增强处理;4)对P5特征图采用3*3的卷积核,进行步长为2,卷积核通道数目为256的卷积操作,得到P6特征图,对P6特征图与本身的元素对应相乘,得到特征增强后的P6*特征图;5)对P6特征图采用设定的激活函数对所得特征进行激活操作,然后采用3*3的卷积核,进行步长为2,卷积核通道数目为256的卷积操作,得到P7特征图,将P7特征图与本身对应元素相乘,得到特征增强后的P7*特征图;6)将P5′特征图经过两层卷积层,卷积核是1*1,步长为1,卷积核的通道数目为256,进行卷积操作后,再采用Sigmoid激活函数进行激活操作,得到的结果与P4特征图对应元素进行相乘,即实现了对特征的注意力操作,得到P8特征图;7)将P4′特征图经过两层卷积层,卷积核是1*1,步长为1,卷积核的通道数目为256,进行卷积操作后,再采用Sigmoid激活函数进行激活操作,得到的结果与P3特征图对应元素进行相乘,即实现了对特征的注意力操作,得到P9特征图;8)对所得的P3*特征图、P4*特征图、P5*特征图、P8特征图和P9特征图分别采用3*3的卷积核,进行步长为1,卷积核通道数目为256的卷积操作,卷积操作后分别对应得到F3特征图、F4特征图、F5特征图、F8特征图、F9特征图;9)对所得的F3特征图、F4特征图、F5特征图、P6*特征图、P7*特征图、F8特征图和F9特征图,分别进行候选框采样,采样间隔依次对应为8、16、32、64、128、16、8,采样面积大小依次对应为32*32、64*64、128*128、256*256、512*512、64*64、32*32,候选框的长宽比选取为1:1和1:2和2:1三种比例,对得到的候选框分别判断是否含目标物体,将含目标物体的候选框分别进行分类和坐标回归处理,完成对目标的识别;10)采用交叉熵损失函数和smoothL1函数通过反向传播,对卷积核的参数进行优化。步骤1)所述的通过卷积神经网络获取图像的特征,是从深度残差网络或VGG16网络或VGG19网络获取图像的特征,包括将COCO数据集中训练集的图片按照每批次若干张图像输入到卷积神经网络中,对应卷积神经网络的stage3,stage4,stage5分别得到C3特征图、C4特征图和C5特征图。步骤3)所述的特征增强处理,是将P4特征图经过上采样处理得到与P3特征图维度一致的P4′特征图,将P4′特征图与P3特征图对应元素相乘得到特征增强后的P3*特征图;将P5特征图经过上采样处理得到与P4特征图维度一致的P5′特征图,将P5′特征图与P4特征图对应元素相乘得到特征增强后的P4*特征图;P5特征图与自己本身的元素对应相乘,得到特征增强后的P5*特征图。步骤8)所述的分类,是对从含目标物体的候选框中提出的特征图使用分类器判别种类;所述的坐标回归处理是通过边界框回归模型进行坐标回归。步骤9)所述的优化是采用随机梯度下降方法或Adam优化算法进行优化。本专利技术的一种基于卷积神经网络的注意力目标识别方法,通过对卷积神经网络的不同层次的特征图进行特征增强以及特征注意力两大处理,从而获得更加具有表征目标物体能力的特征图,然后将所得的特征图分别进行目标检测操作,这样既保留了浅层特征图中的小目标信息,也保留了深层特征中的大目标信息,使得特征图更加具有表征目标物体的能力,作为一种单阶段目标检测器,在保证目标检测效率的同时,大大提升了目标检测的精度。附图说明图1是本专利技术一种基于卷积神经网络的注意力目标识别方法的流程图。具体实施方式下面结合实施例和附图对本专利技术的一种基于卷积神经网络的注意力目标识别方法做出详细说明。本专利技术的一种基于卷积神经网络的注意力目标识别方法,主要针对两个方面:一是特征增强操作,通过特征图相乘加权的方式,提升特征图中的目标物体像素的权重,二是通过注意力机制,能够使得网络快速关注到特征图中的目标物体,结合这两种方面的特征操作使得待检测的特征图更加具有表征目标物体的能力。如图1所示,本专利技术的一种基于卷积神经网络的注意力目标识别方法,包括如下步骤:1)通过卷积神经网络获取图像的特征,分别得到C3特征图、C4特征图和C5特征图。具体是从深度残差(Resnet)网络或VGG16网络或VGG19网络获取图像的特征,包括将COCO数据集中训练集的图片按照每批次若干张图像输入到卷积神经网络中,对应卷积神经网络的stage3,stage4,stage5分别得到如图1所示的C3特征图、C4特征图和C5特征图。2)对所得的C3特征图、C4特征图和C5特征图分别采用1*1的卷积核,进行步长为1,卷积核通道数目为256的卷积操作,卷积操作后分别对应得到P3特征图、P4特征图和P5特征图;3)对步骤2)得的P3特征图、P4特征图和P5特征图分别进行特征增强处理,所述的特征增强处理,是将P4特征图经过上采样处理得到与P3特征图维度一致的P4′特征图,将P4′特征图与P3特征图对应元素相乘得到特征增强后的P3*特征图;将P5特征图经过上采样处理得到与P4特征图维度一致的P5′特征图,将P5′特征图与P4特征图对应元素相乘得到特征增强后的P4*特征图本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的注意力目标识别方法,其特征在于,包括如下步骤:1)通过卷积神经网络获取图像的特征,分别得到C3特征图、C4特征图和C5特征图;2)对所得的C3特征图、C4特征图和C5特征图分别采用1*1的卷积核,进行步长为1,卷积核通道数目为256的卷积操作,卷积操作后分别对应得到P3特征图、P4特征图和P5特征图;3)对步骤2)得的P3特征图、P4特征图和P5特征图分别进行特征增强处理;4)对P5特征图采用3*3的卷积核,进行步长为2,卷积核通道数目为256的卷积操作,得到P6特征图,对P6特征图与本身的元素对应相乘,得到特征增强后的P6*特征图;5)对P6特征图采用设定的激活函数对所得特征进行激活操作,然后采用3*3的卷积核,进行步长为2,卷积核通道数目为256的卷积操作,得到P7特征图,将P7特征图与本身对应元素相乘,得到特征增强后的P7*特征图;6)将P5′特征图经过两层卷积层,卷积核是1*1,步长为1,卷积核的通道数目为256,进行卷积操作后,再采用Sigmoid激活函数进行激活操作,得到的结果与P4特征图对应元素进行相乘,即实现了对特征的注意力操作,得到P8特征图;7)将P4′特征图经过两层卷积层,卷积核是1*1,步长为1,卷积核的通道数目为256,进行卷积操作后,再采用Sigmoid激活函数进行激活操作,得到的结果与P3特征图对应元素进行相乘,即实现了对特征的注意力操作,得到P9特征图;8)对所得的P3*特征图、P4*特征图、P5*特征图、P8特征图和P9特征图分别采用3*3的卷积核,进行步长为1,卷积核通道数目为256的卷积操作,卷积操作后分别对应得到F3特征图、F4特征图、F5特征图、F8特征图、F9特征图;9)对所得的F3特征图、F4特征图、F5特征图、P6*特征图、P7*特征图、F8特征图和F9特征图,分别进行候选框采样,采样间隔依次对应为8、16、32、64、128、16、8,采样面积大小依次对应为32*32、64*64、128*128、256*256、512*512、64*64、32*32,候选框的长宽比选取为1:1和1:2和2:1三种比例,对得到的候选框分别判断是否含目标物体,将含目标物体的候选框分别进行分类和坐标回归处理,完成对目标的识别;10)采用交叉熵损失函数和smoothL1函数通过反向传播,对卷积核的参数进行优化。...

【技术特征摘要】
1.一种基于卷积神经网络的注意力目标识别方法,其特征在于,包括如下步骤:1)通过卷积神经网络获取图像的特征,分别得到C3特征图、C4特征图和C5特征图;2)对所得的C3特征图、C4特征图和C5特征图分别采用1*1的卷积核,进行步长为1,卷积核通道数目为256的卷积操作,卷积操作后分别对应得到P3特征图、P4特征图和P5特征图;3)对步骤2)得的P3特征图、P4特征图和P5特征图分别进行特征增强处理;4)对P5特征图采用3*3的卷积核,进行步长为2,卷积核通道数目为256的卷积操作,得到P6特征图,对P6特征图与本身的元素对应相乘,得到特征增强后的P6*特征图;5)对P6特征图采用设定的激活函数对所得特征进行激活操作,然后采用3*3的卷积核,进行步长为2,卷积核通道数目为256的卷积操作,得到P7特征图,将P7特征图与本身对应元素相乘,得到特征增强后的P7*特征图;6)将P5′特征图经过两层卷积层,卷积核是1*1,步长为1,卷积核的通道数目为256,进行卷积操作后,再采用Sigmoid激活函数进行激活操作,得到的结果与P4特征图对应元素进行相乘,即实现了对特征的注意力操作,得到P8特征图;7)将P4′特征图经过两层卷积层,卷积核是1*1,步长为1,卷积核的通道数目为256,进行卷积操作后,再采用Sigmoid激活函数进行激活操作,得到的结果与P3特征图对应元素进行相乘,即实现了对特征的注意力操作,得到P9特征图;8)对所得的P3*特征图、P4*特征图、P5*特征图、P8特征图和P9特征图分别采用3*3的卷积核,进行步长为1,卷积核通道数目为256的卷积操作,卷积操作后分别对应得到F3特征图、F4特征图、F5特征图、F8特征图、F9特征图;9)对所得的F3特征图、F4特征图、F5特征图、P6*特征图、P7*特征图、F8特征图和F9特征图,分别进行候...

【专利技术属性】
技术研发人员:冀中孔乾坤李晟嘉
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1