一种基于改进的Faster RCNN行为识别方法技术

技术编号:26419892 阅读:42 留言:0更新日期:2020-11-20 14:15
一种基于改进的Faster RCNN行为识别方法,采用残差网络ResNet并引入注意力机制的思想,使网络模型能够有选择的学习图像中更抽象的特征;在卷积层的前面加了一层专用于学习卷积核偏移量的卷积层,使卷积核大小和位置根据特征图中的内容进行动态调整,使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性;将注意力机制的思想引入网络中,使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重,使区域建议环节能够更快的定位到图像中目标对象的位置,为后续的行为识别做准备;以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置,越接近交互对象的位置函数得值越大,最终确定交互对象实现行为识别。

【技术实现步骤摘要】
一种基于改进的FasterRCNN行为识别方法
本专利技术涉及计算机视觉
,特别涉及一种基于改进的FasterRCNN行为识别方法。
技术介绍
人体行为识别涵盖了机器学习、计算机视觉、图像处理和人机交互等众多科学领域,有着广泛的应用前景和巨大的经济价值。随着人工智能和深度学习的飞速发展,人们开始尝试着使用计算机程序去处理、分析和理解图像中的内容,模拟视觉实现图像的识别,人体行为识别取得了突破性的进展,成果显著。行为识别是指使用一些算法让计算机能够自动的识别图像中存在的动作。近年来提出许多不同深度学习框架的行为识别方法,其中包括卷积神经网络(ConvolutionNeuralNetwork,CNN)、限制玻尔兹曼机(IndependentSubspaceAnalysis,ISA)以及递归神经网络(RecurrentNeuralNetwork,RNN)等深度网络来建立人体行为识别的网络模型是目前研究的热门话题。基于深度学习的行为识别方法在性能上相比于传统检测方法有很大提升,但仍存在一些问题:1.现有的图像行为识别是一个比较复杂的过程,图像中常常存在交互对象大小差异、遮挡、形变及多目标交互等情况,使网络模型学习的过中不能够充分提取到图像中的特征,进而影响识别的效果。2.传统的FasterRCNN使用的网络结构为VGG-16网络,在加深网络层数的时候容易出现梯度消失和梯度爆炸的问题,使网络反向传播不能够更新参数,进而影响实验的结果。3.传统卷积特征提取的过程中卷积核几何形状是固定的,因此在特征提取的过程中不能很好的应对几何形变,进而限制了网络模型的多样性。
技术实现思路
为了解决
技术介绍
提出的技术问题,本专利技术提供一种基于改进的FasterRCNN行为识别方法,将FasterRCNN做了相关的改进,有效的提升了网络模型对复杂图像中行为关系识别的效果,提升了网络模型的性能。为了达到上述目的,本专利技术采用以下技术方案实现:一种基于改进的FasterRCNN行为识别方法,包括如下步骤:步骤一、COCO数据集预处理,在处理后的数据集上训练行为识别的网络模型;步骤二、将测试的样本输入到目标检测模块中,提取特征,识别定位图像中的目标对象,判断类别;包括如下:1)为了解决由于网络深度的加深可能出现梯度消失和梯度爆炸的问题,本专利技术将传统FasterRCNN方法中用于提取图像特征的VGG-16网络替换为具有更强表达能力残差网络ResNet,并引入注意力机制的思想,使网络模型能够有选择的学习图像中更抽象的特征;2)为解决图像中目标形变、遮挡、大小差异对交互对象识别结果的影响,本专利技术将传统的卷积做出改进,在卷积层的前面加了一层专门用于学习卷积核偏移量的卷积层,使卷积核大小和位置会根据特征图中的内容进行动态调整,使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性;3)针对传统的FasterRCNN中区域建议环节存在重复计算的问题,本专利技术将注意力机制的思想引入网络中,使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重,使区域建议环节能够更快的定位到图像中目标对象的位置,为后续的行为识别做准备;步骤三、将目标检测模块输出的特征图作为行为识别模块的输入,以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置,输出注意力特征图。针对图像行为识别中交互目标定位不准确、存在将对象建立错误的行为关系的问题。本专利技术将行为识别部分做了改进,分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置,越接近交互对象的位置,函数得值越大,最终确定交互对象实现行为识别。进一步地,所述步骤二的1)中,采用ResNet残差网络,残差网络的前向传播是线性的,后层的输入是当前输入和每次残差元计算的残差和,在残差网络的输入输出之间添加一个快捷连接,使前向传播是一个平滑的过程;经过多次计算得到深层的L单元的计算计算结果:其中,XL表示的是L层的输出向量,Xl表示的是第l层的输出,F(Xi,wi)表示的是第l层中的残差;反向传播的过程同前向传播一样都是一个平滑的过程;根据反向传播的链式法则,得到如下公式:其中,大写字母E表示损失误差值,表达为进一步地,所述步骤二的2)中,在特征提取过程中,直接在原卷积层前面加了一层卷积层,专用于学习下层卷积核空间位置的偏移量,使得每一个卷积核的采样点都增加了一个额外的偏移量Δpn,使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整,使卷积核具有形变的能力;传统卷积的过程中,对于输出特征图y上的各像素p0来说,得到如下公式:其中,pn枚举了中的位置;w为学习到的权重;在自动可变形卷积中,在输入X上进行采样,在每一个pn上增加一个偏移量Δpn,并利用双三次插值的方法在像素周围选取16个采样点计算出该偏移量,集合中选取的元素位置通过偏移量{Δpn|n=1,2,…,N}发生变化(其中,),优化后的公式如下:选取像素点周围16个像素点作为参考,计算目标图像的像素的位置,由于偏移Δpn为分数,通过双三次插值实现如下:其中p0+pn+Δpn为任意位置,q枚举特征图X中所有的空间位置,G为双三次插值核,因此,采样将发生在带有偏移量的不规则的位置pn+Δpn上。进一步地,所述步骤二的3)中,在区域建议的过程中引入注意力机制的思想,在RPN中增加了一个专用于学习注意力权重参数的注意力层,在得到的特征图上面添加注意力权重,使之具有感知目标特征的能力,注意力的存在,使得网络在特征图提取的过程中更加的关注图像中的对象,从而为后续的动作的识别提供更有利的线索,将注意力与残差结合后改进RPN,学习的过程表示为:Hi,c(X)=(1+Mi,c(X))×Fi,c(X)其中,Hi,c(X)表示的是注意力与残差结合后学习的输出;X表示的是模块输入;Fi,c(X)近似残差函数,是深层网络产生的特征;Mi,c(X)表示的是注意力层卷积出的与输入特征图相同大小的注意力权重,取值范围为[0,1],0代表完全抑制作用,1代表完全激活作用,可以增强良好的特征并抑制无关的特征,分为实例权重和非实例权重;i表示的是空间位置上的像素点的位置,c表示的是图像的通道数;当Mi,c(X)=0时,Hi,c(X)近似于原始的Fi,c(X);注意力权重不仅可以在网络前向传播的过程中作为特征选择器,还可以在反向传播的过程中作为梯度更新的过滤器;在注意力层中,根据反向传播的链式法则,得到如下公式:进一步地,所述步骤三中,将目标对象位置上的密度建模为高斯函数,相当于产生“模糊”效果,“中间点”失去细节,函数的均值是根据目标的外观和动作来预测的,形式上,以人为中心的分支预测表示的是对于人可能与他交互对象的位置,意味着定位给人框bh和动作a的目标位置;以对象为中心的分支预测表示的是对于对象可能与它交互的人的位置,本文档来自技高网
...

【技术保护点】
1.一种基于改进的Faster RCNN行为识别方法,其特征在于,包括如下步骤:/n步骤一、COCO数据集预处理,在处理后的数据集上训练行为识别的网络模型;/n步骤二、将测试的样本输入到目标检测模块中,提取特征,识别定位图像中的目标对象,判断类别;包括如下:/n1)提取特征时,采用残差网络ResNet,并引入注意力机制的思想,使网络模型能够有选择的学习图像中更抽象的特征;/n2)在卷积层的前面加一层专用于学习卷积核偏移量的卷积层,使卷积核大小和位置会根据特征图中的内容进行动态调整,使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性;/n3)将注意力机制的思想引入网络中,使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重,使区域建议环节能够更快的定位到图像中目标对象的位置,为后续的行为识别做准备;/n步骤三、将目标检测模块输出的特征图作为行为识别模块的输入,以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置,输出注意力特征图:分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置,越接近交互对象的位置,函数得值越大,最终确定交互对象实现行为识别。/n...

【技术特征摘要】
1.一种基于改进的FasterRCNN行为识别方法,其特征在于,包括如下步骤:
步骤一、COCO数据集预处理,在处理后的数据集上训练行为识别的网络模型;
步骤二、将测试的样本输入到目标检测模块中,提取特征,识别定位图像中的目标对象,判断类别;包括如下:
1)提取特征时,采用残差网络ResNet,并引入注意力机制的思想,使网络模型能够有选择的学习图像中更抽象的特征;
2)在卷积层的前面加一层专用于学习卷积核偏移量的卷积层,使卷积核大小和位置会根据特征图中的内容进行动态调整,使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性;
3)将注意力机制的思想引入网络中,使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重,使区域建议环节能够更快的定位到图像中目标对象的位置,为后续的行为识别做准备;
步骤三、将目标检测模块输出的特征图作为行为识别模块的输入,以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置,输出注意力特征图:分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置,越接近交互对象的位置,函数得值越大,最终确定交互对象实现行为识别。


2.根据权利要求1所述的一种基于改进的FasterRCNN行为识别方法,其特征在于,所述步骤二的1)中,采用ResNet残差网络,残差网络的前向传播是线性的,后层的输入是当前输入和每次残差元计算的残差和,在残差网络的输入输出之间添加一个快捷连接,使前向传播是一个平滑的过程;经过多次计算得到深层的L单元的计算计算结果:



其中,XL表示的是L层的输出向量,Xl表示的是第l层的输出,F(Xi,wi)表示的是第l层中的残差;
反向传播的过程同前向传播一样都是一个平滑的过程;根据反向传播的链式法则,得到如下公式:



其中,大写字母E表示损失误差值,表达为


3.根据权利要求1所述的一种基于改进的FasterRCNN行为识别方法,其特征在于,所述步骤二的2)中,在特征提取过程中,直接在原卷积层前面加了一层卷积层,专用于学习下层卷积核空间位置的偏移量,使得每一个卷积核的采样点都增加了一个额外的偏移量Δpn,使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整,使卷积核具有形变的能力;
传统卷积的过程中,对于输出特征图y上的各像素p0来说,得到如下公式:



其中,pn枚举了中的位置;w为学习到的权重;
在自动可变形卷积中,在输入X上进行采样,在每一个pn上增加一个偏移量Δpn,并利用双三次插值的方法在像素周围选取16个采样点计算出该偏移量,集合中选取的元素位置通过偏移量{Δpn|n=1,2,…,N}发生变化(其中,),优化后的公式如下:



选取像素点周围16个像素点作为参考,计算目标图像的像素的位置,由于偏移Δpn为分数,通过双三次插值实现如下:



其中p0+pn+Δpn为任意位置,q枚举特征图X中所有的空间位置,G为双三次插值核...

【专利技术属性】
技术研发人员:赵骥于海龙
申请(专利权)人:辽宁科技大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1