一种基于改进的Faster RCNN行为识别方法技术

技术编号：26419892 阅读：42 留言：0更新日期：2020-11-20 14:15

一种基于改进的Faster RCNN行为识别方法，采用残差网络ResNet并引入注意力机制的思想，使网络模型能够有选择的学习图像中更抽象的特征；在卷积层的前面加了一层专用于学习卷积核偏移量的卷积层，使卷积核大小和位置根据特征图中的内容进行动态调整，使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性；将注意力机制的思想引入网络中，使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重，使区域建议环节能够更快的定位到图像中目标对象的位置，为后续的行为识别做准备；以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置，越接近交互对象的位置函数得值越大，最终确定交互对象实现行为识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进的FasterRCNN行为识别方法
本专利技术涉及计算机视觉
，特别涉及一种基于改进的FasterRCNN行为识别方法。
技术介绍
人体行为识别涵盖了机器学习、计算机视觉、图像处理和人机交互等众多科学领域，有着广泛的应用前景和巨大的经济价值。随着人工智能和深度学习的飞速发展，人们开始尝试着使用计算机程序去处理、分析和理解图像中的内容，模拟视觉实现图像的识别，人体行为识别取得了突破性的进展，成果显著。行为识别是指使用一些算法让计算机能够自动的识别图像中存在的动作。近年来提出许多不同深度学习框架的行为识别方法，其中包括卷积神经网络(ConvolutionNeuralNetwork，CNN)、限制玻尔兹曼机(IndependentSubspaceAnalysis，ISA)以及递归神经网络(RecurrentNeuralNetwork，RNN)等深度网络来建立人体行为识别的网络模型是目前研究的热门话题。基于深度学习的行为识别方法在性能上相比于传统检测方法有很大提升，但仍存在一些问题：1.现有的图像行为识别是一个比较复杂的过程，图像中常常存在交互对象大小差异、遮挡、形变及多目标交互等情况，使网络模型学习的过中不能够充分提取到图像中的特征，进而影响识别的效果。2.传统的FasterRCNN使用的网络结构为VGG-16网络，在加深网络层数的时候容易出现梯度消失和梯度爆炸的问题，使网络反向传播不能够更新参数，进而影响实验的结果。3.传统卷积特征提取的过程中卷积核几何形状是固定的，因此在特征提取的过程...

【技术保护点】
1.一种基于改进的Faster RCNN行为识别方法，其特征在于，包括如下步骤：/n步骤一、COCO数据集预处理，在处理后的数据集上训练行为识别的网络模型；/n步骤二、将测试的样本输入到目标检测模块中，提取特征，识别定位图像中的目标对象，判断类别；包括如下：/n1)提取特征时，采用残差网络ResNet，并引入注意力机制的思想，使网络模型能够有选择的学习图像中更抽象的特征；/n2)在卷积层的前面加一层专用于学习卷积核偏移量的卷积层，使卷积核大小和位置会根据特征图中的内容进行动态调整，使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性；/n3)将注意力机制的思想引入网络中，使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重，使区域建议环节能够更快的定位到图像中目标对象的位置，为后续的行为识别做准备；/n步骤三、将目标检测模块输出的特征图作为行为识别模块的输入，以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置，输出注意力特征图：分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置，越接近交互对象的位置，函数得值越大，最终确定交互对象实现行为识别。/n...

【技术特征摘要】
1.一种基于改进的FasterRCNN行为识别方法，其特征在于，包括如下步骤：
步骤一、COCO数据集预处理，在处理后的数据集上训练行为识别的网络模型；
步骤二、将测试的样本输入到目标检测模块中，提取特征，识别定位图像中的目标对象，判断类别；包括如下：
1)提取特征时，采用残差网络ResNet，并引入注意力机制的思想，使网络模型能够有选择的学习图像中更抽象的特征；
2)在卷积层的前面加一层专用于学习卷积核偏移量的卷积层，使卷积核大小和位置会根据特征图中的内容进行动态调整，使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性；
3)将注意力机制的思想引入网络中，使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重，使区域建议环节能够更快的定位到图像中目标对象的位置，为后续的行为识别做准备；
步骤三、将目标检测模块输出的特征图作为行为识别模块的输入，以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置，输出注意力特征图：分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置，越接近交互对象的位置，函数得值越大，最终确定交互对象实现行为识别。

2.根据权利要求1所述的一种基于改进的FasterRCNN行为识别方法，其特征在于，所述步骤二的1)中，采用ResNet残差网络，残差网络的前向传播是线性的，后层的输入是当前输入和每次残差元计算的残差和，在残差网络的输入输出之间添加一个快捷连接，使前向传播是一个平滑的过程；经过多次计算得到深层的L单元的计算计算结果：

其中，XL表示的是L层的输出向量，Xl表示的是第l层的输出，F(Xi,wi)表示的是第l层中的残差；
反向传播的过程同前向传播一样都是一个平滑的过程；根据反向传播的链式法则，得到如下公式：

其中，大写字母E表示损失误差值，表达为

3.根据权利要求1所述的一种基于改进的FasterRCNN行为识别方法，其特征在于，所述步骤二的2)中，在特征提取过程中，直接在原卷积层前面加了一层卷积层，专用于学习下层卷积核空间位置的偏移量，使得每一个卷积核的采样点都增加了一个额外的偏移量Δpn，使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整，使卷积核具有形变的能力；
传统卷积的过程中，对于输出特征图y上的各像素p0来说，得到如下公式：

其中，pn枚举了中的位置；w为学习到的权重；
在自动可变形卷积中，在输入X上进行采样，在每一个pn上增加一个偏移量Δpn，并利用双三次插值的方法在像素周围选取16个采样点计算出该偏移量，集合中选取的元素位置通过偏移量{Δpn|n＝1,2,…,N}发生变化(其中，)，优化后的公式如下：

选取像素点周围16个像素点作为参考，计算目标图像的像素的位置，由于偏移Δpn为分数，通过双三次插值实现如下:

其中p0+pn+Δpn为任意位置，q枚举特征图X中所有的空间位置，G为双三次插值核...

【专利技术属性】
技术研发人员：赵骥，于海龙，
申请(专利权)人：辽宁科技大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人