二维卷积网络用于人体动作检测的优化方法技术

技术编号:33439959 阅读:15 留言:0更新日期:2022-05-19 00:27
一种二维卷积网络用于人体动作检测的优化方法,对于Yolov3,步骤包括:1)待检测图片或视频帧首先通过数据预处理生成灰度图;按照原图的长宽比进行缩放,将缩放后图片的像素值粘贴到灰度图中,没有粘贴到的部分保留灰度值不变,缩放后的图片中的像素值进行归一化处理;2)将处理好的图像数据送入Darknet

【技术实现步骤摘要】
二维卷积网络用于人体动作检测的优化方法


[0001]本专利技术针对动作检测领域,设计一种基于二维卷积神经网络的人体动作检测方法,用以获取目标对象行为的类别。
技术背景
[0002]随着科技的进步以及计算机性能的提升,人工智能技术得到广泛的应用。人体行为检测作为人机交互、智能视频监控中的重要技术一直是计算机视觉领域的研究热点。实际检测过程中存在背景复杂、遮挡、动作千姿百态、动作间相识度高等问题,使得检测任务难度加大。基于卷积神经网络的行为检测算法具有较强的特征提取能力和复杂场景中识别精度高等特点得到研究人员的广泛关注。

技术实现思路

[0003]本专利技术提供一种基于二维卷积神经网络的人体动作检测模型构建方法,以解决现有的二维网络模型检测精度较低的问题。
[0004]本专利技术的技术要点主要有:(1)在二维卷积网络的特征金字塔分类网络中引入改进后Hierarchical Bilinear Pooling模型,增强层间局部特征交互。(2)在二维卷积网络中引入注意力机制,提取深层次的语义信息。
[0005]本专利技术具体为:一种二维卷积网络用于人体动作检测的优化方法,对于二维卷积网络Yolov3,采用如下步骤:
[0006]1)数据处理
[0007]待检测图片或视频帧首先通过数据预处理生成灰度图;按照原图的长宽比进行缩放,将缩放后图片的像素值粘贴到灰度图中,没有粘贴到的部分保留灰度值不变,缩放后的图片中的像素值进行归一化处理;
[0008]2)特征提取
[0009]将处理好的图像数据送入Darknet

53网络,提取特征;Darknet

53网络的特征提取层对输入图片进行5次下采样,每个尺度上的特征图通道数是上一尺度特征图的两倍;Darknet

53网络的各个特征提取层提取特征经过Conv2D操作得到特征图;
[0010]对于后三个尺度的通道,分别采用改进后的Hierarchical Bilinear网络对相应通道的特征进行预测,然后与原通道预测结果融合后输出;
[0011]所述改进后的Hierarchical Bilinear网络是将三个通道生成的三个特征图相互作元素积进行层间信息互补,然后采用Sum Pooling降维,并通过非线性变换、L2正则化,最后将变换得到的特征图进行维度拼接,采用全连接层进行分类输出。
附图说明
[0012]图1是本实施例的二维卷积Yolov3网络结构图;
[0013]图2是改进后的Hierarchical Bilinear网络结构图。
具体实施方式
[0014]下面结合附图与具体实施方式对本专利技术进行说明:
[0015]一种二维卷积网络用于人体动作检测的优化方法,对于二维卷积网络Yolov3:
[0016]步骤1:搭建网络的数据处理模块,
[0017]待检测图片、视频帧首先通过数据预处理生成一个416
×
416(R,G,B=128,128,128)的灰度图,按照原图的长宽比进行缩放,将缩放后图片的像素值粘贴到灰度图中,没有粘贴到的部分保留灰度值不变,缩放后的图片中的像素值除以255进行归一化处理。
[0018]步骤2:特征提取,将处理好的图像数据送入Darknet

53网络,提取特征,Darknet

53网络对输入图片进行5次下采样,每个尺度上的特征图通道数是上一尺度特征图的两倍,这5个尺度上的残差连接个数分别为1、2、8、8、4,并采用最后三个尺度上的特征图作为分类连接层,通过前两个尺度的特征图中的空间注意力模型扩大特征图的感受视野,充分提取浅层空间信息,通过后三个尺度的通道注意力模型,进一步增强通道中的有用信息,并抑制无用信息。最后生成13x13、26x26、52x52的特征图。参考图1。
[0019]步骤3:特征交互,将生成的的三个特征图相互作元素积(Hadamard Product[65])进行层间信息互补,然后采用Sum Pooling降维,减少参数计算量,并通过非线性变换、L2正则化提升网络表征能力,最后将变换得到的特征图进行维度拼接,采用全连接层进行分类,参考图2。
[0020](1)Hierarchical Bilinear网络将选取到的三个大小为W
×
H
×
C的特征图相互作元素积进行层间信息互补得到三个W
×
H
×
C的特征图,W、H、C分别为特征图的宽、高、通道数目。经过非线性变换,其表达式见式:
[0021]y=sign(x)x+b
[0022]其中x为输入特征向量,b为浮点数常量。
[0023](2)特征图经过非线性变换后进行维度拼接,采用1
×
1卷积分类,计算公式如下,其中Z
HB
为检测结果矩阵,P
T
是分类矩阵,x、y、z为输入特征图矩阵,t
x
、t
y
、t
w
、t
h
为目标位置信息,P0置信度值,P1,..P
n
为n个分类结果值;
[0024]Z
HB
=P
T
concat(x,y,z)=(t
x
+t
y
+t
w
+t
h
)+P0+(P1+P2+...+P
n
)
[0025](3)网络的输出由原网络和改进后的Hierarchical Bilinear网络组成,将两个网络在三个不同的尺度上进行预测,将二者的输出结果进行融合,融合过程见下式,其中y为改进后的YOLOv3输出结果,y
yolo
为原网络输出,y
hb
指细粒度分类结果,α为调节参数
[0026]y=αy
yolo
+(1

α)y
hb

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种二维卷积网络用于人体动作检测的优化方法,其特征是对于二维卷积网络Yolov3,步骤包括:1)数据处理待检测图片或视频帧首先通过数据预处理生成灰度图;按照原图的长宽比进行缩放,将缩放后图片的像素值粘贴到灰度图中,没有粘贴到的部分保留灰度值不变,缩放后的图片中的像素值进行归一化处理;2)特征提取将处理好的图像数据送入Darknet

53网络,提取特征;Darknet

53网络的特征提取层对输入图片进行5次下采样,每个尺度上的特征图通道数是上一尺度特征图的两倍;Darknet

53网络的各个特征提取层提取特征经过Conv2D操作得到特征图;对于后三个尺度的通道,分别采用改进后的Hierarchical Bilinear网络对相应通道的特征进行预测,然后与原通道预测结果融合后输出;所述改进后的Hierarchical ...

【专利技术属性】
技术研发人员:张修文
申请(专利权)人:苏州玖合智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1