一种结合yolo算法和openpose算法的拍照动作检测算法制造技术

技术编号:35640213 阅读:15 留言:0更新日期:2022-11-19 16:31
本发明专利技术属于拍照动作检测算法技术领域,具体涉及一种结合yolo算法和openpose算法的拍照动作检测算法,首先通过视频的预处理,能够去除噪声有利于后续算法的展开,并且采用帧差法能够减少无用视频帧。其次,通过openpose算法获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据,能够有效获取人体的骨骼特征信息。之后,使用yolo算法获取手机的相关位置,并且增加注意力机制对识别效果进行优化。最后,判定算法获取的人体特征信息包括黑色背景下的骨骼信息和手机位置框,将这些信息与标准动作进行对比获取结果能够很好的减少误判。的减少误判。的减少误判。

【技术实现步骤摘要】
一种结合yolo算法和openpose算法的拍照动作检测算法


[0001]本专利技术属于拍照动作检测算法
,具体涉及一种结合yolo算法和openpose算法的拍照动作检测算法。

技术介绍

[0002]随着视频采集设备的快速普及,以及监控视频、互联网视频、视频娱乐等系统的出现,视频逐渐成为目前社会中最大的信息载体之一,并正在处于一种井喷式的增加过程中。与此同时随着我国的经济发展水平不断提高,人们对于安防的需求日益提高。而一般的人体姿态检测存在识别率低,误识别率高的问题。

技术实现思路

[0003]针对上述一般的人体姿态检测存在识别率低,误识别率高的技术问题,本专利技术提供了一种误判率低、识别效率高的结合yolo算法和openpose算法的拍照动作检测算法。
[0004]为了解决上述技术问题,本专利技术采用的技术方案为:
[0005]一种结合yolo算法和openpose算法的拍照动作检测算法,包括下列步骤:
[0006]S1、数据准备,首先建立起来手机相关的数据集和标准拍照动作的数据集;
[0007]S2、视频图像预处理,将视频图像的分辨率转换为640*640,使用高斯滤波对视频图像进行去噪处理,最后使用帧差法对视频图像进行处理;
[0008]S3、将视频图像送入增加了注意力机制的yolo网络中对手机进行检测;
[0009]S4、将视频再送入openpose网络结构之中,对人体骨骼信息进行提取;
[0010]S5、将获取的特征图像送入搭建起来的神经网络分类器。
[0011]所述S2中使用帧差法对视频图像进行处理的方法为:在图像序列相邻两帧或三帧间采用基于像素的时间差分通过闭值化来提取出图像中的运动区域。
[0012]所述S3中对手机进行检测的方法为:包括下列步骤:
[0013]S3.1、yolo的网络结构分为三部分CSPDarknet、FPN和Yolo Head,所述CSPDarknet是主干特征提取网络,输入的图片首先会在CSPDarknet里面进行特征提取,提取到的特征可以被称作特征层,是输入图片的特征集合;在主干部分,能够获取了三个特征层进行下一步网络的构建,这三个特征层称为有效特征层;FPN可以被称作Yolo的加强特征提取网络,在主干部分获得的三个有效特征层会在这一部分进行特征融合,特征融合的目的是结合不同尺度的特征信息;Yolo Head是Yolo的分类器与回归器;
[0014]S3.2、注意力机制部分是CBMA,这一部分能够让网络自适应注意到该注意的地方,该部分是通道注意力机制和空间注意力机制进行一个结合,CBAM会对输入进来的特征层,分别进行通道注意力机制的处理和空间注意力机制的处理;
[0015]S3.3、另一个注意力机制部分是ECA,这一部分是通道注意力机制的一种实现形式,所述ECA去除了原来SE模块中的全连接层,直接在全局平均池化之后的特征上通过一个1D卷积进行学习;
[0016]S3.4、通道注意力机制具体来说可以分为两部分,会对输入进来的单个特征层,分别进行全局平均池化和全局最大池化;之后对平均池化和最大池化的结果,利用共享的全连接层进行处理,会对处理后的两个结果进行相加,然后取一个sigmoid,此时获得了输入特征层每一个通道的权值,所述权值在0

1之间;在获得这个权值后,将这个权值乘上原输入特征层;
[0017]S3.5、空间注意力机制是对输入进来的特征层,在每一个特征点的通道上取最大值和平均值,之后将这两个结果进行一个堆叠,利用一次通道数为1的卷积调整通道数,然后取一个sigmoid,此时获得了输入特征层每一个特征点的权值,所述权值在0

1之间,在获得这个权值后,将这个权值乘上原输入特征层即可。
[0018]所述S4中对人体骨骼信息进行提取的方法为:openpose网络运行是将输入的图像,经过VGG19卷积网络提取特征,得到一组特征图,然后分成两个岔路Branch1&2,分别使用CNN网络提取置信度Part Confidence Maps和关联度Part Affinity Fields,得到这两个信息后,使用偶匹配Bipartite Matching求出Part Association,将同一个人的关节点连接起来,由于PAF自身的矢量性,使得生成的偶匹配很正确,最终合并为一个人的整体骨架;最后基于PAFs求Multi

Person Parsing—>把Multi

person parsing问题转换成graphs问题—>Hungarian Algorithm。
[0019]所述S5中将获取的特征图像送入搭建起来的神经网络分类器的方法为:包括下列步骤:
[0020]S5.1、搭建的图像分类器分为两个部分,一个是特征提取,另一个是分类部分,特征提取包括的网络有VGG16网络、MobilenetV2网络和ResNet50网络,分类部分是全连接层;
[0021]S5.2、分类器将图片大小调整为(224,224,3),在对于图片进行4次3
×
3卷积,每进行两次卷积之后进行2
×
2的最大池化操作,在进行9次3
×
3卷积,每三次卷积之后进行2
×
2的最大池化操作,经过上述操作输出的结果为(7,7,512),对结果进行堆叠之后在经过全连接层进行分类,最后输出的就是相关的预测。
[0022]本专利技术与现有技术相比,具有的有益效果是:
[0023]本专利技术提供了一种拍照动作识别方法,首先通过视频的预处理,能够去除噪声有利于后续算法的展开,并且采用帧差法能够减少无用视频帧。其次,通过openpose算法获取待处理视频中预设数量个视频帧以及各视频帧中人体关节点位置数据,能够有效获取人体的骨骼特征信息。之后,使用yolo算法获取手机的相关位置,并且增加注意力机制对识别效果进行优化。因为在拍照动作进行时,手机背面必然会出现在特定区域以此能够作为判定依据减少相关的误判。最后,判定算法获取的人体特征信息包括黑色背景下的骨骼信息和手机位置框,将这些信息与标准动作进行对比获取结果能够很好的减少误判,比如,有些识别方法会将人举起手动作误判,该方法引入了手机特征信息进行辅助判定,能够有效减少误判。
附图说明
[0024]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图引申获得其它的实施附图。
[0025]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合yolo算法和openpose算法的拍照动作检测算法,其特征在于:包括下列步骤:S1、数据准备,首先建立起来手机相关的数据集和标准拍照动作的数据集;S2、视频图像预处理,将视频图像的分辨率转换为640*640,使用高斯滤波对视频图像进行去噪处理,最后使用帧差法对视频图像进行处理;S3、将视频图像送入增加了注意力机制的yolo网络中对手机进行检测;S4、将视频再送入openpose网络结构之中,对人体骨骼信息进行提取;S5、将获取的特征图像送入搭建起来的神经网络分类器。2.根据权利要求1所述的一种结合yolo算法和openpose算法的拍照动作检测算法,其特征在于:所述S2中使用帧差法对视频图像进行处理的方法为:在图像序列相邻两帧或三帧间采用基于像素的时间差分通过闭值化来提取出图像中的运动区域。3.根据权利要求1所述的一种结合yolo算法和openpose算法的拍照动作检测算法,其特征在于:所述S3中对手机进行检测的方法为:包括下列步骤:S3.1、yolo的网络结构分为三部分CSPDarknet、FPN和Yolo Head,所述CSPDarknet是主干特征提取网络,输入的图片首先会在CSPDarknet里面进行特征提取,提取到的特征可以被称作特征层,是输入图片的特征集合;在主干部分,能够获取了三个特征层进行下一步网络的构建,这三个特征层称为有效特征层;FPN可以被称作Yolo的加强特征提取网络,在主干部分获得的三个有效特征层会在这一部分进行特征融合,特征融合的目的是结合不同尺度的特征信息;Yolo Head是Yolo的分类器与回归器;S3.2、注意力机制部分是CBMA,这一部分能够让网络自适应注意到该注意的地方,该部分是通道注意力机制和空间注意力机制进行一个结合,CBAM会对输入进来的特征层,分别进行通道注意力机制的处理和空间注意力机制的处理;S3.3、另一个注意力机制部分是ECA,这一部分是通道注意力机制的一种实现形式,所述ECA去除了原来SE模块中的全连接层,直接在全局平均池化之后的特征上通过一个1D卷积进行学习;S3.4、通道注意力机制具体来说可以分为两部分,会对输入进来的单个特征层,分别进行全局平均池化和全局最大池化;之后对平均池化和最大池化的结果,利用共享的全连接层进行处理,会对处理后的两个结果进行相加,然后取一个sigmoid,此时获得了输入特征层每一个通道的权值,所述权值在0
...

【专利技术属性】
技术研发人员:王峰康智强李杰马晨吴国瑞赵伟裴林聪
申请(专利权)人:太原理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1