3D动作识别方法、装置、计算机可读存储介质及设备制造方法及图纸

技术编号:26846513 阅读:32 留言:0更新日期:2020-12-25 13:09
本发明专利技术公开了一种3D动作识别方法、装置、计算机可读存储介质及设备,属于模式识别领域。该方法包括:对训练集包括的视频样本进行解析,每个视频样本解析后得到一系列原始帧图像;对每个视频样本的一系列原始帧图像进行对比度增强和色彩增强,得到每个视频样本的一系列对比度增强图像和一系列色彩增强图像;使用所有视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像对3D卷积神经网络进行训练;使用训练后的3D卷积神经网络进行3D动作识别。本发明专利技术既提高了识别性能,又缩短了识别时间。

【技术实现步骤摘要】
3D动作识别方法、装置、计算机可读存储介质及设备
本专利技术涉及模式识别领域,特别是指一种3D动作识别方法、装置、计算机可读存储介质及设备。
技术介绍
现阶段用于动作识别的深度学习方法中,包括基于RGB数据训练的模型以及同时基于RGB和Flow训练的Two-stream模型。(1)基于视频(RGB)的网络该方法是直接以视频(或者看做是帧图像)作为输入,直接利用视频帧图的RGB信息,通过一个3D卷积神经网络(3DCNN)实现特征提取和动作识别。基于RGB的3DCNN,单独依靠RGB信息,对于动作识别来说是单一的,视频中的运动信息不能很好的获取,从而影响整个系统的识别准确率。(2)基于RGB与Flow的Two-stream网络双流网络(Two-stream),是一种基于两种模态(RGB和Flow)的动作识别方法,其中光流(Flow)是一种简单实用的图像运动表达方式,是物体在三维真实世界中的运动在二维图像平面上的表达。该方法是基于人类视觉皮层观察事物做识别的双流假设建立,人类视觉皮层包含两条路径:腹侧流,用于识别物体;背侧流,用于识别运动信息。类比人类,用于动作识别的双流网络分别建立两个深度学习网络分支,一个用于提取视频RGB特征,一个用于提取视频的Flow特征,然后将两者融合在一起,得到最终的分类结果。该方法认为,通过光流可以捕捉到视频中的运动信息。Two-stream动作识别方法认为,通过RGB获取人体外形(appearance)信息,通过光流(Flow)获取运动信息或轨迹信息。双模态的利用保证了模型获取信息的全面性,从而提高了系统的识别性能。但通过对Flow数据的分析研究发现,光流(Flow)在动作识别中表现好的原因在于其对图像的表观不变性而非运动轨迹信息。虽然光流对RGB图会有弥补,但光流提取的过程也相当耗时,这也是光流运用中让人困扰的问题。
技术实现思路
为解决上述技术问题,本专利技术提供一种3D动作识别方法、装置、计算机可读存储介质及设备,本专利技术既提高了识别性能,又缩短了识别时间。本专利技术提供技术方案如下:第一方面,本专利技术提供一种3D动作识别方法,所述方法包括:对训练集包括的视频样本进行解析,每个视频样本解析后得到一系列原始帧图像;对每个视频样本的一系列原始帧图像进行对比度增强和色彩增强,得到每个视频样本的一系列对比度增强图像和一系列色彩增强图像;使用所有视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像对3D卷积神经网络进行训练;使用训练后的3D卷积神经网络进行3D动作识别。进一步的,所述色彩增强包括:对每一幅原始帧图像,按照R、G、B三个颜色通道分别计算均值和标准差;在所有原始帧图像上计算协方差矩阵并进行特征值分解,得到特征向量和特征值;对每一幅原始帧图像进行PCA变换,并对主成分做一个高斯扰动,得到色彩增强图像。进一步的,所述对比度增强包括:对每一幅原始帧图像,将其转换为R、G、B分量图像;对所述R、G、B分量图像做直方图均衡化处理;将直方图均衡化处理后的R、G、B分量图像组合成RGB图像,得到对比度增强图像。进一步的,所述使用所有视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像对3D卷积神经网络进行训练,包括:将每个视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像分别保存一个训练数据,所述训练数据包括视频样本数、图像的帧数、图像的大小和通道数;使用所有视频样本的训练数据对3D卷积神经网络进行训练。进一步的,所述3D卷积神经网络依次包括第一卷积层、第一Max-Pooling层、第二卷积层、第三卷积层、第二Max-Pooling层、第一Inception模块、第二Inception模块、第三Max-Pooling层、第三Inception模块、第四Inception模块、第五Inception模块、第六Inception模块、第七Inception模块、第四Max-Pooling层、第八Inception模块、第九Inception模块、Avg-Pooling层、全连接层、Softmax层。进一步的,所述第一卷积层的卷积核大小为7*7*7,步长为2;所述第一Max-Pooling层的核大小为1*3*3,步长为1,2,2;所述第二卷积层的卷积核大小为1*1*1;所述第三卷积层的卷积核大小为3*3*3;所述第二Max-Pooling层的核大小为1*3*3,步长为1,2,2;所述第三Max-Pooling层的核大小为3*3*3,步长为2;所述第四Max-Pooling层的核大小为2*2*2,步长为2;所述Avg-Pooling层的核大小为2*7*7,所述全连接层的核大小为1*1*1。第二方面,本专利技术提供一种3D动作识别装置,所述装置包括:图像获取模块,用于对训练集包括的视频样本进行解析,每个视频样本解析后得到一系列原始帧图像;图像增强模块,用于对每个视频样本的一系列原始帧图像进行对比度增强和色彩增强,得到每个视频样本的一系列对比度增强图像和一系列色彩增强图像;训练模块,用于使用所有视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像对3D卷积神经网络进行训练;识别模块,用于使用训练后的3D卷积神经网络进行3D动作识别。进一步的,所述色彩增强包括:第一计算单元,用于对每一幅原始帧图像,按照R、G、B三个颜色通道分别计算均值和标准差;第二计算单元,用于在所有原始帧图像上计算协方差矩阵并进行特征值分解,得到特征向量和特征值;变换单元,用于对每一幅原始帧图像进行PCA变换,并对主成分做一个高斯扰动,得到色彩增强图像。进一步的,所述对比度增强包括:转换单元,用于对每一幅原始帧图像,将其转换为R、G、B分量图像;处理单元,用于对所述R、G、B分量图像做直方图均衡化处理;组合单元,用于将直方图均衡化处理后的R、G、B分量图像组合成RGB图像,得到对比度增强图像。进一步的,所述训练模块包括:数据保存单元,用于将每个视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像分别保存一个训练数据,所述训练数据包括视频样本数、图像的帧数、图像的大小和通道数;训练单元,用于使用所有视频样本的训练数据对3D卷积神经网络进行训练。进一步的,所述3D卷积神经网络依次包括第一卷积层、第一Max-Pooling层、第二卷积层、第三卷积层、第二Max-Pooling层、第一Inception模块、第二Inception模块、第三Max-Pooling层、第三Inception模块、第四Inception模块、第五Inception模块、第六Inception模块、第七Inception模块、第四Max-Pooling层、第八Inception模块、第本文档来自技高网
...

【技术保护点】
1.一种3D动作识别方法,其特征在于,所述方法包括:/n对训练集包括的视频样本进行解析,每个视频样本解析后得到一系列原始帧图像;/n对每个视频样本的一系列原始帧图像进行对比度增强和色彩增强,得到每个视频样本的一系列对比度增强图像和一系列色彩增强图像;/n使用所有视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像对3D卷积神经网络进行训练;/n使用训练后的3D卷积神经网络进行3D动作识别。/n

【技术特征摘要】
1.一种3D动作识别方法,其特征在于,所述方法包括:
对训练集包括的视频样本进行解析,每个视频样本解析后得到一系列原始帧图像;
对每个视频样本的一系列原始帧图像进行对比度增强和色彩增强,得到每个视频样本的一系列对比度增强图像和一系列色彩增强图像;
使用所有视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像对3D卷积神经网络进行训练;
使用训练后的3D卷积神经网络进行3D动作识别。


2.根据权利要求1所述的3D动作识别方法,其特征在于,所述色彩增强包括:
对每一幅原始帧图像,按照R、G、B三个颜色通道分别计算均值和标准差;
在所有原始帧图像上计算协方差矩阵并进行特征值分解,得到特征向量和特征值;
对每一幅原始帧图像进行PCA变换,并对主成分做一个高斯扰动,得到色彩增强图像。


3.根据权利要求1或2所述的3D动作识别方法,其特征在于,所述对比度增强包括:
对每一幅原始帧图像,将其转换为R、G、B分量图像;
对所述R、G、B分量图像做直方图均衡化处理;
将直方图均衡化处理后的R、G、B分量图像组合成RGB图像,得到对比度增强图像。


4.根据权利要求3所述的3D动作识别方法,其特征在于,所述使用所有视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像对3D卷积神经网络进行训练,包括:
将每个视频样本的一系列原始帧图像、一系列对比度增强图像和一系列色彩增强图像分别保存一个训练数据,所述训练数据包括视频样本数、图像的帧数、图像的大小和通道数;
使用所有视频样本的训练数据对3D卷积神经网络进行训练。


5.根据权利要求3所述的3D动作识别方法,其特征在于,所述3D卷积神经网络依次包括第一卷积层、第一Max-Pooling层、第二卷积层、第三卷积层、第二Max-Pooling层、第一Inception模块、第二Inception模块、第三Max-Pooling层、第三Inception模块、第四Inception模块、第五Inception...

【专利技术属性】
技术研发人员:周军孙叶纳江武明丁松
申请(专利权)人:北京眼神智能科技有限公司北京眼神科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1