一种基于空洞卷积的高时序3D神经网络的动作识别方法技术

技术编号:22308687 阅读:40 留言:0更新日期:2019-10-16 08:46
本发明专利技术提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法,包括:首先对三维Inception‑V1神经网络模型进行改进,得到改进后的三维Inception‑V1神经网络模型;然后将公开数据集分为训练集和测试集对改进后的三维Inception‑V1神经网络模型进行训练和测试,得到训练后的高精度三维Inception‑V1神经网络模型;最后采用训练后的高精度三维Inception‑V1神经网络模型对实际视频的动作进行识别。本发明专利技术的有益效果是:本发明专利技术所提出的技术方案在保持高时序性的同时引入新的非局部特征门算法来重新定义三维Inception‑V1神经网络模型通道权重,提高了模型准确率。

An action recognition method based on 3D neural network with high time sequence based on cavity convolution

【技术实现步骤摘要】
一种基于空洞卷积的高时序3D神经网络的动作识别方法
本专利技术涉及人工智能、计算机视觉领域领域,尤其涉及一种基于空洞卷积的高时序3D神经网络的动作识别方法。
技术介绍
近些年来,作为计算机视觉任务之一的行为识别受到越来越多的关注。随着深度学习方法在图像分类、分割等领域的成功,行为识别方法也已经从传统人工提取特征的方法向着深度学习方法发展,特别是卷积神经网络方面,并且取得了不错的效果。基于深度学习的视频识别方法大体分为两类,2DCNNs和3DCNNs。2DCNNs方法将空间和时间信息分开学习再融合得到最后的分类结果,同时借助于2DCNNs方法在图像识别领域的成功,2DCNNs方法取得了state-of-art结果.不同于2DCNNs使用2D的卷积核进行运算,3DCNNs中将2D卷积核扩充到3维,增加时间维度,使3DCNNs方法可以在训练静态图片的过程中同时学习空间和时间信息。但是相比较于2DCNNs方法在UCF101、HMDB51等数据集上获得的精度,3DCNNs方法并不能获得让人满意的结果。2DCNNs方法在进行视频识别的时候输入网络的是代表整个视频的间隔采样帧图像,从输入到输出时间信息都保持完整。而一般的3DCNNs都会对时间维度进行下采样,这就导致了进入网络的时间维度到最后变小几倍,这与2DCNNs时间维度信息没有变化是有差别的,而这种时间维度的变化是否会对3DCNNs的精度产生影响呢?为了解决3DCNNs网络中时间维度下采样问题,本方法修改3DCNNs网络中对时间维度的下采样操作,让网络保持一个高时序.通俗来讲本方法修改网络中的max-pooling操作从步长2x2x2到1x2x2。修改时间维度之后网络相比于之前的下采样操作会在感受野上发生变化,为了获得较之前网络同等大小的感受野,本方法在后面的3D卷积核中使用空洞卷积.这样一来网络在保持高时序的同时拥有较大感受野。为了提高视频识别精度,一方面可以使用Kinetics、Sports-1M等大数据集训练新模型然后再到UCF101、HMDB51等小型数据集上微调,但是在大数据集上从最开始训练一个好的模型往往要花费较长时间,尤其是3D卷积神经网络.另一方面可以在现有state-of-art网络,如I3D、Res3D,的基础上使用迁移学习方法进行改进。通过加入像non-localblock、TTL等模块,模型精度可以进一步提升。但是之前的大多数模块都忽略了在通道之间的交互。最近提出的STCblock、spatio-temporalfeaturegating和contextfeaturegating通过关注通道之间的交互,进一步提升了模型精度。为进一步提升模型精度,本方法引入了一种新的非局部特征门(non-localfeaturegating)块,它可以有效地捕获整个网络层的通道之间的相关信息。
技术实现思路
为了解决上述问题,本专利技术提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法,一种基于空洞卷积的高时序3D神经网络的动作识别方法,主要包括以下步骤:S101:获取公开数据集,并将所述数据集划分为训练集和测试集;所述公开数据集包括UCF101和HMDB51两个公开数据集;S102:对三维Inception-V1神经网络模型进行改进,得到改进后的三维Inception-V1神经网络模型;S103:将所述训练集和所述测试集中的所有视频分别进行预处理,得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据;S104:采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,以对所述改进后的三维Inception-V1神经网络模型的内部参数进行训练,进而得到训练后的高精度三维Inception-V1神经网络模型;S105:将待识别的视频进行预处理,得到预处理后的帧图像数据;S106:将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception-V1神经网络模型,得到所述待识别的视频所属的动作类型。进一步地,步骤S101中,所述训练集和所述测试集均包括多个动作类型,每个动作类型对应有多个视频;所述UCF101和HMDB51两个公开数据集分别包含有101个动作类型和51个动作类型,每个动作类型均包含多个视频。进一步地,步骤S102中,所述改进后的三维Inception-V1神经网络模型包括5个Stage,分别为Stage1、Stage2、Stage3、Stage4和Stage5;步骤S102中,对三维Inception-V1神经网络模型进行改进,包括以下两个方面:1)将Stage4和Stage5中的原来的3DInceptionblocks替换为3DInception-Tblocks;同时修改与Stage4和Stage5相近的最大池化操作:在时间维度采用卷积核为1,步长为1的池化层;其中,3DInception-Tblocks相比于原3DInceptionblocks的改进为:卷积操作分别使用空洞卷积率为2和4的卷积核,即在Stage4中使用rate为2的空洞卷积,在Stage5中使用rate为4的空洞卷积;2)在Stage4的每个3DInception-Tblocks后添加一个非局部特征门块,为各3DInception-Tblocks的特征向量X重新赋予权重,以提高模型精度;其中,所述非局部特征门块中使用非局部特征门算法,具体如公式(1):Z=σ(Y)⊙X(1)上式中,X为输入3DInception-Tblocks的特征向量,Y为输入3DInception-Tblocks的非局部特征向量,Z为重新赋予特征向量X的权重,σ是sigmoid激活函数,⊙为矩阵相乘运算。进一步地,步骤S103中,预处理方法为:首先采用OpenCV图像库对各视频进行帧图像提取,以将所述训练集和所述测试集中的各视频分别处理为连续帧图像;然后在各视频的连续帧图像中提取64帧图像,作为各视频的帧图像数据;所述训练集中所有视频的帧图像数据共同组成帧图像训练数据,所述测试集中所有视频的帧图像数据共同组成帧图像测试数据。进一步地,在某个视频的连续帧图像中提取64帧图像的方法为:首先将该视频的连续帧图像均分为64份;然后在每一份中随机选取一帧图像,进而组成64帧图像;最后将这64帧图像作为该视频的帧图像数据。进一步地,步骤S104中,采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,具体包括如下步骤:S201:对所述帧图像训练数据和所述帧图像测试数据中的各帧图像数据进行标签标注,得到带有标签的帧图像训练数据和带有标签的帧图像测试数据;其中,所述标签即为各视频的实际所属动作类型;S202:将当前帧图像训练数据组输入当前改进后的三维Inception-V1神经网络模型,得到当前帧图像训练数据组的特征输出;其中,在带有标签的所述帧图像训练数据中随机选择S个帧图像数据,组成初始的所述帧图像训练数据组,且每一次将当前帧图像数据组还原为初始的所述帧图像训练数据组时,均重新随机选择S个帧图像数据;S为预设值,为大于0的整数,S根据实际硬件设备条件取值;S203:根据所本文档来自技高网
...

【技术保护点】
1.一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于,包括如下步骤:S101:获取公开数据集,并将所述数据集划分为训练集和测试集;所述公开数据集包括UCF101和HMDB51两个公开数据集;S102:对三维Inception‑V1神经网络模型进行改进,得到改进后的三维Inception‑V1神经网络模型;S103:将所述训练集和所述测试集中的所有视频分别进行预处理,得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据;S104:采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception‑V1神经网络模型分别进行训练及测试,以对所述改进后的三维Inception‑V1神经网络模型的内部参数进行训练,进而得到训练后的高精度三维Inception‑V1神经网络模型;S105:将待识别的视频进行预处理,得到预处理后的帧图像数据;S106:将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception‑V1神经网络模型,得到所述待识别的视频所属的动作类型。

【技术特征摘要】
1.一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于,包括如下步骤:S101:获取公开数据集,并将所述数据集划分为训练集和测试集;所述公开数据集包括UCF101和HMDB51两个公开数据集;S102:对三维Inception-V1神经网络模型进行改进,得到改进后的三维Inception-V1神经网络模型;S103:将所述训练集和所述测试集中的所有视频分别进行预处理,得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据;S104:采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,以对所述改进后的三维Inception-V1神经网络模型的内部参数进行训练,进而得到训练后的高精度三维Inception-V1神经网络模型;S105:将待识别的视频进行预处理,得到预处理后的帧图像数据;S106:将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception-V1神经网络模型,得到所述待识别的视频所属的动作类型。2.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S101中,所述训练集和所述测试集均包括多个动作类型,每个动作类型对应有多个视频;所述UCF101和HMDB51两个公开数据集分别包含有101个动作类型和51个动作类型,每个动作类型均包含多个视频。3.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S102中,所述改进后的三维Inception-V1神经网络模型包括5个Stage,分别为Stage1、Stage2、Stage3、Stage4和Stage5;步骤S102中,对三维Inception-V1神经网络模型进行改进,包括以下两个方面:1)将Stage4和Stage5中的原来的3DInceptionblocks替换为3DInception-Tblocks;同时修改与Stage4和Stage5相近的最大池化操作:在时间维度采用卷积核为1,步长为1的池化层;其中,3DInception-Tblocks相比于原3DInceptionblocks的改进为:卷积操作分别使用空洞卷积率为2和4的卷积核,即在Stage4中使用rate为2的空洞卷积,在Stage5中使用rate为4的空洞卷积;2)在Stage4的每个3DInception-Tblocks后添加一个非局部特征门块,为各3DInception-Tblocks的特征向量X重新赋予权重,以提高模型精度;其中,所述非局部特征门块中使用非局部特征门算法,具体如公式(1):Z=σ(Y)⊙X(1)上式中,X为输入3DInception-Tblocks的特征向量,Y为输入3DInception-Tblocks的非局部特征向量,Z为重新赋予特征向量X的权重,σ是sigmoid激活函数,⊙为矩阵相乘运算。4.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S103中,预处理方法为:首先采用OpenCV图像库对各视频进行帧图像提取,以将所述训练集和所述测试集中的各视频分别处理为连续帧图像;然后在各视频的连续帧图像中提取64帧图像,作为各视频的帧图像数据;所述训练集中所有视频的帧图像数据共同组成帧图像训练数据,所述测试集中所有视频的帧图像数据共同组成帧图像测试数据。5.如权利要求4所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:在某个视频的连续帧图像中提取64帧图像的方法为:首先将该视频的连续帧图像均分为64份;然后在每一份中随机选取一帧图像,进而组成64帧图像;最后将这64帧图像作为该视频的帧图像数据。6.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法,其特征在于:步骤S104中,采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试,具体包括如下步骤:S201:对所述帧图像训练数据和所述帧图像测试数据中的各帧图像数据进行标签标注,得到带有标签的帧图像训练数据和带有标签的帧图像测试数据;其中,所述标签即为各视频的实际所属动作类型;S202:将当前帧图像训练数据组输入当前改进后的三维Inception-V1神经网络模型,得到当前帧图像训练数据组的特征输出;其中,在带有标签的所述帧图像训练数据中随机选择S个帧图像数据,组成初始的所述帧图像训练数据组,且每一次将当前帧图像数据组还原为初...

【专利技术属性】
技术研发人员:徐永洋冯雅兴谢忠胡安娜曹豪豪
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1