基于光流引导及双流网络的动作识别方法、系统及装置制造方法及图纸

技术编号:36432806 阅读:13 留言:0更新日期:2023-01-20 22:45
本发明专利技术提供了一种基于光流引导特征和双流网络的宠物犬动作识别方法,包括如下步骤:采集含有宠物犬动作的视频数据,对视频进行处理后划分为训练集和测试集;搭建特征生成子网络,用于提取视频图像序列的空间外观信息;基于光流引导特征搭建OFF子网络,用于提取视频图像序列的时间运动信息;搭建时空信息融合网络模型,融合所述空间特征图和时间特征图,输出视频级的特征矢量;基于光流场搭建LK光流神经网络;设置模型训练超参数,利用训练集训练模型,保存训练得到的权重文件;利用权重文件对测试集中视频进行动作预测,得到预测的结果。本发明专利技术通过引入光流引导特征和改进双流网络,强化了对于时空特征的提取,提高了动作识别的准确率。别的准确率。别的准确率。

【技术实现步骤摘要】
基于光流引导及双流网络的动作识别方法、系统及装置


[0001]本专利技术涉及动作识别
,具体涉及一种基于光流引导及双流网络的动作识别方法、系统及装置。

技术介绍

[0002]动作识别是视频理解方向很重要的一个问题,至今已经研究了很多年。动作识别和图像分类有相似之处,图像分类是根据图像中的目标进行软分类,早期动作识别与之类似,并且一个视频只有一个标签,代表视频中的动作。但是动作识别需要处理的是视频数据,每个视频包含大量的视频帧,并且每个视频长度很难一样,在开放环境下,很可能出现多尺度、多目标、视角移动等常见问题。想要处理一个视频数据需要大量的计算,在硬件资源还不够好的年代,动作识别任务很难有重大的突破。在深度学习之前,iDT方法应用较广,iDT算法基于DT算法改进,DT算法的基本思路为利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF、HOG、MBH、trajectory四种特征,其中HOF基于灰度图计算,另外几个均基于dense optical flow计算。最后利用FV方法对特征进行编码,再基于编码结果训练SVM分类器。而iDT改进的地方在于它利用前后两帧视频之间的光流以及SURF关键点进行匹配,从而消除、减弱运动所带来的影响,改进后的光流图像被称为warp optical flow。
[0003]在深度学习广泛应用后,双流法成为动作识别方向的一大主流方向。双流法将动作识别中的特征提取分为两个分支,一个是RGB分值提取空间特征,另一个是光流分支提取时间上的光流特征,最后结合两种特征进行动作识别,代表性方法有TSN、TRN。虽然双流法在当时数据集上展现了优势,但是双流法的密集光流提取特征计算量巨大,于是提出了C3D。C3D直接将2D卷积扩展到3D卷积,直接提取空间和时间两方面的特征,这一类也是目前比较火的一个topic,在C3D后陆续提出P3D、ECO,但是这些3D卷积方法都有一个很大的问题就是相比于模型的参数量巨大,且不容易训练。后来通过对光流的扩展研究,提出了光流引导特征,它能使网络快速且稳健地提取时间信息。并且现有动作识别算法,几乎都应用在人体动作上,对于宠物犬的动作研究基本没有,也没有现成的宠物犬动作视频数据集。

技术实现思路

[0004]针对上述问题,本专利技术的目的在于构建宠物犬动作视频数据集,改进双流网络,减少计算量,并将光流引导特征融入双流网络,强化对于时间特征的提取,提高动作识别的准确率。
[0005]基于上述目的,本专利技术提出了一种基于光流引导特征和双流网络的宠物犬动作识别方法,本专利技术的技术方案包括如下步骤:
[0006]采集含有宠物犬动作的视频数据,对视频进行处理后划分为训练集和测试集;
[0007]搭建特征生成子网络,用于提取视频图像序列的空间外观信息,所述特征生成子网络的输入为视频图像序列,输出为提取的空间特征图;对所述视频图像序列的处理包括:先进行随机抖动和角裁剪,再将所有图像缩放到224*224;
[0008]基于光流引导特征搭建OFF子网络,用于提取视频图像序列的时间运动信息,所述OFF子网络输入为所述特征生成子网络输出的空间特征图,输出为时间特征图;
[0009]搭建时空信息融合网络模型,融合所述空间特征图和时间特征图,输出视频级的特征矢量;
[0010]基于光流场搭建LK光流神经网络;
[0011]设置模型训练超参数,利用训练集训练模型,保存训练得到的权重文件;
[0012]利用权重文件对测试集中视频进行动作预测,根据预测得分判断视频中宠物犬的动作类别,并利用acc指标评估模型性能。
[0013]进一步地,所述宠物犬动作包括以下类别:sit、down、come、free、heel、place、bite;所述视频数据的采集环境包括实验室环境和生活环境,实验室环境的视频数据由人向宠物犬发出动作指令,再通过摄像机记录宠物犬反应的动作视频,在互联网搜集人与宠物犬在日常生活中互动的视频作为生活环境的视频数据;所述视频数据按照7:3的比例分为训练集和测试集。
[0014]进一步地,所述特征生成子网络包括:CP模块、C3C模块、CCP_X模块;
[0015]所述CP模块由3x3 Conv(stride=2)、BN正则化层、FRelu函数组成;
[0016]所述C3C模块由1x1 Conv、BN、FRelu、3x3 Conv(stride=1)、BN、FRelu、1x1 Conv、BN和空层残差连接组成;
[0017]所述CCP_X模块由3x3 Conv(stride=1)、BN、FRelu、X个C3C模块、CP模块和CP模块残差连接组成,X取值为4、8。
[0018]进一步地,所述随机抖动和角裁剪的具体步骤包括:对图像的像素值分布进行轻微扰动,调整所述图像的亮度、锐度、饱和度和对比度,从所述图像的四个角裁剪占比所述图像20%的区域,得到新图像。
[0019]进一步地,所述光流引导特征包括水平方向和垂直方向的特征映射的空间梯度,以及从不同帧的特征映射之间的差异获得的时间梯度;
[0020]所述OFF子网络由五个OFF单元组成,并且不同分辨率级别的OFF单元之间含有几个残差块,这些残差块构成Resnet

25;
[0021]所述OFF单元将光流引导特征与较低级别的特征连接在一起,得到组合后的特征并输出到邻近的残差块中;
[0022]所述OFF单元包含OFF层以产生光流引导特征,所述OFF层包含1*1Conv、sobel层和涉及元素减法的一组运算符,sobel层用于生成光流引导特征,运算符用于计算时间梯度。
[0023]进一步地,所述时空信息融合网络模型包括时空信息融合层、RNN层、时间池化层;所述时空信息融合层采用级联融合的方式,融合空间外观特征与时间运动特征;所述RNN层采用门控循环单元使得不同时间步的时空信息相互流通;所述时间池化层采用平均池化的方式汇总所述RNN层中每一个时间步的输出获得视频级的特征矢量。
[0024]进一步地,所述LK光流神经网络用于提取时间流特征,输入为连续视频帧之间的光流位移场I,I包含垂直维度光流和水平维度光流,对I进行随机裁剪和水平翻转,再进入Alexnet网络提取时间特征,得到输出结果为各动作score,并采用加权平均的方式融合所述特征矢量和各动作score,得到预测结果。
[0025]进一步地,所述设置模型训练超参数包括:设置小批次随机梯度下降算法更新反
向梯度,设置标准分类交叉熵作为损失函数,设置batch size为256,设置momentum为0.9,设置初始learning rate为0.01,每1000次迭代下降为10%,对各个网络进行单独训练,每次训练时固定其余网络参数,训练epoch均为100。
[0026]与现有技术相比,本专利技术提出的一种基于光流引导特征和双流网络的宠物犬动作识别方法,具有如下有益效果:
[0027]1.引入光流引导特征和信息融本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于光流引导及双流网络的动作识别方法,其特征在于,包括如下步骤:获取含有宠物犬动作的视频数据,划分为训练集和测试集,并对所述视频数据进行帧拆分处理得到初始视频图像帧序列;基于构建的特征生成子网络模型提取空间特征图,所述特征生成子网络的输入为视频图像帧序列,输出为空间特征图,其中,所述视频图像帧序列为经过随机抖动、角裁剪及等比例缩放处理的初始视频图像帧序列;基于构建的OFF子网络模型提取时间特征图,所述OFF子网络模型的输入为所述空间特征图,输出为时间特征图,其中,所述OFF子网络模型基于光流引导特征构建的;基于搭建的时空信息融合网络模型得到视频级特征矢量,所述时空信息融合网络模型的输入为空间特征图和时间特征图,输出为视频级特征矢量;基于光流场搭建LK光流神经网络模型,并融合所述特征生成子网络模型形成双流网络模型,训练双流网络模型得到权重文件,基于权重文件对测试集中视频进行动作预测,根据预测得分判断视频中宠物犬的动作类别。2.根据权利要求1所述的基于光流引导及双流网络的动作识别方法,其特征在于,所述宠物犬动作至少包括以下类别的一种或多种:坐下、趴下、靠脚、跟随、行走、撕咬、奔跑;所述视频数据的采集环境包括实验室环境和生活环境,所述实验室环境下的视频数据为固定拍摄视角下的训练犬动作视频,所述生活环境下的视频为日常生活中的人与宠物犬互动视频。3.根据权利要求1所述的基于光流引导及双流网络的动作识别方法,其特征在于,所述特征生成子网络模型包括:CP模块、CCP_4模块、C3C模块、CCP_8模块;所述CP模块包括3x3 Conv且stride=2、BN正则化层及FRelu函数;所述C3C模块包括第一卷积层、第二卷积层、第三卷积层及残差连接层,其中,第一卷积层包括1x1 Conv、BN及FRelu函数,第二卷积层包括3x3 Conv且stride=1、BN及FRelu函数,第三卷积层包括1x1 Conv及BN;所述CCP_X模块包括3x3 Conv且stride=1、BN、FRelu、X个C3C模块、CP模块及CP模块残差连接。4.根据权利要求1所述的基于光流引导及双流网络的动作识别方法,其特征在于,所述随机抖动、角裁剪及等比例缩放处理,包括以下步骤:对所述视频图像序列中所有图像的的像素值分布进行轻微扰动,调整所述图像的亮度、锐度、饱和度和对比度,从所述图像的四个角裁剪占比所述图像20%的区域,合并后按照固定高宽比等比例缩放,得到新图像。5.根据权利要求1所述的基于光流引导及双流网络的动作识别方法,其特征在于,所述光流引导特征包括水平方向的特征映射的空间梯度、垂直方向的特征映射的空间梯度以及从不同帧的特征映射之间的差异获得的时间梯度;所述OFF子网络包括五个处理不同分辨率的OFF单元,且每个OFF单元之间含有若干个残差块,所述残差块包括第一卷积层和第二卷积层,其中,第一卷积层包括3x3 Conv、BN正则化及Relu函数,第二卷积层包括1x1 Conv,所述若干个残差块构成Resnet

18网络;每个所述OFF单元将光流引导特征及其他级别...

【专利技术属性】
技术研发人员:汪志刚黄步添刘振广许曼迪陈建海
申请(专利权)人:杭州云象网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1