基于光流引导及双流网络的动作识别方法、系统及装置制造方法及图纸

技术编号：36432806 阅读：13 留言：0更新日期：2023-01-20 22:45

本发明专利技术提供了一种基于光流引导特征和双流网络的宠物犬动作识别方法，包括如下步骤：采集含有宠物犬动作的视频数据，对视频进行处理后划分为训练集和测试集；搭建特征生成子网络，用于提取视频图像序列的空间外观信息；基于光流引导特征搭建OFF子网络，用于提取视频图像序列的时间运动信息；搭建时空信息融合网络模型，融合所述空间特征图和时间特征图，输出视频级的特征矢量；基于光流场搭建LK光流神经网络；设置模型训练超参数，利用训练集训练模型，保存训练得到的权重文件；利用权重文件对测试集中视频进行动作预测，得到预测的结果。本发明专利技术通过引入光流引导特征和改进双流网络，强化了对于时空特征的提取，提高了动作识别的准确率。别的准确率。别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于光流引导及双流网络的动作识别方法、系统及装置

[0001]本专利技术涉及动作识别
，具体涉及一种基于光流引导及双流网络的动作识别方法、系统及装置。

技术介绍

[0002]动作识别是视频理解方向很重要的一个问题，至今已经研究了很多年。动作识别和图像分类有相似之处，图像分类是根据图像中的目标进行软分类，早期动作识别与之类似，并且一个视频只有一个标签，代表视频中的动作。但是动作识别需要处理的是视频数据，每个视频包含大量的视频帧，并且每个视频长度很难一样，在开放环境下，很可能出现多尺度、多目标、视角移动等常见问题。想要处理一个视频数据需要大量的计算，在硬件资源还不够好的年代，动作识别任务很难有重大的突破。在深度学习之前，iDT方法应用较广，iDT算法基于DT算法改进，DT算法的基本思路为利用光流场来获得视频序列中的一些轨迹，再沿着轨迹提取HOF、HOG、MBH、trajectory四种特征，其中HOF基于灰度图计算，另外几个均基于dense optical flow计算。最后利用FV方法对特征进行编码，再基于编码结果训练SVM分类器。而iDT改进的地方在于它利用前后两帧视频之间的光流以及SURF关键点进行匹配，从而消除、减弱运动所带来的影响，改进后的光流图像被称为warp optical flow。
[0003]在深度学习广泛应用后，双流法成为动作识别方向的一大主流方向。双流法将动作识别中的特征提取分为两个分支，一个是RGB分值提取空间特征，另一个是光流分支提取时间上的光流特征，最后结合两种特征进行动作识别...

【技术保护点】

【技术特征摘要】
1.一种基于光流引导及双流网络的动作识别方法，其特征在于，包括如下步骤：获取含有宠物犬动作的视频数据，划分为训练集和测试集，并对所述视频数据进行帧拆分处理得到初始视频图像帧序列；基于构建的特征生成子网络模型提取空间特征图，所述特征生成子网络的输入为视频图像帧序列，输出为空间特征图，其中，所述视频图像帧序列为经过随机抖动、角裁剪及等比例缩放处理的初始视频图像帧序列；基于构建的OFF子网络模型提取时间特征图，所述OFF子网络模型的输入为所述空间特征图，输出为时间特征图，其中，所述OFF子网络模型基于光流引导特征构建的；基于搭建的时空信息融合网络模型得到视频级特征矢量，所述时空信息融合网络模型的输入为空间特征图和时间特征图，输出为视频级特征矢量；基于光流场搭建LK光流神经网络模型，并融合所述特征生成子网络模型形成双流网络模型，训练双流网络模型得到权重文件，基于权重文件对测试集中视频进行动作预测，根据预测得分判断视频中宠物犬的动作类别。2.根据权利要求1所述的基于光流引导及双流网络的动作识别方法，其特征在于，所述宠物犬动作至少包括以下类别的一种或多种：坐下、趴下、靠脚、跟随、行走、撕咬、奔跑；所述视频数据的采集环境包括实验室环境和生活环境，所述实验室环境下的视频数据为固定拍摄视角下的训练犬动作视频，所述生活环境下的视频为日常生活中的人与宠物犬互动视频。3.根据权利要求1所述的基于光流引导及双流网络的动作识别方法，其特征在于，所述特征生成子网络模型包括：CP模块、CCP_4模块、C3C模块、CCP_8模块；所述CP模块包括3x3 Conv且stride＝2、BN正则化层及FRelu函数；所述C3C模块包括第一卷积层、第二卷积层、第三卷积层及残差连接层，其中，第一卷积层包括1x1 Conv、BN及FRelu函数，第二卷积层包括3x3 Conv且stride＝1、BN及FRelu函数，第三卷积层包括1x1 Conv及BN；所述CCP_X模块包括3x3 Conv且stride＝1、BN、FRelu、X个C3C模块、CP模块及CP模块残差连接。4.根据权利要求1所述的基于光流引导及双流网络的动作识别方法，其特征在于，所述随机抖动、角裁剪及等比例缩放处理，包括以下步骤：对所述视频图像序列中所有图像的的像素值分布进行轻微扰动，调整所述图像的亮度、锐度、饱和度和对比度，从所述图像的四个角裁剪占比所述图像20％的区域，合并后按照固定高宽比等比例缩放，得到新图像。5.根据权利要求1所述的基于光流引导及双流网络的动作识别方法，其特征在于，所述光流引导特征包括水平方向的特征映射的空间梯度、垂直方向的特征映射的空间梯度以及从不同帧的特征映射之间的差异获得的时间梯度；所述OFF子网络包括五个处理不同分辨率的OFF单元，且每个OFF单元之间含有若干个残差块，所述残差块包括第一卷积层和第二卷积层，其中，第一卷积层包括3x3 Conv、BN正则化及Relu函数，第二卷积层包括1x1 Conv，所述若干个残差块构成Resnet
‑
18网络；每个所述OFF单元将光流引导特征及其他级别...

【专利技术属性】
技术研发人员：汪志刚，黄步添，刘振广，许曼迪，陈建海，
申请(专利权)人：杭州云象网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人