一种基于压缩域表征运动向量的行为识别方法技术

技术编号:28988268 阅读:26 留言:0更新日期:2021-06-23 09:40
本发明专利技术提供了一种基于压缩域表征运动向量的行为识别方法,首先,使用提出的利用运动向量进行视频关键信息序列检测模块提取源视频内关键信息子序列,并在子序列中进行稀疏采样,降低整体的计算复杂度。其次,利用视频编码解耦合以及相机方向角估计方法来提升运动向量的信息完整性和准确性。最后利用多输入多模态行为识别网络模型对视频动作进行有效识别。本发明专利技术极大程度降低了整体方法的计算复杂度,有效地提高视频端到端行为识别的实时性;提高了网络模型对视频有效信息的利用,在不增加计算复杂度的前提下有效地提高了行为识别准确率;克服了原始运动向量表征信息不完整导致网络模型直接利用运动向量识别精度下降的问题。

【技术实现步骤摘要】
一种基于压缩域表征运动向量的行为识别方法
本专利技术涉及深度学习、计算机视觉和视频编码
,尤其是一种人体行为识别方法。
技术介绍
视频行为识别已经成为人工智能的活跃领域,并被广泛的应用于人机交互、智慧交通、智慧安防等各个领域。随着智能终端的快速发展,视频已经逐渐取代文字和图片成为人们日常信息的主要获取方式。视频行为识别任务不同于传统的静态图片分类任务在于它包含了丰富的运动信息,然而视频的有效信息密度稀疏,关键信息定位不准确,传统时序特征提取计算复杂度高等问题仍然使得快速有效地识别视频动作具有挑战性。目前,面向视频行为识别的方法中与本专利技术相关的领域主要有两个:(1)如何利用视频的时序特征;(2)如何实现高效的视频有效信息采样策略;深度神经网络的快速发展对视频行为识别任务产生了深远的影响。大量研究者们提出了有效的卷积神经网络提取视频内的深度特征用于行为识别任务。Zisserman提出了经典的Two-stream网络结构,文献名“Two-streamconvolutionalnetworksforactionrecognitioninvideos”,通过在空域和时域上分别训练各自的卷积神经网络(convolutionneuralnetwork,CNN)来提取视频中RGB图像信息和时域运动信息,最后使用加权融合两个网络的分类结果获得最终的识别结果。这些网络结构虽然在识别准确度上达到了优秀的结果,但在利用视频的时序特征上依旧依赖传统的光流特征,这也导致了这些方法无法实现实时性的终端部署。由于视频内有效信息密度非常稀疏,研究者们对如何高效地提取视频有效信息进行了大量的研究。Shi在文献“Sequentialdeeptrajectorydescriptorforactionrecognitionwiththree-streamcnn”中提出了视频序列深度轨迹描述符(sequentialDeepTrajectoryDescriptor,sDTD),并将其引入三流(ThreeStream)网络中进行视频序列行为识别。Song在文献“Temporalspatialmappingforactionrecognition”中提出了一种简单但非常有效的时空域映射方法(spatial-temporalmapping,STM),用于获取视频内图像帧的时域信息辨识度。这些方法都需要在一定时间范围内进行密集采样,从而增加了网络模型的计算复杂度。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种基于压缩域表征运动向量的行为识别方法。首先,使用提出的利用运动向量进行视频关键信息序列检测模块提取源视频内关键信息子序列,并在子序列中进行稀疏采样,降低整体的计算复杂度。其次,利用视频编码解耦合以及相机方向角估计方法来提升运动向量的信息完整性和准确性。最后利用多输入多模态行为识别网络模型对视频动作进行有效识别。本专利技术的主要目的在于提出了一种基于压缩域表征运动向量的行为识别方法(CompressedVideoActionRecognitionusingMotionVectorRepresentation),使用运动向量替换光流作为视频的时序特征,设计了关键信息序列提取方法,更好地获取视频内有效信息,以进行高效准确地行为识别。本专利技术解决其技术问题所采用的技术方案包括以下步骤:步骤1、通过视频解码提取压缩视频的RGB原始图像帧信息和运动向量信息其中T为总帧数,fm_i表示第i帧图像的运动向量信息,fr_i表示第i帧图像的RGB信息;步骤2、通过视频运动向量分布特征切分出源视频内运动信息密度最大的3段序列作为视频关键信息序列其中k表示第k段视频关键信息序列;步骤3、利用相邻运动向量间的相互依赖性,通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息其中是当前采样帧像素点t所代表的位置信息,是像素点t在当前图像组第一帧参考帧处的相对位置,表示解耦合后的当前采样帧的运动向量信息;向量表示从终点到起点的位移信息;步骤4、利用角度投票算法,估算出视频内由于相机移动带来的背景移动运动信息,并通过目标区域的运动补偿减少由于相机移动带来的影响,具体形式如下maxhist(Ux,yA(Mx,y)),其中A((Mx,y)表示位于(x,y)位置上的运动向量的方向角,hist(·)表示运动向量方向角的直方图,即选择选择含有最大直方图的角度作为相机运动的估计方向,并对中心目标进行运动补偿;步骤5、在步骤二所得的视频关键信息序列中随机采样得到的空域图像帧经过行为识别基础网络模型ResNet获得相应的特征向量并通过求VS平均值得到空域模型最终的特征向量步骤6、利用通过步骤四后获得的增强运动向量经过时域行为识别基础网络模型ResNet获得相应的特征向量并通过求VT平均值得到时域模型最终的特征向量步骤7、对空域模型的输出和时域模型的输出进行加权求和得到最终的双模态特征向量所述步骤2具体步骤为:步骤2.1、利用整段视频每一帧图像的运动向量信息计算第i帧图像的相对运动向量通过计算相对运动向量减少相机运动对整体运动信息的影响;步骤2.2、计算前后帧图像的相对运动向量残差步骤2.3、MVresidual越大表示该区域的运动信息越丰富,将MVresidual小于所设置的阈值的区域作为关键信息区域的划分边界,而前后边界之间的区域为运动信息关键区域,其中阈值为整段视频中运动向量的平均值;步骤2.4、根据弱连续运动向量残差评价标准定位视频内关键信息序列的边界;弱连续运动向量残差评价标准为当MVresidual小于预先设定的阈值的连续图像帧数超过长度阈值L时,代表当前区域的运动状态变化不明显,即有效运动信息密度较低,可将其作为关键信息序列的边界,其中阈值设定为整段视频的平均运动向量强度。所述步骤2.4中,由于数据集中视频的帧率通常为35帧每秒,通过实验设定L为10最合适,即当MVresidual小于该视频的平均运动向量强度的连续帧数超过10帧时则表明该区域为边界区域。所述其中步骤4具体包括:步骤4.1、根据编码单元的划分深度确认图像的背景区域。通常而言,背景区域的划分深度通常而言比运动目标的划分深度更小,通过编码单元的划分深度来确定图像中的背景区域其中x,y为像素坐标,D表示坐标为(x,y)的划分深度,N为总的编码单元数目;步骤4.2、通过三角函数来计算运动向量在笛卡尔坐标系中的角度其中A(Mx,y)表示运动向量的方向角,hist(*)表示运动向量方向角的角度直方图;步骤4.3、根据Mc确定相机运动角度,将360°平均划分为12份,每份30°,将各个A(Mx,y)划分到各自的角度范围内,划分结束后通过计算各自角度范围内所有运动向量平均值来计算各个角度范围内的相机运动强度r(Mx,y);步骤4.4、由A(Mx,y)和r(Mx,y)确定出每一帧图像所包含的相机运动角度和运动强度;步骤4.5、确定相机运动角度和运动强度对中心区域在本文档来自技高网
...

【技术保护点】
1.一种基于压缩域表征运动向量的行为识别方法,其特征在于包括下述步骤:/n步骤1、通过视频解码提取压缩视频的RGB原始图像帧信息

【技术特征摘要】
1.一种基于压缩域表征运动向量的行为识别方法,其特征在于包括下述步骤:
步骤1、通过视频解码提取压缩视频的RGB原始图像帧信息和运动向量信息其中T为总帧数,fm_i表示第i帧图像的运动向量信息,fr_i表示第i帧图像的RGB信息;
步骤2、通过视频运动向量分布特征切分出源视频内运动信息密度最大的3段序列作为视频关键信息序列其中k表示第k段视频关键信息序列;
步骤3、利用相邻运动向量间的相互依赖性,通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息其中是当前采样帧像素点t所代表的位置信息,是像素点t在当前图像组第一帧参考帧处的相对位置,表示解耦合后的当前采样帧的运动向量信息;向量表示从终点到起点的位移信息;
步骤4、利用角度投票算法,估算出视频内由于相机移动带来的背景移动运动信息,并通过目标区域的运动补偿减少由于相机移动带来的影响,具体形式如下maxhist(∪x,yA(Mx,y)),其中A((Mx,y)表示位于(x,y)位置上的运动向量的方向角,hist(·)表示运动向量方向角的直方图,即选择选择含有最大直方图的角度作为相机运动的估计方向,并对中心目标进行运动补偿;
步骤5、在步骤二所得的视频关键信息序列中随机采样得到的空域图像帧经过行为识别基础网络模型ResNet获得相应的特征向量并通过求VS平均值得到空域模型最终的特征向量
步骤6、利用通过步骤四后获得的增强运动向量经过时域行为识别基础网络模型ResNet获得相应的特征向量并通过求VT平均值得到时域模型最终的特征向量
步骤7、对空域模型的输出和时域模型的输出进行加权求和得到最终的双模态特征向量


2.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述步骤2具体步骤为:
步骤2.1、利用整段视频每一帧图像的运动向量信息计算第i帧图像的相对运动向量通过计算相对运动向量减少相机运动对整体运动信息的影响;
步骤2.2、计算前后帧...

【专利技术属性】
技术研发人员:张冠文周铖辉周巍
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1