目标体的动作行为识别方法及装置制造方法及图纸

技术编号:19122658 阅读:45 留言:0更新日期:2018-10-10 05:29
本发明专利技术属于计算机视觉技术领域,具体涉及一种目标体的动作行为识别方法及装置,旨在解决如何准确识别具有相似背景的视频中动作行为的技术问题。为此目的,本发明专利技术中目标体的动作行为识别方法包括:基于预先构建的行为识别模型,获取目标体的时序视频特征,并根据所获取的时序视频特征,预测每个预设的所述目标体的动作行为类别对应的类属概率;根据预测结果,确定目标体的动作行为类别。基于本发明专利技术的方法,可以很好地捕捉视频整体的特征,以此能够很好的识别出具有相似背景及易混淆的视频中动作行为。

【技术实现步骤摘要】
目标体的动作行为识别方法及装置
本专利技术涉及计算机视觉
,具体涉及一种目标体的动作行为识别方法及装置。
技术介绍
人体动作行为识别技术广泛应用于人机智能交互、虚拟实现和视频监控等领域,其能够对人在不同场景下面的动作行为进行区分和判断。传统的动作行为识别方法,如基于双流卷积神经网络的动作行为识别方法,主要是通过提取并分析视频特征来识别动作行为的。基于双流卷积神经网络的动作行为识别方法主要包括如下步骤:首先,将视频拆分成空域和时域两种模态,并对这两种模态的数据分别进行处理。其次,对处理后的两种模态数据进行特征融合。最后,根据特征融合结果判断当前视频所对应的动作行为类别标签。这种动作行为识别方法虽然能够准确识别出视频所对应的动作行为类别,但是其往往利用视频的单帧信息对双流卷积神经网络进行网络训练(即只能学习视频的局部信息),因此在提取视频特征时也只能提取视频的局部特征。当对具有相似背景(如打球和灌篮)的视频进行动作识别时,将不能准确识别出动作行为类别。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何准确识别具有相似背景的视频中动作行为的技术问题。为此目的,本专利技术的第一方面,提供了一种目标体的动作行为识别方法,所述动作行为识别方法包括:基于预先构建的行为识别模型,获取所述目标体的时序视频特征,并根据所获取的时序视频特征,预测每个预设的所述目标体的动作行为类别对应的类属概率;根据预测结果,确定所述目标体的动作行为类别;其中,所述行为识别模型为基于预设的目标体视频样本,并利用机器学习算法所构建的双流卷积神经网络模型。进一步地,本专利技术提供的一个优选技术方案为:“获取所述目标体的时序视频特征”的步骤包括:获取所述目标体视频的空域视频信息和时域视频信息;基于预设的特征获取方法,并根据所述空域视频信息,获取所述目标体视频在空域模态下的时序视频特征;基于所述特征获取方法,并根据所述时域视频信息,获取所述目标体视频在时域模态下的时序视频特征。进一步地,本专利技术提供的一个优选技术方案为:所述特征获取方法包括:对特定视频信息进行抽帧处理,得到多个视频段信息;所述特定视频信息是空域视频信息或时域视频信息;对多个所述视频段信息分别进行编码,得到每个所述视频段信息对应的特征编码,并将所有视频段信息的特征编码合并,得到第一全局视频特征;对所述特定视频信息进行编码,得到该特定视频信息对应的第二全局视频特征;将所述第一全局视频特征和第二全局视频特征合并,得到所述特定视频信息对应的时序视频特征。进一步地,本专利技术提供的一个优选技术方案为:“根据所获取的时序视频特征,预测所述目标体的每个预设的动作行为类别对应的类属概率”的步骤包括:根据所述目标体视频在空域模态下的时序视频特征,预测每个所述动作类别对应的第一概率值;根据所述目标体视频在时域模态下的时序视频特征,预测每个所述动作类别对应的第二概率值;对所述第一概率值和第二概率值进行融合,得到每个所述动作类别对应的类属概率。进一步地,本专利技术提供的一个优选技术方案为:“对所述第一概率值和第二概率值进行融合,得到每个所述动作类别对应的类属概率”的步骤包括:对所述第一概率值和第二概率值进行加权求和,得到所述类属概率。进一步地,本专利技术提供的一个优选技术方案为:所述行为识别模型包括空域神经网络和时域神经网络;在“基于预先构建的行为识别模型,获取所述目标体的时序视频特征,并根据所获取的时序视频特征,预测所述目标体的每个预设的动作行为类别对应的类属概率”的步骤之前,所述方法还包括:分别对所述空域神经网络与时域神经网络进行参数权重初始化;获取所述目标体视频样本的时序视频特征;根据所获取的时序视频特征,并利用机器学习算法对所述行为识别模型进行模型训练。进一步地,本专利技术提供的一个优选技术方案为:“分别对所述空域神经网络与时域神经网络进行参数权重初始化”的步骤包括:获取预先完成网络训练的第一神经网络的参数权重,并根据所获取的参数权重对所述空域神经网络进行参数权重初始化;获取预先完成网络训练的第二神经网络的参数权重,并根据所获取的参数权重对所述时域神经网络进行参数权重初始化;其中,所述第一神经网络是基于Imagenet数据集,并利用所述机器学习算法进行网络训练得到的神经网络;所述第二神经网络是利用所述机器学习算法完成网络训练的TSN网络中的光流模态神经网络。进一步地,本专利技术提供的一个优选技术方案为:“根据所获取的时序视频特征,并利用机器学习算法对所述行为识别模型进行模型训练”的步骤包括根据所述时序视频特征与下式所示的目标函数E,并利用机器学习算法对所述行为识别模型进行模型训练:其中,zj为第j个动作行为类别对应的真实类属标签,zj的取值为0到n-1,Pj为第j个动作行为类别对应的类属概率,fj-1(x)为第j个动作行为类别对应的节点值。本专利技术的第二方面,还提供了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的目标体的动作行为识别方法。本专利技术的第三方面,还提供了一种控制装置,包括:处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的目标体的动作行为识别方法。与最接近的现有技术相比,上述技术方案至少具有如下有益效果:在本专利技术的技术方案中,通过行为识别模型,获取目标体的时序视频特征,并根据该时序视频特征,预测目标体的动作行为类别,这种方法能够很好的捕捉一个视频整体的特征,对于背景相似的动作行为类别和易混淆的动作行为类别都能够很好的识别;本专利技术中的时序视频特征获取方法可以提取时序视频特征,该特征能够体现不同尺度的视频信息,基于此可以较好的区分哪些背景相似的动作行为类别。附图说明图1为本专利技术实施例中一种目标体的动作行为识别方法的主要步骤示意图;图2为本专利技术实施例中一种行为识别模型的主要结构示意图;图3为本专利技术实施例中一种时序视频特征的编码方法的主要步骤示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。目前比较主流的基于深度神经网络进行动作行为识别的方法,是先将视频拆分成两个模态,分别为空域和时域两种模态,之后分别进行处理,在网络最后的输出端进行概率层面的特征融合来最后判断一个视频所对应的类别标签,例如基于two-stream、TSN等双流网络的方法。但绝大部分基于双流网络方法都是建立在帧级别上的特征,例如two-stream训练的时候是单帧的输入同时单帧的测试,即使TSN在训练的时候是一段视频的输入,网络在进行训练的时候也有进行特征融合,但是融合也仅仅是对单帧的特征进行融合,完全没有考虑视频所包含的时序的信息甚至于整体的信息。这种网络在表现上仅仅是做了一个场景分类,所以对于游泳和踢球这类动作可以很好的区分。但是如果遇到背景相似的类别比如投篮和灌篮,绝大部分双流网络方法都是无法区分的。为了解决上述问题,本专利技术公开了一种目标体的动作行为识别方法,能够广泛的用于自然场景下面的行为分类问题。本方法利用深度神经网络来对不同行为类别的视频样本进行区分判断,在大规模的视频数据集中仍然可以保证较高的识别准确率。下面结合附图,对本专利技术提供的目标体的动本文档来自技高网...
目标体的动作行为识别方法及装置

【技术保护点】
1.一种目标体的动作行为识别方法,其特征在于,所述动作行为识别方法包括:基于预先构建的行为识别模型,获取所述目标体的时序视频特征,并根据所获取的时序视频特征,预测每个预设的所述目标体的动作行为类别对应的类属概率;根据预测结果,确定所述目标体的动作行为类别;其中,所述行为识别模型为基于预设的目标体视频样本,并利用机器学习算法所构建的双流卷积神经网络模型。

【技术特征摘要】
1.一种目标体的动作行为识别方法,其特征在于,所述动作行为识别方法包括:基于预先构建的行为识别模型,获取所述目标体的时序视频特征,并根据所获取的时序视频特征,预测每个预设的所述目标体的动作行为类别对应的类属概率;根据预测结果,确定所述目标体的动作行为类别;其中,所述行为识别模型为基于预设的目标体视频样本,并利用机器学习算法所构建的双流卷积神经网络模型。2.根据权利要求1所述的目标体的动作行为识别方法,其特征在于,“获取所述目标体的时序视频特征”的步骤包括:获取所述目标体视频的空域视频信息和时域视频信息;基于预设的特征获取方法,并根据所述空域视频信息,获取所述目标体视频在空域模态下的时序视频特征;基于所述特征获取方法,并根据所述时域视频信息,获取所述目标体视频在时域模态下的时序视频特征。3.根据权利要求2所述的目标体的动作行为识别方法,其特征在于,所述特征获取方法包括:对特定视频信息进行抽帧处理,得到多个视频段信息;所述特定视频信息是空域视频信息或时域视频信息;对多个所述视频段信息分别进行编码,得到每个所述视频段信息对应的特征编码,并将所有视频段信息的特征编码合并,得到第一全局视频特征;对所述特定视频信息进行编码,得到该特定视频信息对应的第二全局视频特征;将所述第一全局视频特征和第二全局视频特征合并,得到所述特定视频信息对应的时序视频特征。4.根据权利要求2所述的目标体的动作行为识别方法,其特征在于,“根据所获取的时序视频特征,预测所述目标体的每个预设的动作行为类别对应的类属概率”的步骤包括:根据所述目标体视频在空域模态下的时序视频特征,预测每个所述动作类别对应的第一概率值;根据所述目标体视频在时域模态下的时序视频特征,预测每个所述动作类别对应的第二概率值;对所述第一概率值和第二概率值进行融合,得到每个所述动作类别对应的类属概率。5.根据权利要求4所述的目标体的动作行为识别方法,其特征在于,“对所述第一概率值和第二概率值进行融合,得到每个所述动作类别对应的类属概率”的步骤包括:对所述第一概率值和第二概率值进行加权求...

【专利技术属性】
技术研发人员:王亮张兆翔黄岩李林
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1