视频动作识别方法和装置制造方法及图纸

技术编号:19546556 阅读:30 留言:0更新日期:2018-11-24 21:05
本申请涉及一种视频动作识别方法和装置。上述方法包括:对视频中的每帧图片进行特征提取,得到每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对空间特征图中的每个位置的特征分别进行特征转换,得到每帧图片对应的运动特征构成的第一运动特征图;其中,与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图;将空间特征图与第一运动特征图拼接得到拼接特征图;根据拼接特征图识别视频中的动作。采用本方法能够无需引入参数即可完成视频中动作识别。

Video Action Recognition Method and Device

The present application relates to a video action recognition method and device. The above methods include: extracting the features of each frame in video to get the corresponding spatial feature map of each frame; using the features of neighborhood in the correlation feature map, transforming the features of each position in the spatial feature map separately, and obtaining the first motion feature map composed of the corresponding motion features of each frame. Among them, the feature map corresponding to the frame image whose frame spacing satisfies the set conditions is the correlation feature map of the feature map corresponding to each frame image; the stitching feature map is obtained by stitching the spatial feature map with the first motion feature map; and the action in the video is recognized according to the stitching feature map. With this method, motion recognition in video can be accomplished without introducing parameters.

【技术实现步骤摘要】
视频动作识别方法和装置
本申请涉及计算机视觉
,特别是涉及一种视频动作识别方法和装置。
技术介绍
随着计算机视觉技术的发展,对视频中动作的识别的需求也越来越高。由于视频是由具有时间连续性的帧序列组成的,因此,视频中的动作识别不仅要识别出每帧图片出现的人和物,还要识别出人随着时间的运动及人和物的交互。传统技术中,识别视频中的动作时,将时间和空间的神经网络连接在一起形成更大的神经网络,进而同时建模时间和空间上的信息,最终输出视频中的动作类别,但是该方法需要引入很多的参数,而目前GPU计算能力有限的情况下,不能一次性将所有参数放到GPU的显存中。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够无需引入参数即可完成视频中动作识别的视频动作识别方法和装置。第一方面,本专利技术实施例提供一种视频动作识别方法,方法包括:对视频中的每帧图片进行特征提取,得到每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对空间特征图中的每个位置的特征分别进行特征转换,得到每帧图片对应的运动特征构成的第一运动特征图;其中,与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图;将空间特征图与第一运动特征图拼接得到拼接特征图;根据拼接特征图识别视频中的动作。在其中一个实施例中,利用相关特征图中邻域的特征,对空间特征图中的每个位置的特征分别进行特征转换,得到每帧图片对应的运动特征构成的第一运动特征图,包括:根据帧间距确定空间特征图的相关特征图;根据每个空间特征图的每个位置的特征及相关特征图中邻域的特征,确定每个空间特征图的每个位置对应的运动特征;根据每个空间特征图的每个位置对应的运动特征,获得运动特征构成的第一运动特征图。在其中一个实施例中,根据每个空间特征图的每个位置的特征及相关特征图中邻域的特征,确定每个空间特征图的每个位置对应的运动特征,包括:将每个空间特征图的每个位置的特征与相关特征图中邻域的特征做点积运算,得到每个空间特征图的每个位置对应的运动特征。在其中一个实施例中,将空间特征图与第一运动特征图拼接得到拼接特征图,包括:对第一运动特征图进行卷积操作,得到第二运动特征图,第二运动特征图与空间特征图的特征维度相同;根据第二运动特征图和空间特征图得到拼接特征图。在其中一个实施例中,根据第二运动特征图和空间特征图得到拼接特征图,包括:将第二运动特征图与空间特征图拼接得到拼接特征图。在其中一个实施例中,根据第二运动特征图和空间特征图得到拼接特征图,包括:对第二运动特征图进行块归一化和线性整流,得到第三运动特征图;将第三运动特征图与空间特征图拼接得到拼接特征图。在其中一个实施例中,根据拼接特征图识别视频中的动作,包括:判断拼接特征图是否符合预定条件;若拼接特征图不符合预定条件,对拼接特征图中的每个位置的特征分别进行至少一次特征转换;若拼接特征图符合预定条件,根据拼接特征图识别视频中的动作。第二方面,本专利技术实施例提供一种视频动作识别装置,装置包括:提取模块,用于对视频中的每帧图片进行特征提取,得到每帧图片对应的空间特征图;特征转换模块,用于利用相关特征图中邻域的特征,对空间特征图中的每个位置的特征分别进行特征转换,得到每帧图片对应的运动特征构成的第一运动特征图;其中,与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图;拼接模块,用于将空间特征图与第一运动特征图拼接得到拼接特征图;识别模块,用于根据拼接特征图识别视频中的动作。第三方面,本专利技术实施例提供一种设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:对视频中的每帧图片进行特征提取,得到每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对空间特征图中的每个位置的特征分别进行特征转换,得到每帧图片对应的运动特征构成的第一运动特征图;其中,与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图;将空间特征图与第一运动特征图拼接得到拼接特征图;根据拼接特征图识别视频中的动作。第四方面,本专利技术实施例提供的一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:对视频中的每帧图片进行特征提取,得到每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对空间特征图中的每个位置的特征分别进行特征转换,得到每帧图片对应的运动特征构成的第一运动特征图;其中,与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图;将空间特征图与第一运动特征图拼接得到拼接特征图;根据拼接特征图识别视频中的动作。本专利技术提供的视频动作识别方法、装置、电子设备和存储介质,通过对提取到的视频中的每帧图片对应的空间特征图进行特征转换,得到运动特征构成的第一运动特征图,然后将空间特征图与第一运动特征图拼接,并根据拼接特征图识别视频中的动作。由上述可以看出,本实施例提供的视频动作识别方法,采用特征转换得到第一运动特征图时,并没有引入参数即可完成建模帧间运动,即同时建模时间和空间上的信息。附图说明图1为一个实施例提供的视频动作识别方法的流程示意图;图2为另一个实施例提供的视频动作识别方法的流程示意图;图3为一个实施例提供的视频动作识别方法中得到拼接特征图的流程示意图;图4为一个实施例提供的视频动作识别方法中识别视频中动作的流程示意图;图5为一个实施例提供的视频动作识别装置的结构示意图;图6为另一个实施例提供的视频动作识别装置的结构示意图;图7为又一个实施例提供的视频动作识别装置的结构示意图;图8为一个实施例中电子设备的内部结构图。具体实施方式随着技术的进步,人们的生活中越来越离不开视频,而一个视频中大部分都承载人物、场景、动作、语音中的至少一个,而对视频中的动作进行识别是计算机视觉和人工智能的基础问题。视频动作识别为给定一个视频片段,电子设备将识别出视频中的动作,比如喝水、鼓掌等。将视频中动作进行识别需要同时建模时间和空间上的信息,然而,传统技术中,将大的时间和空间神经网络连接在一起会引入很多参数,在目前GPU计算能力有限的情况下,一次性不能将所有参数放到GPU的显存中。本申请提供的视频动作识别方法、装置、电子设备和存储介质旨在解决传统技术的如上技术问题。需要说明的是,下述方法实施例的执行主体可以是视频动作识别装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述电子设备的部分或者全部。下述方法实施例以执行主体是电子设备为例来进行说明。为了使本专利技术的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本专利技术实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例提供的视频动作识别方法的流程示意图。本实施例涉及的是基于特征转换识别视频中动作的具体过程。如图1所示,该方法包括:S101、对视频中的每帧图片进行特征提取,得到每帧图片对应的空间特征图。具体的,视频中的每帧图片可以通过电子设备对视频进行采样得到。可选的,对视频进行采样时,可以选择采样频率为1帧/秒,也可以选择采用频率为2帧/秒。需要说明的是,本实施例对采样频率不做限定。可选的,可以采用本文档来自技高网...

【技术保护点】
1.一种视频动作识别方法,其特征在于,所述方法包括:对视频中的每帧图片进行特征提取,得到所述每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对所述空间特征图中的每个位置的特征分别进行特征转换,得到所述每帧图片对应的运动特征构成的第一运动特征图;其中,与所述每帧图片的帧间距满足设定条件的帧图像对应的特征图为所述每帧图片对应的特征图的相关特征图;将所述空间特征图与所述第一运动特征图拼接得到拼接特征图;根据所述拼接特征图识别所述视频中的动作。

【技术特征摘要】
1.一种视频动作识别方法,其特征在于,所述方法包括:对视频中的每帧图片进行特征提取,得到所述每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对所述空间特征图中的每个位置的特征分别进行特征转换,得到所述每帧图片对应的运动特征构成的第一运动特征图;其中,与所述每帧图片的帧间距满足设定条件的帧图像对应的特征图为所述每帧图片对应的特征图的相关特征图;将所述空间特征图与所述第一运动特征图拼接得到拼接特征图;根据所述拼接特征图识别所述视频中的动作。2.根据权利要求1所述的方法,其特征在于,所述利用相关特征图中邻域的特征,对所述空间特征图中的每个位置的特征分别进行特征转换,得到所述每帧图片对应的运动特征构成的第一运动特征图,包括:根据所述帧间距确定所述空间特征图的相关特征图;根据每个所述空间特征图的每个位置的特征及所述相关特征图中邻域的特征,确定每个所述空间特征图的每个位置对应的运动特征;根据每个所述空间特征图的每个位置对应的运动特征,获得运动特征构成的第一运动特征图。3.根据权利要求2所述的方法,其特征在于,所述根据每个所述空间特征图的每个位置的特征及所述相关特征图中邻域的特征,确定每个所述空间特征图的每个位置对应的运动特征,包括:将每个所述空间特征图的每个位置的特征与所述相关特征图中邻域的特征做点积运算,得到每个所述空间特征图的每个位置对应的运动特征。4.根据权利要求1所述的方法,其特征在于,所述将所述空间特征图与所述第一运动特征图拼接得到拼接特征图,包括:对所述第一运动特征图进行卷积操作,得到第二运动特征图,所述第二运动特征图与所述空间特征图的特征维度相同;根据所述第二运动特征图和所述空间特征图得到所述拼接特征图。5.根据权利要求4所述...

【专利技术属性】
技术研发人员:袁泽寰王长虎
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1