The present application relates to a video action recognition method and device. The above methods include: extracting the features of each frame in video to get the corresponding spatial feature map of each frame; using the features of neighborhood in the correlation feature map, transforming the features of each position in the spatial feature map separately, and obtaining the first motion feature map composed of the corresponding motion features of each frame. Among them, the feature map corresponding to the frame image whose frame spacing satisfies the set conditions is the correlation feature map of the feature map corresponding to each frame image; the stitching feature map is obtained by stitching the spatial feature map with the first motion feature map; and the action in the video is recognized according to the stitching feature map. With this method, motion recognition in video can be accomplished without introducing parameters.
【技术实现步骤摘要】
视频动作识别方法和装置
本申请涉及计算机视觉
,特别是涉及一种视频动作识别方法和装置。
技术介绍
随着计算机视觉技术的发展,对视频中动作的识别的需求也越来越高。由于视频是由具有时间连续性的帧序列组成的,因此,视频中的动作识别不仅要识别出每帧图片出现的人和物,还要识别出人随着时间的运动及人和物的交互。传统技术中,识别视频中的动作时,将时间和空间的神经网络连接在一起形成更大的神经网络,进而同时建模时间和空间上的信息,最终输出视频中的动作类别,但是该方法需要引入很多的参数,而目前GPU计算能力有限的情况下,不能一次性将所有参数放到GPU的显存中。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够无需引入参数即可完成视频中动作识别的视频动作识别方法和装置。第一方面,本专利技术实施例提供一种视频动作识别方法,方法包括:对视频中的每帧图片进行特征提取,得到每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对空间特征图中的每个位置的特征分别进行特征转换,得到每帧图片对应的运动特征构成的第一运动特征图;其中,与每帧图片的帧间距满足设定条件的帧图像对应的特征图为每帧图片对应的特征图的相关特征图;将空间特征图与第一运动特征图拼接得到拼接特征图;根据拼接特征图识别视频中的动作。在其中一个实施例中,利用相关特征图中邻域的特征,对空间特征图中的每个位置的特征分别进行特征转换,得到每帧图片对应的运动特征构成的第一运动特征图,包括:根据帧间距确定空间特征图的相关特征图;根据每个空间特征图的每个位置的特征及相关特征图中邻域的特征,确定每个空间特征图的每个位置对应的运动特征 ...
【技术保护点】
1.一种视频动作识别方法,其特征在于,所述方法包括:对视频中的每帧图片进行特征提取,得到所述每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对所述空间特征图中的每个位置的特征分别进行特征转换,得到所述每帧图片对应的运动特征构成的第一运动特征图;其中,与所述每帧图片的帧间距满足设定条件的帧图像对应的特征图为所述每帧图片对应的特征图的相关特征图;将所述空间特征图与所述第一运动特征图拼接得到拼接特征图;根据所述拼接特征图识别所述视频中的动作。
【技术特征摘要】
1.一种视频动作识别方法,其特征在于,所述方法包括:对视频中的每帧图片进行特征提取,得到所述每帧图片对应的空间特征图;利用相关特征图中邻域的特征,对所述空间特征图中的每个位置的特征分别进行特征转换,得到所述每帧图片对应的运动特征构成的第一运动特征图;其中,与所述每帧图片的帧间距满足设定条件的帧图像对应的特征图为所述每帧图片对应的特征图的相关特征图;将所述空间特征图与所述第一运动特征图拼接得到拼接特征图;根据所述拼接特征图识别所述视频中的动作。2.根据权利要求1所述的方法,其特征在于,所述利用相关特征图中邻域的特征,对所述空间特征图中的每个位置的特征分别进行特征转换,得到所述每帧图片对应的运动特征构成的第一运动特征图,包括:根据所述帧间距确定所述空间特征图的相关特征图;根据每个所述空间特征图的每个位置的特征及所述相关特征图中邻域的特征,确定每个所述空间特征图的每个位置对应的运动特征;根据每个所述空间特征图的每个位置对应的运动特征,获得运动特征构成的第一运动特征图。3.根据权利要求2所述的方法,其特征在于,所述根据每个所述空间特征图的每个位置的特征及所述相关特征图中邻域的特征,确定每个所述空间特征图的每个位置对应的运动特征,包括:将每个所述空间特征图的每个位置的特征与所述相关特征图中邻域的特征做点积运算,得到每个所述空间特征图的每个位置对应的运动特征。4.根据权利要求1所述的方法,其特征在于,所述将所述空间特征图与所述第一运动特征图拼接得到拼接特征图,包括:对所述第一运动特征图进行卷积操作,得到第二运动特征图,所述第二运动特征图与所述空间特征图的特征维度相同;根据所述第二运动特征图和所述空间特征图得到所述拼接特征图。5.根据权利要求4所述...
【专利技术属性】
技术研发人员:袁泽寰,王长虎,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。