动作识别方法、装置、电子设备制造方法及图纸

技术编号:39319668 阅读:10 留言:0更新日期:2023-11-12 16:01
本申请公开了一种动作识别方法,属于计算机视觉技术领域,有助于提升动作识别效率。所述方法包括:对视频图像序列进行稀疏采样以及特征提取,获取视频图像序列中动作的第一特征向量,其中,第一特征向量携带视频图像序列中动作的分类信息;获取表征该视频图像序列中动作相关性的第二特征向量;获取该视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量,其中,第三特征向量用于表征该视频图像序列匹配的动作描述文本;融合上述三个步骤提取的特征向量进行动作识别。本方法通过对视频图像序列进行下采样,之后基于从多个方面提取的特征进行融合识别,减少了对视频进行动作识别时处理的视频图像帧的数量,提升了动作识别效率。率。率。

【技术实现步骤摘要】
动作识别方法、装置、电子设备


[0001]本申请涉及计算机视觉
,特别是涉及动作识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]由于视频在安全监视、人类行为分析和许多其他领域的广泛应用,理解视频中的对象行为(如人类行为)已成为计算机视觉的突出研究课题。现有技术中多数的动作识别算法通常首先提取描述视频的局部高维视觉特征,然后,将提取密集的特征融合到一个固定大小的视频级描述符中,最后,使用SVM在视觉词袋上进行训练,用来预测最终的结果。现有技术中,提取的描述视频的局部高维视觉特征通常采用密集采样的方式进行特征提取,会导致识别效率低下。
[0003]可见,现有技术中的动作识别方法还需要改进。

技术实现思路

[0004]本申请实施例提供一种动作识别方法,有助于提升动作识别效率。
[0005]第一方面,本申请实施例提供了一种动作识别方法,包括:
[0006]通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量,其中,所述第一特征向量携带所述视频图像序列中动作的分类信息;
[0007]获取表征所述视频图像序列中动作相关性的第二特征向量;
[0008]获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量,其中,所述第三特征向量用于表征所述视频图像序列匹配的动作描述文本;
[0009]融合所述第一特征向量,所述第二特征向量,以及,所述第三特征向量,对所述视频图像序列中的动作进行动作识别。
[0010]第二方面,本申请实施例提供了一种动作识别装置,包括:
[0011]第一特征向量获取模块,用于通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量,其中,所述第一特征向量携带所述视频图像序列中动作的分类信息;
[0012]第二特征向量获取模块,用于获取表征所述视频图像序列中动作相关性的第二特征向量;
[0013]第三特征向量获取模块,用于获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量,其中,所述第三特征向量用于表征所述视频图像序列匹配的动作描述文本;
[0014]融合识别模块,用于融合所述第一特征向量,所述第二特征向量,以及,所述第三特征向量,对所述视频图像序列中的动作进行动作识别。
[0015]第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本
申请实施例所述的动作识别方法。
[0016]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的动作识别方法的步骤。
[0017]本申请实施例公开的动作识别方法,通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量,其中,所述第一特征向量携带所述视频图像序列中动作的分类信息;获取表征所述视频图像序列中动作相关性的第二特征向量;获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量,其中,所述第三特征向量用于表征所述视频图像序列匹配的动作描述文本;融合所述第一特征向量,所述第二特征向量,以及,所述第三特征向量,对所述视频图像序列中的动作进行动作识别,有助于提升动作识别效率。
[0018]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0019]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0020]图1是本申请实施例一的动作识别方法流程图;
[0021]图2是本申请实施例一中应用于动作识别的网络结构示意图;
[0022]图3是本申请实施例二的动作识别装置结构示意图;
[0023]图4示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
[0024]图5示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]实施例一
[0027]本申请实施例公开的一种动作识别方法,如图1所示,所述方法包括:步骤110至步骤140。
[0028]步骤110,通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量。
[0029]其中,所述第一特征向量携带所述视频图像序列中动作的分类信息。
[0030]本申请的一些实施例中,利用Temporal segment network(TSN)网络结构在一段长的视频图像序列中,通过稀疏采样的方法提取短片段(short snippets),这些短片段在
时间维度上服从均匀分布,因此,利用segment structure可以从采样得到的短片段中收集信息。本申请的一些实施例中,通过对视频图像序列进行下采样,从采样的到的图像序列中可以采集到不同动作的信息,例如图像中任务动作属于滑冰动作、抽烟动作、喝水动作等预设动作的信息。
[0031]本申请的一些实施例中,所述通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量,包括:对视频图像序列进行间隔等长时间段的分段处理,确定所述视频图像序列的若干视频片段;对每个所述视频片段进行随机下采样,获取每个所述视频片段的采样片段;对每个所述采样片段分别进行分类映射,获取每个所述采样片段分别对应的动作分类结果;获取各所述采样片段分别对应的所述动作分类结果的共识;根据所述共识,预测所述视频图像序列中的动作类别,得到第一特征向量。
[0032]举例而言,对于视频V(即视频图像序列),可以首先将其划分为相等持续时间的M个视频片段,例如表示为{S1,S2,...,S
k
},其中,K为大于2的整数。之后,对于划分得到的每个视频片段分别进行随机下采样,从中随机采样多帧视频图像,构成采样片段。其中,构成所述采样片段的多帧视频图像可以为连续图像帧,也可以为按照时间戳的先后顺序排列的间隔图像帧。优选的,构成所述采样片段的多帧视频图像为连续图像帧。例如,对视频片段S
k
进行下采样,得到采样片段T<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作识别方法,其特征在于,包括:通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量,其中,所述第一特征向量携带所述视频图像序列中动作的分类信息;获取表征所述视频图像序列中动作相关性的第二特征向量;获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量,其中,所述第三特征向量用于表征所述视频图像序列匹配的动作描述文本;融合所述第一特征向量,所述第二特征向量,以及,所述第三特征向量,对所述视频图像序列中的动作进行动作识别。2.根据权利要求1所述的方法,其特征在于,所述通过对视频图像序列进行稀疏采样以及特征提取,获取所述视频图像序列中动作的第一特征向量的步骤,包括:对视频图像序列进行间隔等长时间段的分段处理,确定所述视频图像序列的若干视频片段;对每个所述视频片段进行随机下采样,获取每个所述视频片段的采样片段;对每个所述采样片段分别进行分类映射,获取每个所述采样片段分别对应的动作分类结果;获取各所述采样片段分别对应的所述动作分类结果的共识;根据所述共识,预测所述视频图像序列中的动作类别,得到第一特征向量。3.根据权利要求1所述的方法,其特征在于,所述获取表征所述视频图像序列中动作相关性的第二特征向量的步骤,包括:获取描述所述视频图像序列中动作的至少一组动作提议;以所述动作提议实例化图的节点,并根据所述动作提议之间的相关性构造连接所述节点的边,获得描述所述视频图像序列的动作提议图;通过预先训练的图卷积网络对所述动作提议图进行特征提取和映射,获取携带所述视频图像序列中的提议框信息的第二特征向量。4.根据权利要求3所述的方法,其特征在于,所述根据所述动作提议之间的相关性构造连接所述节点的边,包括:根据所述动作提议之间的时间相关性,构造连接相应节点的边;以及,根据所述动作提议之间的距离相关性,构造连接相应节点的边。5.根据权利要求1所述的方法,其特征在于,所述获取所述视频图像序列经稀疏采样后得到的图像帧序列的第三特征向量的步骤,包括:获取所述视频图像序列经稀疏采样后得到的图像帧序列;通过预先训练的视觉

语言模型的Transformer编码模块将所述图像帧序列中各图像帧的时间信息叠加至相应图像帧的视觉信息上,得到所述图像帧序列的第三特征向量。6.根据权利要求5所述的方法,其特征在于,所述视觉

语言模型是基于若干图像文本对训练得到的,其中,所述图像文本对...

【专利技术属性】
技术研发人员:庞宏伟
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1