行为识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37141589 阅读:15 留言:0更新日期:2023-04-06 21:47
本发明专利技术涉及行为识别技术领域,提供一种行为识别方法、装置、电子设备及存储介质,该方法首先获取目标视频中每个视频片段内的至少三帧图像;然后将至少三帧图像中的至少一帧图像,以及至少三帧图像中其他帧图像的语义分割结果分别输入至双流网络模型,得到每个视频片段内的空间外观特征以及时间动态特征;最后将每个视频片段内的空间外观特征以及时间动态特征进行融合,得到每个视频片段对应的融合结果,并基于融合结果确定目标视频中的行为识别结果。该方法通过语义分割结果代替光流图输入至双流网络模型,得到行为动态特征,不仅可以保证表观不变性以及特征准确性,还可以大大降低双流网络模型的计算量,提高双流网络模型的实时性。实时性。实时性。

【技术实现步骤摘要】
行为识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及行为识别
,尤其涉及一种行为识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着深度学习理论的迅速发展,计算机视觉技术得到了广泛的研究和进步,计算机视觉研究的一个热门方向就是行为识别,其主要任务是自动分析一段视频中的人类的行为并正确识别属于哪一类行为。在安全监控、智能医疗、智能家居、人机交互和视频检索等领域具有重要的应用价值和研究价值。近些年来,深度卷积神经网络(ConvNets)在图像识别和视频理解等方面取得了重大突破,这给视频行为识别带来了一些新的研究方向。
[0003]现阶段的行为识别主要有两种主流方法:基于双流网络(Two

stream Network)和基于3D卷积神经网络(Convolutional Neural Network,CNN)。双流网络由两条2D CNN组成,一条输入RGB图像提取空间特征,另一条输入堆叠的光流图提取时间特征,将空间特征和时间特征做平均得到最后的输出,也可以利用得到的空间特征和时间特征训练支持向量机(Support Vector Machine,SVM)。3D卷积神经网络则可以同时直接提取空间维度与时间维度的特征。
[0004]但是双流网络中的时间流网络所使用的光流图计算量很大,导致模型的实时性效果不好。而由于3D卷积神经网络同时学习了时间特征以及空间特征导致参数量较多,计算量较大,在缺少大体量数据集的情况下训练周期长且容易产生过拟合。

技术实现思路
<br/>[0005]本专利技术提供一种行为识别方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0006]本专利技术提供一种行为识别方法,包括:
[0007]获取目标视频中每个视频片段内的至少三帧图像;
[0008]将所述至少三帧图像中的至少一帧图像,以及所述至少三帧图像中除所述至少一帧图像外的其他帧图像的语义分割结果分别输入至双流网络模型,得到所述双流网络模型输出的每个视频片段内的空间外观特征以及时间动态特征;
[0009]将每个视频片段内的空间外观特征以及时间动态特征进行融合,得到每个视频片段对应的融合结果,并基于所述融合结果确定所述目标视频中的行为识别结果;
[0010]其中,所述双流网络模型基于样本视频训练得到。
[0011]根据本专利技术提供的一种行为识别方法,所述将所述至少三帧图像中的至少一帧图像,以及所述至少三帧图像中除所述至少一帧图像外的其他帧图像的语义分割结果分别输入至双流网络模型,得到所述双流网络模型输出的每个视频片段内的空间外观特征以及时间动态特征,之前包括:
[0012]将所述至少三帧图像输入至空间变换网络,得到所述空间变换网络输出的所述至
少三帧图像中的感兴趣区域;所述空间变换网络基于携带有感兴趣区域标签的样本图像训练得到;
[0013]相应地,所述将所述至少三帧图像中的至少一帧图像,以及所述至少三帧图像中除所述至少一帧图像外的其他帧图像的语义分割结果分别输入至双流网络模型,得到所述双流网络模型输出的每个视频片段内的空间外观特征以及时间动态特征,包括:
[0014]将所述至少一帧图像中的感兴趣区域,以及所述其他帧图像中的感兴趣区域的语义分割结果分别输入至所述双流网络模型,得到所述双流网络模型输出的所述空间外观特征以及所述时间动态特征。
[0015]根据本专利技术提供的一种行为识别方法,所述将所述至少一帧图像中的感兴趣区域,以及所述其他帧图像中的感兴趣区域的语义分割结果分别输入至所述双流网络模型,得到所述双流网络模型输出的所述空间外观特征以及所述时间动态特征,具体包括:
[0016]将所述至少一帧图像中的感兴趣区域输入至所述双流网络模型的空间流网络模块,得到所述空间流网络模块输出的所述空间外观特征;
[0017]将所述其他帧图像中的感兴趣区域语义分割结果输入至所述双流网络模型的时间流网络模块,得到所述空间流网络模块输出的所述时间动态特征;
[0018]其中,所述时间流网络模块的网络结构为残差网络结构。
[0019]根据本专利技术提供的一种行为识别方法,所述将每个视频片段内的空间外观特征以及时间动态特征进行融合,得到每个视频片段对应的融合结果,具体包括:
[0020]将每个视频片段内的空间外观特征以及时间动态特征进行通道堆叠融合和/或卷积融合,得到每个视频片段对应的融合结果。
[0021]根据本专利技术提供的一种行为识别方法,所述其他帧图像的语义分割结果基于如下步骤确定:
[0022]将所述其他帧图像输入至语义分割模型,得到所述语义分割模型输出的所述其他帧图像的语义分割结果;所述语义分割模型基于携带语义分割标签的样本图像训练得到。
[0023]根据本专利技术提供的一种行为识别方法,所述目标视频中每个视频片段内均包含有相同帧数的图像。
[0024]根据本专利技术提供的一种行为识别方法,所述基于所述融合结果确定所述目标视频中的行为识别结果,具体包括:
[0025]将每个视频片段对应的融合结果进行全局平均池化,得到池化结果,并基于分类函数对所述池化结果进行处理,得到每个视频片段对应的行为识别结果。
[0026]本专利技术还提供一种行为识别装置,包括:
[0027]图像获取模块,用于获取目标视频中每个视频片段内的至少三帧图像;
[0028]特征提取模块,用于将所述至少三帧图像中的至少一帧图像,以及所述至少三帧图像中除所述至少一帧图像外的其他帧图像的语义分割结果分别输入至双流网络模型,得到所述双流网络模型输出的每个视频片段内的空间外观特征以及时间动态特征;
[0029]行为识别模块,用于将每个视频片段内的空间外观特征以及时间动态特征进行融合,得到每个视频片段对应的融合结果,并基于所述融合结果确定所述目标视频中的行为识别结果;
[0030]其中,所述双流网络模型基于样本视频训练得到。
[0031]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的行为识别方法。
[0032]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的行为识别方法。
[0033]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的行为识别方法。
[0034]本专利技术提供的行为识别方法、装置、电子设备及存储介质,首先获取目标视频中每个视频片段内的至少三帧图像;然后将至少三帧图像中的至少一帧图像,以及至少三帧图像中其他帧图像的语义分割结果分别输入至双流网络模型,得到每个视频片段内的空间外观特征以及时间动态特征;最后将每个视频片段内的空间外观特征以及时间动态特征进行融合,得到每个视频片段对应的融合结果,并基于融合结果确定目标视频中的行为识别结果。该方法结合目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行为识别方法,其特征在于,包括:获取目标视频中每个视频片段内的至少三帧图像;将所述至少三帧图像中的至少一帧图像,以及所述至少三帧图像中除所述至少一帧图像外的其他帧图像的语义分割结果分别输入至双流网络模型,得到所述双流网络模型输出的每个视频片段内的空间外观特征以及时间动态特征;将每个视频片段内的空间外观特征以及时间动态特征进行融合,得到每个视频片段对应的融合结果,并基于所述融合结果确定所述目标视频中的行为识别结果;其中,所述双流网络模型基于样本视频训练得到。2.根据权利要求1所述的行为识别方法,其特征在于,所述将所述至少三帧图像中的至少一帧图像,以及所述至少三帧图像中除所述至少一帧图像外的其他帧图像的语义分割结果分别输入至双流网络模型,得到所述双流网络模型输出的每个视频片段内的空间外观特征以及时间动态特征,之前包括:将所述至少三帧图像输入至空间变换网络,得到所述空间变换网络输出的所述至少三帧图像中的感兴趣区域;所述空间变换网络基于携带有感兴趣区域标签的样本图像训练得到;相应地,所述将所述至少三帧图像中的至少一帧图像,以及所述至少三帧图像中除所述至少一帧图像外的其他帧图像的语义分割结果分别输入至双流网络模型,得到所述双流网络模型输出的每个视频片段内的空间外观特征以及时间动态特征,包括:将所述至少一帧图像中的感兴趣区域,以及所述其他帧图像中的感兴趣区域的语义分割结果分别输入至所述双流网络模型,得到所述双流网络模型输出的所述空间外观特征以及所述时间动态特征。3.根据权利要求2所述的行为识别方法,其特征在于,所述将所述至少一帧图像中的感兴趣区域,以及所述其他帧图像中的感兴趣区域的语义分割结果分别输入至所述双流网络模型,得到所述双流网络模型输出的所述空间外观特征以及所述时间动态特征,具体包括:将所述至少一帧图像中的感兴趣区域输入至所述双流网络模型的空间流网络模块,得到所述空间流网络模块输出的所述空间外观特征;将所述其他帧图像中的感兴趣区域语义分割结果输入至所述双流网络模型的时间流网络模块,得到所述空间流网络模块输出的所述时间动态特征;其中,所述时间流网络模块的网络结构为残差网络结构。4.根据权利要求1

3中任一项所述的行...

【专利技术属性】
技术研发人员:吕良伟方明陈霆刘鹏
申请(专利权)人:山东科讯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1