一种视频行为识别方法及系统技术方案

技术编号:33706127 阅读:21 留言:0更新日期:2022-06-06 08:28
本发明专利技术提供一种视频行为识别方法及系统,包括:确定预训练好的识别网络;识别网络包括:时空特征提取模块和集合匹配模块;时空特征提取模块用于提取接收到视频的空间特征和时间特征,集和匹配模块用于基于空间特征和时间特征以及模板视频的时空特征将接收到视频与模板视频进行匹配,识别接收到视频的行为;模板视频包括T类视频;对识别网络进行训练时,从T类视频中循环随机选取S类视频,为每类视频确定K个训练样本,将S类视频对应的训练样本输入到识别网络进行训练;将待识别的视频和模板视频输入到预训练好的识别网络中,以对待识别视频进行行为识别,输出对应的行为识别结果。本发明专利技术在小样本场景下,可以实现灵活准确的视频匹配和识别。匹配和识别。匹配和识别。

【技术实现步骤摘要】
一种视频行为识别方法及系统


[0001]本专利技术属于视频行为识别领域,更具体地,涉及一种视频行为识别方法及系统。

技术介绍

[0002]深度学习视频模型近年来取得了显著的成效,但是当前的大部分深度学习算法都特别的依赖于大量的标注的视频数据来获得知识。在这种情况下,小样本行为识别问题成为了深度学习领域中重要的研究方向之一。小样本行为识别是指给定一个待测的视频,利用少量的模板视频就可以将这个视频进行匹配和分类。相比于传统的大量样本驱动的行为识别,小样本行为识别要求利用少量的视频数据就可以进行准确的识别,因此更加符合真实的运用场景。
[0003]先用的小样本行为识别方法主要是基于度量学习的。这类方法把输入视频通过一个特征提取网络来映射到特征空间中,并在这一特征空间中涉及一些复杂的对齐模块来匹配视频。例如,文章“Few

shot video classification via temporal alignment,Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2020:10618

10627.”中设计了一个复杂的动态时序对齐的模型来匹配视频。
[0004]现有的小样本行为识别方法需要复杂的时序对齐操作,这样的方法有两个局限性:(1)训练和推理特别的耗时,不适合用于快速推理的场景;(2)过于强调时序对齐,对于一些存在时序偏移和子动作翻转的实例不在适用。

技术实现思路

[0005]针对现有技术的缺陷,本专利技术的目的在于提供一种视频行为识别方法及系统,旨在解决现有视频行为识别算法需要大量标注的视频样本数据,有些视频样本难以获得大量样本;以及现有的小样本行为识别方法推理时间成本过高和过分强调时序对齐的问题。
[0006]为实现上述目的,第一方面,本专利技术提供了一种视频行为识别方法,包括如下步骤:
[0007]确定预训练好的识别网络;所述识别网络包括:时空特征提取模块和集合匹配模块;所述时空特征提取模块用于提取接收到视频的空间特征和时间特征,所述集和匹配模块用于基于所述空间特征和时间特征以及模板视频的时空特征将接收到视频与模板视频进行匹配,识别接收到视频的行为;所述模板视频包括T类视频,不同类别视频对应的行为不同,所述模板视频中每类视频的时空特征已知;对所述识别网络进行训练时,从所述T类视频中循环随机选取S类视频,为每类视频确定K个训练样本,将所述S类视频对应的训练样本输入到所述识别网络进行训练,S小于T,K小于预设值;
[0008]将待识别的视频和模板视频输入到预训练好的识别网络中,以对待识别视频进行行为识别,输出对应的行为识别结果。
[0009]在一个可选的示例中,所述时空特征提取模块用于提取接收到视频的空间特征和
时间特征,具体包括:所述时空特征提取模块提取接收视频空间维度和时间维度保留的特征序列;对所述特征序列进行空间特征建模,基于门控循环单元和空间建模后的特征获取视频帧内部的空间关系,作为接收视频的空间特征;为空间建模后的特征进行时间特征建模,基于门控循环单元和时间建模后的特征提取视频帧之间的长程时序依赖关系,作为接收视频的时间特征。
[0010]在一个可选的示例中,所述集和匹配模块用于基于所述空间特征和时间特征以及模板视频的时空特征将接收到视频与模板视频进行匹配,具体包括:所述集和匹配模块对所述空间特征和时间特征进行建模,得到时空关系增强后的特征;基于时空关系增强后的特征和模板视频的时空特征,利用视频之间的对应关系得到接收视频与模板视频的匹配相似度;基于所述匹配相似度确定接收视频与模板视频中哪个视频最匹配,并根据所匹配视频的行为确定接收视频的行为。
[0011]在一个可选的示例中,所述识别网络的整体损失函数L为:
[0012]L=λL
label
+L
sim
[0013]其中,L
label
为待检测视频和模板视频真实标签的分类损失;L
sim
为基于匹配相似度的度量损失;λ为平衡系数,用于平衡两项损失函数;
[0014][0015][0016][0017][0018][0019][0020]L
sim
=L
ce
(D,y)
[0021]其中,代表视频库中模板视频的特征序列,代表待测样本视频的特征;表示视频特征到视频特征的豪斯多夫距离;表示视频特征到视频特征的豪斯多夫距离;表示视频中的第a个特征,即视频第a帧对应的特征;表示视频中的第q个特征,即视频第q帧对应的特征;N
i
是其中一个模板视频的帧数;N
q

示待测样本视频的帧数;N表示每个训练批次中所有视频的个数;L
ce
为交叉熵损失函数;和y
i
分别表示模型预测的行为类别和真实的行为类别;D表示将待测视频样本预测相似度;表示视频特征到视频特征的单向修正豪斯多夫距离;D
b
表示双向修正豪斯多夫距离。
[0022]第二方面,本专利技术提供了一种视频行为识别系统,包括:
[0023]识别网络预训练单元,用于确定预训练好的识别网络;所述识别网络包括:时空特征提取模块和集合匹配模块;所述时空特征提取模块用于提取接收到视频的空间特征和时间特征,所述集和匹配模块用于基于所述空间特征和时间特征以及模板视频的时空特征将接收到视频与模板视频进行匹配,识别接收到视频的行为;所述模板视频包括T类视频,不同类别视频对应的行为不同,所述模板视频中每类视频的时空特征已知;对所述识别网络进行训练时,从所述T类视频中循环随机选取S类视频,为每类视频确定K个训练样本,将所述S类视频对应的训练样本输入到所述识别网络进行训练,S小于T,K小于预设值;
[0024]行为识别单元,用于将待识别的视频和模板视频输入到预训练好的识别网络中,以对待识别视频进行行为识别,输出对应的行为识别结果。
[0025]在一个可选的示例中,所述时空特征提取模块用于提取接收到视频的空间特征和时间特征,具体包括:所述时空特征提取模块提取接收视频空间维度和时间维度保留的特征序列;对所述特征序列进行空间特征建模,基于门控循环单元和空间建模后的特征获取视频帧内部的空间关系,作为接收视频的空间特征;为空间建模后的特征进行时间特征建模,基于门控循环单元和时间建模后的特征提取视频帧之间的长程时序依赖关系,作为接收视频的时间特征。
[0026]在一个可选的示例中,所述集和匹配模块用于基于所述空间特征和时间特征以及模板视频的时空特征将接收到视频与模板视频进行匹配,具体包括:所述集和匹配模块对所述空间特征和时间特征进行建模,得到时空关系增强后的特征;基于时空关系增强后的特征和模板视频的时空特征,利用视频之间的对应关系得到接收视频与模板视频的匹配相似度;基于所述匹配相似度确定接收视频与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频行为识别方法,其特征在于,包括如下步骤:确定预训练好的识别网络;所述识别网络包括:时空特征提取模块和集合匹配模块;所述时空特征提取模块用于提取接收到视频的空间特征和时间特征,所述集和匹配模块用于基于所述空间特征和时间特征以及模板视频的时空特征将接收到视频与模板视频进行匹配,识别接收到视频的行为;所述模板视频包括T类视频,不同类别视频对应的行为不同,所述模板视频中每类视频的时空特征已知;对所述识别网络进行训练时,从所述T类视频中循环随机选取S类视频,为每类视频确定K个训练样本,将所述S类视频对应的训练样本输入到所述识别网络进行训练,S小于T,K小于预设值;将待识别的视频和模板视频输入到预训练好的识别网络中,以对待识别视频进行行为识别,输出对应的行为识别结果。2.根据权利要求1所述的方法,其特征在于,所述时空特征提取模块用于提取接收到视频的空间特征和时间特征,具体包括:所述时空特征提取模块提取接收视频空间维度和时间维度保留的特征序列;对所述特征序列进行空间特征建模,基于门控循环单元和空间建模后的特征获取视频帧内部的空间关系,作为接收视频的空间特征;为空间建模后的特征进行时间特征建模,基于门控循环单元和时间建模后的特征提取视频帧之间的长程时序依赖关系,作为接收视频的时间特征。3.根据权利要求1所述的方法,其特征在于,所述集和匹配模块用于基于所述空间特征和时间特征以及模板视频的时空特征将接收到视频与模板视频进行匹配,具体包括:所述集和匹配模块对所述空间特征和时间特征进行建模,得到时空关系增强后的特征;基于时空关系增强后的特征和模板视频的时空特征,利用视频之间的对应关系得到接收视频与模板视频的匹配相似度;基于所述匹配相似度确定接收视频与模板视频中哪个视频最匹配,并根据所匹配视频的行为确定接收视频的行为。4.根据权利要求1至3任一项所述的方法,其特征在于,所述识别网络的整体损失函数L为:L=λL
label
+L
sim
其中,L
label
为待检测视频和模板视频真实标签的分类损失;L
sim
为基于匹配相似度的度量损失;λ为平衡系数,用于平衡两项损失函数;量损失;λ为平衡系数,用于平衡两项损失函数;量损失;λ为平衡系数,用于平衡两项损失函数;量损失;λ为平衡系数,用于平衡两项损失函数;
L
sim
=L
ce
(D,y)其中,代表视频库中模板视频的特征序列,代表待测样本视频的特征;表示视频特征到视频特征的豪斯多夫距离;表示视频特征到视频特征的豪斯多夫距离;表示视频中的第a个特征,即视频第a帧对应的特征;表示视频中的第q个特征,即视频第q帧对应的特征;N
i
是其中一个模板视频的帧数;N
q
表示待测样本视频的帧数;N表示每个训练批次中所有视频的个数;L
ce
为交叉熵损失函数;和y
i
分别表示模型预测的行为类别和真实的行为类别;D表示将待测视频样本预测相似度;表示视频特征到视频特征的单向修正豪斯多夫距离;D
b
表示双向修正豪斯多夫距离。5.一种视频行为识别系统,其特征在于,包括:识别网络预训练单元,用于...

【专利技术属性】
技术研发人员:桑农王翔张士伟卿志武高常鑫左峥嵘
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1