本发明专利技术提供一种基于端到端框架的视频动作检测方法及电子设备,所述端到端框架包括主干网络、定位模块和分类模块,所述方法包括:由主干网络对待测视频片段进行特征提取,得到待测视频片段的视频特征图,其中视频特征图包括待测视频片段中的所有帧的特征图;由主干网络从视频特征图中抽取关键帧的特征图,从关键帧的特征图得到行动者位置特征,并且从视频特征图得到动作类别特征;由定位模块根据行动者位置特征确定行动者位置;以及由分类模块根据动作类别特征和行动者位置,确定与行动者位置对应的动作类别。本发明专利技术提供的视频动作检测方法复杂度较低,同时能达到较好的检测性能。同时能达到较好的检测性能。同时能达到较好的检测性能。
【技术实现步骤摘要】
基于端到端框架的视频动作检测方法及电子设备
[0001]本专利技术涉及视频处理
,具体而言,涉及一种基于端到端框架的视频动作检测方法以及电子设备。
技术介绍
[0002]视频动作检测包括行动者边界框定位和动作分类,主要应用于异常行为检测、自动驾驶等领域。现有技术通常利用两个独立的阶段来实现视频动作检测:第一阶段采用在COCO数据集上预训练的目标检测模型在任务数据集上进行训练,得到行动者(诸如人类)的单一类别的检测器;第二阶段采用第一阶段训练得到的检测器执行行动者边界框定位(即,预测行动者位置),然后抽取行动者位置的特征图以进行动作分类(即,预测动作类别)。这两个阶段分别使用了两个独立的主干网络,第一阶段使用2D图像数据来执行行动者边界框定位,第二阶段使用3D视频数据来执行动作分类。
[0003]利用两个独立的主干网络分别执行行动者边界框定位任务和动作分类任务会造成冗余计算,带来较高的复杂度,从而限制了现有技术在现实场景中的应用。为降低复杂度,可以考虑利用一个统一的主干网络来代替两个独立的主干网络,然而使用一个主干网络可能造成两个任务相互干扰,这种相互干扰体现在以下两个方面:一是行动者边界框定位任务通常利用2D图像模型来预测视频片段的关键帧中的行动者位置,在这个阶段考虑同一视频片段中的相邻帧会带来额外的计算和存储成本以及定位噪声;二是动作分类任务依赖3D视频模型来提取嵌入在视频片段中的时间信息,使用行动者边界框定位任务中的单个关键帧可能会为动作分类带来较差的时间运动表征。
技术实现思路
[0004]本专利技术实施例的目的在于提供一种基于端到端框架的视频动作检测技术,以解决上述现有技术中存在的问题。
[0005]本专利技术的一个方面提供一种基于端到端框架的视频动作检测方法,端到端框架包括主干网络、定位模块和分类模块,该视频动作检测方法包括:由主干网络对待测视频片段进行特征提取,得到待测视频片段的视频特征图,其中视频特征图包括待测视频片段中的所有帧的特征图;由主干网络从视频特征图中抽取关键帧的特征图,从关键帧的特征图得到行动者位置特征,并且从视频特征图得到动作类别特征;由定位模块根据行动者位置特征确定行动者位置;以及由分类模块根据动作类别特征和行动者位置,确定与行动者位置对应的动作类别。
[0006]上述方法可以包括:由主干网络对待测视频片段进行多个阶段的特征提取,得到每个阶段的视频特征图,其中不同阶段的视频特征图的空间尺度不同;由主干网络选取多个阶段中的最后几个阶段的视频特征图,从最后几个阶段的视频特征图中抽取关键帧的特征图,对关键帧的特征图进行特征提取,得到行动者位置特征,并且将多个阶段中的最后一个阶段的视频特征图作为动作类别特征。其中,可以利用残差网络对待测视频片段进行多
个阶段的特征提取,并且利用特征金字塔网络对关键帧的特征图进行特征提取。
[0007]上述方法中,关键帧可以为位于待测视频片段中部的帧。
[0008]上述方法中,由分类模块根据动作类别特征和行动者位置确定与行动者位置对应的动作类别包括:由分类模块基于行动者位置,从动作类别特征中提取与行动者位置对应的空间动作特征和时间动作特征,将与行动者位置对应的空间动作特征和时间动作特征进行融合,根据融合后的特征确定与行动者位置对应的动作类别。
[0009]上述方法中,由分类模块基于行动者位置从动作类别特征中提取与行动者位置对应的空间动作特征和时间动作特征包括:由分类模块基于行动者位置,从动作类别特征中提取对应区域的固定尺度的特征图;将固定尺度的特征图在时间维度上进行全局平均池化操作,得到与行动者位置对应的空间动作特征;以及,将固定尺度的特征图在空间维度上进行全局平均池化操作,得到与行动者位置对应的时间动作特征。
[0010]上述方法中,由定位模块确定出多个行动者位置,并且由分类模块基于多个行动者位置中的每个行动者位置,从动作类别特征中提取与每个行动者位置对应的空间动作特征和时间动作特征。上述方法还可以包括:将与多个行动者位置对应的空间嵌入向量输入自注意力模块,将与多个行动者位置对应的空间动作特征与自注意力模块的输出执行卷积操作,以更新与多个行动者位置中的每个行动者位置对应的空间动作特征;以及,将与多个行动者位置对应的时间嵌入向量输入自注意力模块,将与多个行动者位置对应的时间动作特征与自注意力模块的输出执行卷积操作,以更新与多个行动者位置中的每个行动者位置对应的时间动作特征。
[0011]上述方法中,确定行动者位置包括确定行动者边界框的坐标和指示该行动者边界框包含行动者的置信度。所述方法还可以包括:选择置信度高于预定阈值的行动者位置以及对应的动作类别。
[0012]上述方法中,端到端框架是基于如下目标函数训练得到的:
[0013][0014]其中,表示行动者边界框定位损失,表示动作分类损失,为交叉熵损失,和分别为边界框损失,为二元交叉熵损失,并且λ
cls
、λ
L1
、λ
giou
和λ
act
为用于平衡损失贡献的常数标量。
[0015]本专利技术的另一个方面提供一种电子设备,该电子设备包括处理器和存储器,存储器存储有能够被处理器执行的计算机程序,计算机程序在被处理器执行时实现上述基于端到端框架的视频动作检测方法。
[0016]本专利技术实施例的技术方案可以提供以下有益效果:
[0017]采用端到端框架,可以从输入的视频片段直接生成并输出行动者位置和对应的动作类别。
[0018]在端到端框架中,使用一个统一的主干网络来同时提取行动者位置特征和动作类别特征,使得特征提取过程更为简化。其中,在主干网络的早期阶段已将关键帧的特征图(其用于行动者边界框定位)与视频特征图(其用于动作分类)隔离开,减少了行动者边界框定位与动作分类之间的相互干扰。端到端框架的定位模块与分类模块共享主干网络,不需要额外的ImageNet或COCO预训练。
[0019]定位模块采用二分图匹配方法进行训练,无需执行非最大抑制等后处理操作。
[0020]分类模块在执行动作分类时,从动作类别特征中进一步提取出空间动作特征和时间动作特征,丰富了实例特征。此外,还对空间动作特征和时间动作特征分别进行嵌入交互,其中利用了空间嵌入向量和时间嵌入向量进行轻量级的嵌入交互,在获取更具区分性的特征的同时,进一步提高了效率,并且提高了动作分类的性能。
[0021]实验表明,与现有的视频动作检测技术相比,本专利技术提供的基于端到端框架的视频动作检测方法的检测过程复杂度较低、更为简便,并且还能达到更好的检测性能。
[0022]应当理解,以上的一般描述和后文的细节描述仅用于示例和解释的目的,并不用于限制本专利技术。
附图说明
[0023]将通过参考附图对示例性实施例进行详细描述,附图意在描绘示例性实施例而不应被解释为对权利要求的预期范围加以限制。除非明确指出,否则附图不被认为依比例绘制。
[0024]图1示意性示出了根据本发本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于端到端框架的视频动作检测方法,所述端到端框架包括主干网络、定位模块和分类模块,所述方法包括:由所述主干网络对待测视频片段进行特征提取,得到所述待测视频片段的视频特征图,其中所述视频特征图包括所述待测视频片段中的所有帧的特征图;由所述主干网络从所述视频特征图中抽取关键帧的特征图,从所述关键帧的特征图得到行动者位置特征,并且从所述视频特征图得到动作类别特征;由所述定位模块根据所述行动者位置特征确定行动者位置;以及由所述分类模块根据所述动作类别特征和所述行动者位置,确定与所述行动者位置对应的动作类别。2.根据权利要求1所述的方法,其中,所述方法包括:由所述主干网络对所述待测视频片段进行多个阶段的特征提取,得到每个阶段的视频特征图,其中不同阶段的视频特征图的空间尺度不同;由所述主干网络选取多个阶段中的最后几个阶段的视频特征图,从最后几个阶段的视频特征图中抽取关键帧的特征图,对所述关键帧的特征图进行特征提取,得到所述行动者位置特征,并且将多个阶段中的最后一个阶段的视频特征图作为动作类别特征。3.根据权利要求2所述的方法,其中,利用残差网络对所述待测视频片段进行多个阶段的特征提取,以及利用特征金字塔网络对所述关键帧的特征图进行特征提取。4.根据权利要求1所述的方法,其中,所述关键帧为位于所述待测视频片段中部的帧。5.根据权利要求1
‑
4中任一项所述的方法,其中,由所述分类模块根据所述动作类别特征和所述行动者位置确定与所述行动者位置对应的动作类别包括:由所述分类模块基于所述行动者位置,从所述动作类别特征中提取与所述行动者位置对应的空间动作特征和时间动作特征,将与所述行动者位置对应的空间动作特征和时间动作特征进行融合,根据融合后的特征确定与所述行动者位置对应的动作类别。6.根据权利要求5所述的方法,其中,由所述分类模块基于所述行动者位置,从所述动作类别特征中提取与所述行动者位置对应的空间动作特征和时间动作特征包括:由所述分类模块基于所述行动者位置,从所述动作类别特征中...
【专利技术属性】
技术研发人员:罗平,陈守法,沈家骏,
申请(专利权)人:TCL科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。