视频动作检测方法及装置制造方法及图纸

技术编号:35673713 阅读:27 留言:0更新日期:2022-11-23 14:10
提供一种视频动作检测方法及装置。该视频动作检测方法包括:提取视频的时域特征和空域特征;基于时域特征和空域特征生成动作提名特征;对动作提名特征分别在起始时间维度和终止时间维度进行注意力处理,获得从视频中采样出的每个视频帧属于动作起始时间的概率和属于动作终止时间的概率;基于每个时刻属于动作起始时间的概率和属于动作终止时间的概率确定视频中的动作。通过使用该视频动作检测方法及装置,可提高检测视频中动作的起始时间、终止时间的准确性。时间的准确性。时间的准确性。

【技术实现步骤摘要】
视频动作检测方法及装置


[0001]本公开涉及计算机视觉领域和人工智能领域。更具体地,本公开涉及一种视频动作检测方法及装置。

技术介绍

[0002]随着科技的进步和社会的发展,智能手机在我们的日常生活里越来越普及,人们使用手机拍摄的视频也越来越多,每天都有大量的视频被分享到网络上。因此,自动的视频内容理解从而自动化地处理这些视频变得非常重要。由于这些视频通常是未经裁剪的,而用户通常只需要视频中的某些片段;因此,视频时域动作检测成为视频内容理解的一个重要方向,吸引了很多人进行研究,其目标是找出视频中每个动作实例(action instance)的起始时间、终止时间和动作的类别。准确地定位动作的起始时间和终止时间是非常有挑战性的问题。

技术实现思路

[0003]本公开的示例性实施例在于提供一种视频动作检测方法及装置,以通过准确地定位动作的起始时间和终止时间来提高视频动作检测的准确性。
[0004]根据本公开的示例性实施例,提供一种视频动作检测方法,包括:提取视频的时域特征和空域特征;基于时域特征和空域特征生成动作提名特征;对动作提名特征分别在起始时间维度和终止时间维度进行注意力处理,获得从视频中采样出的每个视频帧属于动作起始时间的概率和属于动作终止时间的概率;基于每个时刻属于动作起始时间的概率和属于动作终止时间的概率确定视频中的动作。
[0005]可选地,基于时域特征和空域特征生成动作提名特征的步骤可包括:分别对时域特征和空域特征进行预设次数的第一卷积计算,得到时域卷积结果和空域卷积结果;对时域卷积结果和空域卷积结果进行融合;基于融合结果生成动作提名特征。
[0006]可选地,动作提名特征可包括动作提名起始区域特征和动作提名终止区域特征。
[0007]可选地,对动作提名特征分别在起始时间维度和终止时间维度进行注意力处理的步骤可包括:分别对动作提名起始区域特征和动作提名终止区域特征在起始时间维度或者终止时间维度进行注意力处理。
[0008]可选地,分别对动作提名起始区域特征和动作提名终止区域特征在起始时间维度或者终止时间维度进行注意力处理的步骤可包括:对动作提名起始区域特征进行第二卷积计算得到起始特征,对动作提名终止区域特征进行第二卷积计算得到终止特征;分别对起始特征和终止特征在起始时间维度或者终止时间维度进行注意力计算或者交叉注意力计算。
[0009]可选地,对起始特征进行注意力计算的步骤可包括:对起始特征进行基于终止时间维度的softmax计算,获得第一起始softmax特征;将起始特征和第一起始softmax特征相乘,获得第一乘积;基于终止时间维度对第一乘积进行求和计算,获得起始注意力特征;对
起始注意力特征进行第三卷积计算,将起始注意力特征的第三卷积计算结果作为每个时刻属于动作起始时间的概率。其中,对终止特征进行基于动作时长感知的注意力计算的步骤可包括:对终止特征进行基于起始时间维度的softmax计算,获得第一终止softmax特征;将终止特征和第一终止softmax特征相乘,获得第二乘积;基于起始时间维度对第二乘积进行求和计算,获得终止注意力特征;对终止注意力特征进行第三卷积计算,将终止注意力特征的第三卷积计算结果作为每个时刻属于动作终止时间的概率。
[0010]可选地,对起始特征进行交叉注意力计算的步骤可包括:对终止特征进行基于终止时间维度的softmax计算,获得第二终止softmax特征;将起始特征和第二终止softmax特征相乘,获得第三乘积;基于终止时间维度对第三乘积进行求和计算,获得起始交叉注意力特征;对起始交叉注意力特征进行第三卷积计算,将起始交叉注意力特征的第三卷积计算结果作为每个时刻属于动作起始时间的概率。对终止特征进行基于动作时长感知的交叉注意力计算的步骤可包括:对起始特征进行基于起始时间维度的softmax计算,获得第二起始softmax特征;将终止特征和第二起始softmax特征相乘,获得第四乘积;基于起始时间维度对第四乘积进行求和计算,获得终止交叉注意力特征;对终止交叉注意力特征进行第三卷积计算,将终止交叉注意力特征的第三卷积计算结果作为每个时刻属于动作终止时间的概率。
[0011]可选地,时域卷积结果可包括每个时刻属于动作起始时间的概率和属于动作终止时间的概率的预测结果。
[0012]可选地,在获得每个时刻属于动作起始时间的概率和属于动作终止时间的概率之后,所述方法还可包括:基于时域卷积结果中包括的每个时刻属于动作起始时间的概率和属于动作终止时间的概率的预测结果,对每个时刻属于动作起始时间的概率和属于动作终止时间的概率进行校正。
[0013]根据本公开的示例性实施例,提供一种视频动作检测装置,包括:特征提取单元,被配置为提取视频的时域特征和空域特征;提名特征生成单元,被配置为基于时域特征和空域特征生成动作提名特征;注意力处理单元,被配置为对动作提名特征分别在起始时间维度和终止时间维度进行注意力处理,获得从视频中采样出的每个视频帧属于动作起始时间的概率和属于动作终止时间的概率;以及动作确定单元,被配置为基于每个时刻属于动作起始时间的概率和属于动作终止时间的概率确定视频中的动作。
[0014]可选地,提名特征生成单元可被配置为:分别对时域特征和空域特征进行预设次数的第一卷积计算,得到时域卷积结果和空域卷积结果;对时域卷积结果和空域卷积结果进行融合;基于融合结果生成动作提名特征。
[0015]可选地,动作提名特征可包括动作提名起始区域特征和动作提名终止区域特征。
[0016]可选地,注意力处理单元可被配置为:分别对动作提名起始区域特征和动作提名终止区域特征在起始时间维度或者终止时间维度进行注意力处理。
[0017]可选地,注意力处理单元可被配置为:对动作提名起始区域特征进行第二卷积计算得到起始特征,对动作提名终止区域特征进行第二卷积计算得到终止特征;分别对起始特征和终止特征在起始时间维度或者终止时间维度进行注意力计算或者交叉注意力计算。
[0018]可选地,注意力处理单元可被配置为:对起始特征进行基于终止时间维度的softmax计算,获得第一起始softmax特征;将起始特征和第一起始softmax特征相乘,获得
第一乘积;基于终止时间维度对第一乘积进行求和计算,获得起始注意力特征;对起始注意力特征进行第三卷积计算,将起始注意力特征的第三卷积计算结果作为每个时刻属于动作起始时间的概率。注意力处理单元还可被配置为:对终止特征进行基于起始时间维度的softmax计算,获得第一终止softmax特征;将终止特征和第一终止softmax特征相乘,获得第二乘积;基于起始时间维度对第二乘积进行求和计算,获得终止注意力特征;对终止注意力特征进行第三卷积计算,将终止注意力特征的第三卷积计算结果作为每个时刻属于动作终止时间的概率。
[0019]可选地,注意力处理单元可被配置为:对终止特征进行基于终止时间维度的softmax计算,获得第二终止softmax特征;将起始特征和第二终止s本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频动作检测方法,包括:提取视频的时域特征和空域特征;基于时域特征和空域特征生成动作提名特征;对动作提名特征分别在起始时间维度和终止时间维度进行注意力处理,获得从视频中采样出的每个视频帧属于动作起始时间的概率和属于动作终止时间的概率;基于每个时刻属于动作起始时间的概率和属于动作终止时间的概率确定视频中的动作。2.根据权利要求1所述的方法,其中,基于时域特征和空域特征生成动作提名特征的步骤包括:分别对时域特征和空域特征进行预设次数的第一卷积计算,得到时域卷积结果和空域卷积结果;对时域卷积结果和空域卷积结果进行融合;基于融合结果生成动作提名特征。3.根据权利要求2所述的方法,其中,动作提名特征包括动作提名起始区域特征和动作提名终止区域特征。4.根据权利要求3所述的方法,其中,对动作提名特征分别在起始时间维度和终止时间维度进行注意力处理的步骤包括:分别对动作提名起始区域特征和动作提名终止区域特征在起始时间维度或者终止时间维度进行注意力处理。5.根据权利要求4所述的方法,其中,分别对动作提名起始区域特征和动作提名终止区域特征在起始时间维度或者终止时间维度进行注意力处理的步骤包括:对动作提名起始区域特征进行第二卷积计算得到起始特征,对动作提名终止区域特征进行第二卷积计算得到终止特征;分别对起始特征和终止特征在起始时间维度或者终止时间维度进行注意力计算或者交叉注意力计算。6.根据权利要求5所述的方法,其中,对起始特征进行注意力计算的步骤包括:对起始特征进行基于终止时间维度的softmax计算,获得第一起始softmax特征;将起始特征和第一起始softmax特征相乘,获得第一乘积;基于终止时间维度对第一乘积进行求和计算,获得起始注意力特征;对起始注意力特征进行第三卷积计算,将起始注意力特征的第三卷积计算结果作为每个时刻属于动作起始时间的概率,其中,对终止特征进行基于动作时长感知的注意力计算的步骤包括:对终止特征进行基于起始时间维度的softmax计算,获得第一终止softmax特征;将终止特征和第一终止softmax特征相乘,获得第二乘积;基于起始时间维度对第二乘积进行求和计算,获得终止注意力特征;对终止注意力特征进行第三卷积计算,将终止注意力特征的第三卷积计算结果作为每个时刻属于动作终止时间的概率。7.根据权利要求5所述的方法,其中,对起始特征进行交叉注意力计算的步骤包括:对终止特征进行基于终止时间维度的softmax计算,获得第二终止softmax特征;
将起始特征和第二终止softmax特征相乘,获得第三乘积;基于终止时间维度对第三乘积进行求和计算,获得起始交叉注意力特征;对起始交叉注意力特征进行第三卷积计算,将起始交叉注意力特征的第三卷积计算结果作为每个时刻属于动作起始时间的概率,其中,对终止特征进行基于动作时长感知的交叉注意力计算的步骤包括:对起始特征进行基于起始时间维度的softmax计算,获得第二起始softmax特征;将终止特征和第二起始softmax特征相乘,获得第四乘积;基于起始时间维度对第四乘积进行求和计算,获得终止交叉注意力特征;对终止交叉注意力特征进行第三卷积计算,将终止交叉注意力特征的第三卷积计算结果作为每个时刻属于动作终止时间的概率。8.根据权利要求2所述的方法,其中,时域卷积结果包括每个时刻属于动作起始时间的概率和属于动作终止时间的概率的预测结果。9.根据权利要求8所述的方法,在获得每个时刻属于动作起始时间的概率和属于动作终止时间的概率之后,还包括:基于时域卷积结果中包括的每个时刻属于动作起始时间的概率和属于动作终止时间的概率的预测结果,对每个时刻属于动作起始时间的概率和属于动作终止时间的概率进行校正。10.一种视频动作检测装置,包括:特征提取单元,被配置为提取视频的时域特征和空域特征...

【专利技术属性】
技术研发人员:王晓冰
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1