时序动作提名方法及装置制造方法及图纸

技术编号:34732197 阅读:9 留言:0更新日期:2022-08-31 18:21
本申请公开了一种时序动作提名方法及装置。其中,该方法包括:获取待处理视频,将待处理视频划分为多个第一视频片段;基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集;基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名;提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度;基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。本申请解决了相关技术中对视频进行时序动作检测时获取动作提名的过程较为复杂,且召回率不高的技术问题。术问题。术问题。

【技术实现步骤摘要】
时序动作提名方法及装置


[0001]本申请涉及时序动作检测
,具体而言,涉及一种时序动作提名方法及装置。

技术介绍

[0002]时序动作检测(Temporal Action Detection)的任务主要有两点:一是自动识别视频中动作类别;二是定位视频中该动作的时间长度。通常,时序动作检测算法可用于提取运动竞技视频中的高光时刻任务,也可以用于处理一些视频推荐的即时应用任务,或用于视频智能监控等领域。
[0003]早期的时序动作检测方法受二维图像检测发展范式启发,该典型范式的过程可以分成两个阶段:生成动作候选提名;对动作候选提名进行分类。由于在整个过程中需要先得到候选提名,基于此,如何得到较高质量的动作候选提名成了时序动作检测的难点所在。
[0004]大量的文章实验表明,高质量的提名应具备以下条件:提名时间重叠率高且能保证较高的召回率;在遵守上述条件的情况下,提名数较少,以便降低计算开销,提高生成速度。但相关的原子评估模型虽然能保证在提名任务中获得较好的性能,但整个训练阶段并没有考虑原子动作间的关系,导致基于原子评估模型的动作提名过程较为复杂,且无法获得较高的召回率。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本申请实施例提供了一种时序动作提名方法及装置,以至少解决相关技术中对视频进行时序动作检测时获取动作提名的过程较为复杂,且召回率不高的技术问题。
[0007]根据本申请实施例的一个方面,提供了一种时序动作提名方法,包括:获取待处理视频,将待处理视频划分为多个第一视频片段,其中,每个第一视频片段具有对应的标记时间点;基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,原子动作评估模型为Transformer模型,原子动作包括:动作开始,动作进行中和动作结束;基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名;提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度;基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。
[0008]可选地,将待处理视频划分为多个第一视频片段,包括:通过等间隔采样法将待处理视频划分为多个第一视频片段,其中,任意相邻的两个第一视频片段具有重叠的视频帧图像。
[0009]可选地,基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,包括:将多个第一视频片段依次输入原子动作评估模型,得
到每个第一视频片段对应的原子动作概率,原子动作概率包括:动作开始概率,动作进行中概率和动作结束概率;将多个第一视频片段对应的原子动作概率作为原子动作概率集合,原子动作概率集合包括:动作开始概率集合,动作进行中概率集合和动作结束概率集合。
[0010]可选地,原子动作评估模型的训练过程包括:获取训练样本视频及标注信息,标注信息用于标注训练样本视频中的动作实例;将训练样本视频划分为多个第二视频片段,并基于待训练的原子动作评估模型预测每个第二视频片段对应的原子动作概率;基于每个第二视频片段对应的原子动作概率及标注信息构建目标损失函数;基于目标损失函数,通过反向传播梯度下降的方式调整待训练的原子动作评估模型的模型参数。
[0011]可选地,基于每个第二视频片段对应的原子动作概率及标注信息构建目标损失函数,包括:基于每个第二视频片段对应的动作开始概率及标注信息构建第一损失函数;基于每个第二视频片段对应的动作进行中概率及标注信息构建第二损失函数;基于每个第二视频片段对应的动作结束概率及标注信息构建第三损失函数;基于每三个相邻的第二视频片段对应的动作开始概率、动作进行中概率及动作结束概率确定顺序概率,并基于所有顺序概率构建第四损失函数,其中,顺序概率用于表示每三个相邻的第二视频片段是否满足原子动作顺序;基于第一损失函数、第二损失函数、第三损失函数和第四损失函数构建目标损失函数。
[0012]可选地,动作边界集合包括动作开始边界集合和动作结束边界集合,基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名,包括:确定动作开始概率集合中每个大于第一预设阈值的动作开始概率所对应的第一视频片段的标记时间点为动作开始边界,得到动作开始边界集合;确定动作结束概率集合中每个大于第一预设阈值的动作结束概率所对应的第一视频片段的标记时间点为动作结束边界,得到动作结束边界集合;每次从动作开始边界集合和动作结束边界集合中各取一个动作开始边界和一个动作结束边界,若动作开始边界和动作结束边界对应的时间长度满足待处理视频中动作实例的时间长度范围,基于动作开始边界和动作结束边界确定一个候选动作提名;遍历动作开始边界集合和动作结束边界集合,得到多个候选动作提名。
[0013]可选地,提取每个候选动作提名对应的候选提名特征,包括:对于每个候选动作提名,将候选动作提名划分为动作开始区域、动作进行中区域和动作结束区域;分别从动作开始区域采集第一数量的动作开始特征,从动作进行中区域采集第二数量的动作进行中特征,从动作结束区域采集第三数量的动作结束特征;将动作开始特征、动作进行中特征和动作结束特征拼接得到候选动作提名对应的候选提名特征。
[0014]可选地,基于候选提名特征确定每个候选动作提名的置信度,包括:将每个候选动作提名对应的候选提名特征输入双层感知机中,得到每个候选动作提名的置信度,其中,置信度用于表示候选动作提名与待处理视频中动作实例的重叠度。
[0015]可选地,基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名,包括:确定多个候选动作提名中置信度最高的第一候选动作提名以及剩余的第二候选动作提名,确定第一候选动作提名为目标动作提名,并比较第二候选动作提名与第一候选动作提名的重叠度,若重叠度小于第二预设阈值,则第二候选动作提名的置信度保持不变,若重叠度不小于第二预设阈值,则对第二候选动作提名的置信度进
行分数高斯衰减;从多个候选动作提名中去除处理后的置信度低于第三预设阈值的第二候选动作提名以及第一候选动作提名,对剩余的候选动作提名重复执行上述处理流程,直至剩余最后一个候选动作提名,确定最后一个候选动作提名也为目标动作提名。
[0016]根据本申请实施例的另一方面,还提供了一种时序动作提名装置,包括:获取模块,用于获取待处理视频,将待处理视频划分为多个第一视频片段,其中,每个第一视频片段具有对应的标记时间点;概率评估模块,用于基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,原子动作评估模型为Transformer模型,原子动作包括:动作开始,动作进行中和动作结束;边界确定模块,用于基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时序动作提名方法,其特征在于,包括:获取待处理视频,将所述待处理视频划分为多个第一视频片段,其中,每个所述第一视频片段具有对应的标记时间点;基于预训练的原子动作评估模型确定每个所述第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,所述原子动作评估模型为Transformer模型,所述原子动作包括:动作开始,动作进行中和动作结束;基于所述原子动作概率集合从所述多个第一视频片段对应的标记时间点中确定动作边界集合,并基于所述动作边界集合确定多个候选动作提名;提取每个所述候选动作提名对应的候选提名特征,并基于所述候选提名特征确定每个所述候选动作提名的置信度;基于所述多个候选动作提名的置信度对所述多个候选动作提名进行非极大值抑制处理,得到目标动作提名。2.根据权利要求1所述的方法,其特征在于,将所述待处理视频划分为多个第一视频片段,包括:通过等间隔采样法将所述待处理视频划分为多个所述第一视频片段,其中,任意相邻的两个所述第一视频片段具有重叠的视频帧图像。3.根据权利要求1所述的方法,其特征在于,基于预训练的原子动作评估模型确定每个所述第一视频片段对应的原子动作概率,得到原子动作概率集合,包括:将所述多个第一视频片段依次输入所述原子动作评估模型,得到每个所述第一视频片段对应的所述原子动作概率,所述原子动作概率包括:动作开始概率,动作进行中概率和动作结束概率;将所述多个第一视频片段对应的所述原子动作概率作为所述原子动作概率集合,所述原子动作概率集合包括:动作开始概率集合,动作进行中概率集合和动作结束概率集合。4.根据权利要求3所述的方法,其特征在于,所述原子动作评估模型的训练过程包括:获取训练样本视频及标注信息,所述标注信息用于标注所述训练样本视频中的动作实例;将所述训练样本视频划分为多个第二视频片段,并基于待训练的原子动作评估模型预测每个所述第二视频片段对应的所述原子动作概率;基于每个所述第二视频片段对应的所述原子动作概率及所述标注信息构建目标损失函数;基于所述目标损失函数,通过反向传播梯度下降的方式调整所述待训练的原子动作评估模型的模型参数。5.根据权利要求4所述的方法,其特征在于,基于每个所述第二视频片段对应的所述原子动作概率及所述标注信息构建目标损失函数,包括:基于每个所述第二视频片段对应的所述动作开始概率及所述标注信息构建第一损失函数;基于每个所述第二视频片段对应的所述动作进行中概率及所述标注信息构建第二损失函数;基于每个所述第二视频片段对应的所述动作结束概率及所述标注信息构建第三损失
函数;基于每三个相邻的所述第二视频片段对应的所述动作开始概率、所述动作进行中概率及所述动作结束概率确定顺序概率,并基于所有所述顺序概率构建第四损失函数,其中,所述顺序概率用于表示所述每三个相邻的所述第二视频片段是否满足原子动作顺序;基于所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数构建所述目标损失函数。6.根据权利要求3所述的方法,其特征在于,所述动作边界集合包括动作开始边界集合和动作结束边界集合,基于所述原子动作概率集合从所述多个第一视频片段对应的标记时间点中确定动作边界集合,并基于所述动作边界集合确定多个候选动作提名,包括:确定所述动作开始概率集合中每个大于第一预设阈值的动作开始概率所对应的所述第一视频片段的标记时间点为动作开始边界,得到所述动作开始边界集合;确定所述动作结束概率集合中每个大于所述第一预设阈值的动作结束概率所对应的所述第一视频片段的标记...

【专利技术属性】
技术研发人员:黄金龙张琳贺嘉何美斌
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1