【技术实现步骤摘要】
时序动作提名方法及装置
[0001]本申请涉及时序动作检测
,具体而言,涉及一种时序动作提名方法及装置。
技术介绍
[0002]时序动作检测(Temporal Action Detection)的任务主要有两点:一是自动识别视频中动作类别;二是定位视频中该动作的时间长度。通常,时序动作检测算法可用于提取运动竞技视频中的高光时刻任务,也可以用于处理一些视频推荐的即时应用任务,或用于视频智能监控等领域。
[0003]早期的时序动作检测方法受二维图像检测发展范式启发,该典型范式的过程可以分成两个阶段:生成动作候选提名;对动作候选提名进行分类。由于在整个过程中需要先得到候选提名,基于此,如何得到较高质量的动作候选提名成了时序动作检测的难点所在。
[0004]大量的文章实验表明,高质量的提名应具备以下条件:提名时间重叠率高且能保证较高的召回率;在遵守上述条件的情况下,提名数较少,以便降低计算开销,提高生成速度。但相关的原子评估模型虽然能保证在提名任务中获得较好的性能,但整个训练阶段并没有考虑原子动作间的关系,导致基于原子评估模型的动作提名过程较为复杂,且无法获得较高的召回率。
[0005]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0006]本申请实施例提供了一种时序动作提名方法及装置,以至少解决相关技术中对视频进行时序动作检测时获取动作提名的过程较为复杂,且召回率不高的技术问题。
[0007]根据本申请实施例的一个方面,提供了一种时序动作提名方法,包括: ...
【技术保护点】
【技术特征摘要】
1.一种时序动作提名方法,其特征在于,包括:获取待处理视频,将所述待处理视频划分为多个第一视频片段,其中,每个所述第一视频片段具有对应的标记时间点;基于预训练的原子动作评估模型确定每个所述第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,所述原子动作评估模型为Transformer模型,所述原子动作包括:动作开始,动作进行中和动作结束;基于所述原子动作概率集合从所述多个第一视频片段对应的标记时间点中确定动作边界集合,并基于所述动作边界集合确定多个候选动作提名;提取每个所述候选动作提名对应的候选提名特征,并基于所述候选提名特征确定每个所述候选动作提名的置信度;基于所述多个候选动作提名的置信度对所述多个候选动作提名进行非极大值抑制处理,得到目标动作提名。2.根据权利要求1所述的方法,其特征在于,将所述待处理视频划分为多个第一视频片段,包括:通过等间隔采样法将所述待处理视频划分为多个所述第一视频片段,其中,任意相邻的两个所述第一视频片段具有重叠的视频帧图像。3.根据权利要求1所述的方法,其特征在于,基于预训练的原子动作评估模型确定每个所述第一视频片段对应的原子动作概率,得到原子动作概率集合,包括:将所述多个第一视频片段依次输入所述原子动作评估模型,得到每个所述第一视频片段对应的所述原子动作概率,所述原子动作概率包括:动作开始概率,动作进行中概率和动作结束概率;将所述多个第一视频片段对应的所述原子动作概率作为所述原子动作概率集合,所述原子动作概率集合包括:动作开始概率集合,动作进行中概率集合和动作结束概率集合。4.根据权利要求3所述的方法,其特征在于,所述原子动作评估模型的训练过程包括:获取训练样本视频及标注信息,所述标注信息用于标注所述训练样本视频中的动作实例;将所述训练样本视频划分为多个第二视频片段,并基于待训练的原子动作评估模型预测每个所述第二视频片段对应的所述原子动作概率;基于每个所述第二视频片段对应的所述原子动作概率及所述标注信息构建目标损失函数;基于所述目标损失函数,通过反向传播梯度下降的方式调整所述待训练的原子动作评估模型的模型参数。5.根据权利要求4所述的方法,其特征在于,基于每个所述第二视频片段对应的所述原子动作概率及所述标注信息构建目标损失函数,包括:基于每个所述第二视频片段对应的所述动作开始概率及所述标注信息构建第一损失函数;基于每个所述第二视频片段对应的所述动作进行中概率及所述标注信息构建第二损失函数;基于每个所述第二视频片段对应的所述动作结束概率及所述标注信息构建第三损失
函数;基于每三个相邻的所述第二视频片段对应的所述动作开始概率、所述动作进行中概率及所述动作结束概率确定顺序概率,并基于所有所述顺序概率构建第四损失函数,其中,所述顺序概率用于表示所述每三个相邻的所述第二视频片段是否满足原子动作顺序;基于所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数构建所述目标损失函数。6.根据权利要求3所述的方法,其特征在于,所述动作边界集合包括动作开始边界集合和动作结束边界集合,基于所述原子动作概率集合从所述多个第一视频片段对应的标记时间点中确定动作边界集合,并基于所述动作边界集合确定多个候选动作提名,包括:确定所述动作开始概率集合中每个大于第一预设阈值的动作开始概率所对应的所述第一视频片段的标记时间点为动作开始边界,得到所述动作开始边界集合;确定所述动作结束概率集合中每个大于所述第一预设阈值的动作结束概率所对应的所述第一视频片段的标记...
【专利技术属性】
技术研发人员:黄金龙,张琳,贺嘉,何美斌,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。