视频标注方法、装置、计算机设备和计算机程序产品制造方法及图纸

技术编号:33042590 阅读:16 留言:0更新日期:2022-04-15 09:24
本申请涉及一种视频标注方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:对于训练视频集合中的训练视频,获取训练视频对应的训练三元组;训练三元组包括视频标识、训练标签以及训练关系;分别获取视频标识、第一训练关系以及训练标签各自对应的语义表达特征;将视频标识对应的语义表达特征和视频标识对应的内容提取特征输入融合模型,得到训练融合特征;基于训练融合特征以及第一训练关系对应的语义表达特征,确定预测标签特征;基于训练标签对应的语义表达特征和预测标签特征之间的差异,调整各个语义表达特征以及融合模型的模型参数,得到各个目标语义表达特征以及目标融合模型。采用本方法能够提高视频标注时标签多样性。标签多样性。标签多样性。

【技术实现步骤摘要】
视频标注方法、装置、计算机设备和计算机程序产品


[0001]本申请涉及计算机
,特别是涉及一种视频标注方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的发展,出现了视频标注技术,视频标注指的是给视频添加标签的过程。
[0003]传统技术中,视频标注通常是基于对视频的内容进行分类,例如对视频的关键帧进行分类,或者对视频的背景音乐进行分类,然而这种方法无法标注与视频的内容不直接相关的标签,导致标注的标签单一。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高标签多样性的视频标注方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]一方面,本申请提供了一种视频标注方法。所述方法包括:
[0006]确定训练视频集合,对于训练视频集合中的训练视频,获取所述训练视频对应的第一训练三元组;所述第一训练三元组包括所述训练视频对应的视频标识、训练标签,以及所述训练视频与所述训练标签之间的第一训练关系;
[0007]分别获取所述视频标识、所述第一训练关系以及所述训练标签各自对应的语义表达特征;
[0008]将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型,得到训练融合特征;所述内容提取特征是对所述视频标识对应的关联内容进行特征提取得到的;
[0009]基于所述训练融合特征以及所述第一训练关系对应的语义表达特征,确定与所述第一训练关系对应的第一预测标签特征;
[0010]基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型;
[0011]各个所述目标语义表达特征以及所述目标融合模型用于配合实现对所述训练视频进行标注。
[0012]另一方面,本申请还提供了一种视频标注装置。所述装置包括:
[0013]训练样本获取模块,用于确定训练视频集合,对于训练视频集合中的训练视频,获取所述训练视频对应的第一训练三元组;所述第一训练三元组包括所述训练视频对应的视频标识、训练标签,以及所述训练视频与所述训练标签之间的第一训练关系;
[0014]语义表达特征获取模块,用于分别获取所述视频标识、所述第一训练关系以及所述训练标签各自对应的语义表达特征;
[0015]融合模块,用于将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型,得到训练融合特征;所述内容提取特征是对所述视频标识对应的关联内容进行特征提取得到的;
[0016]标签预测模块,用于基于所述训练融合特征以及所述第一训练关系对应的语义表达特征,确定与所述第一训练关系对应的第一预测标签特征;
[0017]参数调整模块,用于基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型;各个所述目标语义表达特征以及所述目标融合模型用于配合实现对所述训练视频进行标注。
[0018]另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述视频标注方法的步骤。
[0019]另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述视频标注方法的步骤。
[0020]另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述视频标注方法的步骤。
[0021]上述视频标注方法、装置、计算机设备、存储介质和计算机程序产品,在确定了训练视频集合后,对于训练视频集合中每一个训练视频,获取所述训练视频对应的第一训练三元组,分别获取第一目标三元组中视频标识、第一训练关系以及所述训练标签各自对应的语义表达特征,将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型,得到训练融合特征,基于所述训练融合特征以及所述第一训练关系对应的语义表达特征,确定与所述第一训练关系对应的第一预测标签特征,各个所述第一目标三元组以及所述目标融合模型用于配合实现对所述训练视频进行标注,由于在调整的过程中融合了视频标识对应的关联内容,各个目标语义表达特征可以准备地表达训练视频与标签之间的语义关系,进而基于各个目标语义表达特征在进行标注时,可以标注出与语义有关的标签,提高了视频标签的多样性。
[0022]另一方面,本申请还提供了一种视频标注装置。所述装置包括:
[0023]融合特征获取模块,用于获取待标注的目标视频对应的目标融合特征;所述目标融合特征是通过将所述目标视频的视频标识对应的目标语义表达特征和所述视频标识对应的内容提取特征输入目标融合模型得到的;
[0024]标签预测模块,用于基于所述目标融合特征以及第一目标关系对应的目标语义表达特征,得到与所述第一目标关系对应的目标预测标签特征;
[0025]特征匹配模块,用于将各个训练标签对应的目标语义表达特征分别与所述目标预测标签特征进行匹配,将匹配成功的目标语义表达特征所对应的训练标签,确定为所述目标视频对应的第一标注标签;
[0026]其中,所述目标融合模型以及各个目标语义表达特征,是基于第一训练三元组对应的第一差异对待调整的融合模型以及待调整的各个语义表达特征进行调整得到的;所述第一训练三元组与所述目标视频所属的训练视频集合中的训练视频对应,包括所述训练视频对应的视频标识、训练标签,以及所述训练视频与所述训练标签之间的第一训练关系;所
述第一差异是所述训练标签对应的语义表达特征和所述第一预测标签特征之间的差异;所述第一预测标签特征与所述第一训练关系对应,是基于所述训练融合特征以及所述第一训练关系对应的语义表达特征确定的;所述训练融合特征是通过将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型得到的;所述内容提取特征是对所述视频标识对应的关联内容进行特征提取得到的。
[0027]另一方面,本申请还提供了一种视频标注方法。所述方法包括:
[0028]获取待标注的目标视频对应的目标融合特征;所述目标融合特征是通过将所述目标视频的视频标识对应的目标语义表达特征和所述视频标识对应的内容提取特征输入目标融合模型得到的;
[0029]基于所述目标融合特征以及第一目标关系对应的目标语义表达特征,得到与所述第一目标关系对应的目标预测标签特征;
[0030]将各个训练标签对应的目标语义表达特征分别与所述目标预测标签特征进行匹配,将匹配成功的目标语义表达特征所对应的训练标签,确定为所述目标视频对应的第一标注标签;
[0031]所述目标融合模型以及各个目标语义表达特征,是基于第一训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频标注方法,其特征在于,所述方法包括:确定训练视频集合,对于训练视频集合中的训练视频,获取所述训练视频对应的第一训练三元组;所述第一训练三元组包括所述训练视频对应的视频标识、训练标签,以及所述训练视频与所述训练标签之间的第一训练关系;分别获取所述视频标识、所述第一训练关系以及所述训练标签各自对应的语义表达特征;将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型,得到训练融合特征;所述内容提取特征是对所述视频标识对应的关联内容进行特征提取得到的;基于所述训练融合特征以及所述第一训练关系对应的语义表达特征,确定与所述第一训练关系对应的第一预测标签特征;基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型;各个所述目标语义表达特征以及所述目标融合模型用于配合实现对所述训练视频进行标注。2.根据权利要求1所述的方法,其特征在于,所述融合模型包括映射层;所述将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型,得到训练融合特征,包括:通过所述映射层将所述内容提取特征映射至所述视频标识的语义表达特征所在的语义空间,得到所述内容提取特征对应的映射特征;融合所述映射特征和所述视频标识对应的语义表达特征,得到所述训练视频对应的训练融合特征;所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型,包括:基于所述第一差异,调整所述第一训练三元组对应的各个语义表达特征以及所述映射层的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标映射层。3.根据权利要求2所述的方法,其特征在于,所述融合模型还包括关注度分配层;所述融合所述映射特征和所述视频标识对应的语义表达特征,得到所述训练视频对应的训练融合特征,包括:通过所述关注度分配层分别计算所述映射特征和所述视频标识的语义表达特征各自的关注度,得到所述映射特征对应的第一关注度以及与所述视频标识的语义表达特征对应的第二关注度;基于所述第一关注度对所述映射特征进行关注处理得到内容关注特征,基于所述第二关注度对所述视频标识的语义表达特征进行关注处理得到标识关注特征;拼接所述内容关注特征与所述标识关注特征,得到所述训练融合特征;所述基于所述第一差异,调整所述第一训练三元组对应的各个语义表达特征以及所述映射层的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标映射层,包括:
基于所述第一差异,调整各个语义表达特征、所述映射层的模型参数以及所述关注度分配层的模型参数,得到调整后的各个目标语义表达特征、调整后的目标映射层以及调整后的目标关注度分配层。4.根据权利要求1所述的方法,其特征在于,在所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型之前,所述方法还包括:获取替换融合特征;所述替换融合特征为其他训练视频对应的训练融合特征;基于所述替换融合特征与所述第一训练关系对应的语义表达特征,确定与所述第一训练关系对应的第二预测标签特征;所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型,包括:基于所述训练标签对应的语义表达特征与第二预测标签特征确定第二差异;基于所述第二差异以及所述第一差异之间的第一目标差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型。5.根据权利要求1所述的方法,其特征在于,在所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型之前,所述方法还包括:获取替换标签特征;所述替换标签特征为其他训练视频对应的训练标签所对应的语义表达特征;所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型,包括:基于所述第一预测标签特征和所述替换标签特征确定第三差异;基于所述第一差异以及所述第三差异之间的第二目标差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型。6.根据权利要求1所述的方法,其特征在于,在所述将所述视频标识对应的语义表达特征和所述视频标识对应的内容提取特征输入融合模型,得到训练融合特征之前,所述方法还包括:获取所述视频标识对应的关联内容;将所述关联内容输入已训练的且与所述关联内容对应的内容分类模型中,通过所述内容分类模型对所述关联内容提取用于分类的内容特征;将提取的用于分类的内容特征确定为与所述关联内容对应的内容提取特征。7.根据权利要求6所述的方法,其特征在于,所述关联内容包括所述训练标识对应的视频帧、背景音乐以及关联文本之间的至少一种;各个不同的关联内容对应不同的内容分类
模型。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述第一训练关系对应的语义表达特征输入关系关注度分配模型中,通过所述关系关注度分配模型计算所述第一训练关系对应的关系关注度;所述基于所述训练融合特征以及所述第一训练关系对应的语义表达特征,确定与所述第一训练关系对应的第一预测标签特征,包括:基于所述第一训练关系对应的关系关注度对所述第一训练关系对应的语义表达特征进行关注处理,得到所述第一训练关系对应的关系关注特征;基于所述训练融合特征以及所述第一训练关系对应的关系关注特征,确定与所述第一训练关系对应的第一预测标签特征;所述基于所述训练标签对应的语义表达特征和所述第一预测标签特征之间的第一差异,调整各个语义表达特征以及所述融合模型的模型参数,得到调整后的各个目标语义表达特征以及调整后的目标融合模型,包括:基于所述第一差异,调整各个语义表达特征、融合模型的模型参数以及所述关系关注度分配模型的模型参数,得到调整后的各个目标语义表达特征、调整后的目标融合模型以及调整后的目标关系关注度分配模型。9.根据权利要求1所述的方法,其特征在于,各个第一训练三元组中的训练标签组成训练标签集合;所述方法还包括:获取第二训练三元组;所述第二训练三元组中包括训练头标签、训练尾标签,以及所述训练头标签和训练尾标签之间的第二训练关系;所述训练头标签以及训练尾标签均属于所述训练标签集合;分别获取所述训练头标签、所述训练尾标签以及所述第二训练关系各自对应的语义表达特征;基于所述训练头标签对应的语义表达特征以及所述第二训练关系对应的语义表达特征,确定预测尾标签特征;获取所述预测尾标签特征与所述训练尾标签对应的语义表达特征之间的标签特征差异;基于所述标签特征差异,调整所述训练头标签、所述训练尾标签以及所述第二训练关系各自对应的语义表达特征,得到所述训练头标签、所述训练尾标签以及所述第二训练关系各自对应的调整后的目标语义表达特征。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:将所述第二训练关系对应的语义表达特征输入关系关注度分配模型,通过所述关系关注度分配模型计算所述第二训练关系对应的关系关注度;所述基于所述训练头标签对应的...

【专利技术属性】
技术研发人员:祁仲昂骆颖民单瀛
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1