视频时效模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:39257627 阅读:5 留言:0更新日期:2023-10-30 12:09
本申请公开了一种视频时效模型的训练方法、装置、设备及存储介质,涉及人工智能领域。该方法包括:将样本视频的至少两种模态数据分别输入至少两个特征提取层,得到与至少两种模态数据对应的至少两个模态特征;将至少两个模态特征输入特征融合层,得到融合特征;根据至少两个模态特征输出至少两个模态预测结果;以及根据融合特征输出融合预测结果;根据至少两个模态预测结果与样本视频的时效标签的损失,训练至少两个特征提取层;以及根据融合预测结果与样本视频的时效标签的损失,训练至少两个特征提取层和特征融合层。该方法可以训练视频时效模型,采用视频时效模型来确定视频时效,可以提高视频时效的识别准确度。可以提高视频时效的识别准确度。可以提高视频时效的识别准确度。

【技术实现步骤摘要】
视频时效模型的训练方法、装置、设备及存储介质


[0001]本申请涉及人工智能领域,特别涉及一种视频时效模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网通信技术的快速发展,网络已成为人们获取信息和共享信息的重要途径。服务器可以将各种信息推送至客户端,用户通过客户端可以获取到各种信息。比如,视频应用程序的服务器可以将推荐视频推送至客户端,用户通过客户端点击该视频观看。
[0003]视频具有时效性,例如,某个新闻事件的视频在一段时间后会失去新闻价值。再如,赛事预告视频在赛事开始后就不在具有时效性。因此,需要对每个视频标注其视频时效,在视频时效过期后,该视频不会再频繁推送给客户端。
[0004]相关技术中,通过人工标注的方式确定待推送视频的视频时效。然而人工往往带有主观的时效确定标准,会导致标注质量不稳定。

技术实现思路

[0005]本申请实施例提供了一种视频时效模型的训练方法、装置、设备及存储介质,可以训练视频时效模型,通过使用视频时效模型来确定视频时效,且该视频时效模型的多模态特征提取层和特征融合层分别根据各自的预测结果进行约束训练,提高了模型提取特征的能力,提高了视频时效的识别准确度。所述技术方案如下。
[0006]根据本申请的一方面,提供了一种视频时效模型的训练方法,所述方法包括:
[0007]将样本视频的至少两种模态数据分别输入至少两个特征提取层,得到所述与至少两种模态数据对应的至少两个模态特征;
[0008]将所述至少两个模态特征输入特征融合层,得到融合特征;
[0009]根据所述至少两个模态特征输出至少两个模态预测结果;以及根据所述融合特征输出融合预测结果;
[0010]根据所述至少两个模态预测结果与所述样本视频的时效标签的损失,训练所述至少两个特征提取层;以及根据所述融合预测结果与所述样本视频的所述时效标签的损失,训练所述至少两个特征提取层和所述特征融合层。
[0011]根据本申请的另一方面,提供了一种视频时效模型的训练装置,所述装置包括:
[0012]特征提取模块,用于将样本视频的至少两种模态数据分别输入至少两个特征提取层,得到所述与至少两种模态数据对应的至少两个模态特征;
[0013]特征融合模块,用于将所述至少两个模态特征输入特征融合层,得到融合特征;
[0014]预测模块,用于根据所述至少两个模态特征输出至少两个模态预测结果;以及根据所述融合特征输出融合预测结果;
[0015]训练模块,用于根据所述至少两个模态预测结果与所述样本视频的时效标签的损失,训练所述至少两个特征提取层;以及根据所述融合预测结果与所述样本视频的所述时
效标签的损失,训练所述至少两个特征提取层和所述特征融合层。
[0016]根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的视频时效模型的训练方法。
[0017]根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的视频时效模型的训练方法。
[0018]根据本公开实施例的另一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述可选实现方式中提供的视频时效模型的训练方法。
[0019]本申请实施例提供的技术方案带来的有益效果至少包括:
[0020]通过训练视频时效模型,使用视频时效模型来对视频的多模态数据进行特征提取,基于多模态特征的融合特征预测视频的视频时效,保证视频时效的标注质量。并且,由于不同模态数据的特征提取层的收敛速度不一致,为了保证每个模态的特征提取层都可以收敛至最佳状态,在训练过程中使用每个特征提取层输出的特征预测得到预测结果,根据每个特征提取层对应的预测结果与真实标签的损失,来训练对应的特征提取层,保证在其中部分特征提取层收敛后,其他特征提取层也具有充足的约束力进行训练,提高特征提取层提取特征的准确度,进而提高视频时效模型对视频时效标注的准确性。
附图说明
[0021]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请一个示例性实施例提供的计算机设备的框图;
[0023]图2是本申请另一个示例性实施例提供的视频时效模型的训练方法的方法流程图;
[0024]图3是本申请另一个示例性实施例提供的视频时效模型的训练方法的示意图;
[0025]图4是本申请另一个示例性实施例提供的视频时效模型的训练方法的方法流程图;
[0026]图5是本申请另一个示例性实施例提供的视频时效模型的训练方法的示意图;
[0027]图6是本申请另一个示例性实施例提供的视频时效模型的训练方法的示意图;
[0028]图7是本申请另一个示例性实施例提供的视频时效模型的训练方法的示意图;
[0029]图8是本申请另一个示例性实施例提供的视频时效模型的训练方法的方法流程图;
[0030]图9是本申请另一个示例性实施例提供的视频时效模型的训练装置的框图;
[0031]图10是本申请另一个示例性实施例提供的服务器的结构示意图;
[0032]图11是本申请另一个示例性实施例提供的终端的框图。
具体实施方式
[0033]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0034]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0035]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频时效模型的训练方法,其特征在于,所述方法包括:将样本视频的至少两种模态数据分别输入至少两个特征提取层,得到所述与至少两种模态数据对应的至少两个模态特征;将所述至少两个模态特征输入特征融合层,得到融合特征;根据所述至少两个模态特征输出至少两个模态预测结果;以及根据所述融合特征输出融合预测结果;根据所述至少两个模态预测结果与所述样本视频的时效标签的损失,训练所述至少两个特征提取层;以及根据所述融合预测结果与所述样本视频的所述时效标签的损失,训练所述至少两个特征提取层和所述特征融合层。2.根据权利要求1所述的方法,其特征在于,所述至少两个模态预测结果包括:基于视觉特征输出的视觉预测结果,以及,基于文本特征输出的文本预测结果;所述至少两个特征提取层包括:基于所述样本视频的视觉数据输出视觉特征的视觉特征提取层,以及,基于所述样本视频的文本数据输出文本特征的文本特征提取层;所述根据所述至少两个模态预测结果与所述样本视频的时效标签的损失,训练所述至少两个特征提取层,包括:根据所述视觉预测结果与所述样本视频的所述时效标签的第一损失,训练所述视觉特征提取层;根据所述文本预测结果与所述样本视频的所述时效标签的第二损失,训练所述文本特征提取层。3.根据权利要求2所述的方法,其特征在于,所述根据所述视觉预测结果与所述样本视频的所述时效标签的第一损失,训练所述视觉特征提取层,包括:根据所述第一损失计算第一梯度,所述第一损失为所述视觉预测结果与所述时效标签的损失;根据第一差异比对所述第一梯度进行加权得到第二梯度,所述第一差异比是根据所述视觉预测结果与所述文本预测结果的差异计算得到的;根据所述第二梯度对所述视觉特征提取层的模型参数进行梯度更新。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:计算所述视觉预测结果与所述文本预测结果的第一比值;在所述第一比值大于一的情况下,对所述第一比值进行归一调制,得到所述第一差异比;在所述第一比值不大于一的情况下,将1确定为所述第一差异比。5.根据权利要求2所述的方法,其特征在于,所述根据所述文本预测结果与所述样本视频的所述时效标签的第二损失,训练所述文本特征提取层,包括:根据所述第二损失计算第三梯度,所述第二损失为所述文本预测结果与所述时效标签的损失;根据第二差异比对所述第二梯度进行加权得到第四梯度,所述第二差异比是根据所述文本预测结果与所述视觉预测结果的差异计算得到的;根据所述第四梯度对所述文本特征提取层的模型参数进行梯度更新。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
计算所述文本预测结果与所述视觉预测结果的第二比值;在所述第二比值大于1的情况下,对所述第二比值进行归一调制,得到所述第二差异比;在所述第二比值不大于1的情况下,将1确定为所述第二差异比。7.根据权利要求1至6任一所述的方法,其特征在于,所述将样本视频的至少两种模态数据分别输入至少两个特征提取层,得到所述至少两种模态数据对应的至少两个模态特征;将所述至少两个模态特征输入特征融合层,得到融合特征;根据所述至少两个模态特征输出至少两个模态预测结果,包括:将所述样本视频的视觉数据输入视觉特征提取层,得到视觉特征;将所述样本视频的文本数据输入文本特征提取层,得到文本特征;将所述视觉特征和所述文本特征输入交叉注意力特...

【专利技术属性】
技术研发人员:杨善明李和瀚司建锋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1