视频时效模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号：39257627 阅读：5 留言：0更新日期：2023-10-30 12:09

本申请公开了一种视频时效模型的训练方法、装置、设备及存储介质，涉及人工智能领域。该方法包括：将样本视频的至少两种模态数据分别输入至少两个特征提取层，得到与至少两种模态数据对应的至少两个模态特征；将至少两个模态特征输入特征融合层，得到融合特征；根据至少两个模态特征输出至少两个模态预测结果；以及根据融合特征输出融合预测结果；根据至少两个模态预测结果与样本视频的时效标签的损失，训练至少两个特征提取层；以及根据融合预测结果与样本视频的时效标签的损失，训练至少两个特征提取层和特征融合层。该方法可以训练视频时效模型，采用视频时效模型来确定视频时效，可以提高视频时效的识别准确度。可以提高视频时效的识别准确度。可以提高视频时效的识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】
视频时效模型的训练方法、装置、设备及存储介质

[0001]本申请涉及人工智能领域，特别涉及一种视频时效模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网通信技术的快速发展，网络已成为人们获取信息和共享信息的重要途径。服务器可以将各种信息推送至客户端，用户通过客户端可以获取到各种信息。比如，视频应用程序的服务器可以将推荐视频推送至客户端，用户通过客户端点击该视频观看。
[0003]视频具有时效性，例如，某个新闻事件的视频在一段时间后会失去新闻价值。再如，赛事预告视频在赛事开始后就不在具有时效性。因此，需要对每个视频标注其视频时效，在视频时效过期后，该视频不会再频繁推送给客户端。
[0004]相关技术中，通过人工标注的方式确定待推送视频的视频时效。然而人工往往带有主观的时效确定标准，会导致标注质量不稳定。

技术实现思路

[0005]本申请实施例提供了一种视频时效模型的训练方法、装置、设备及存储介质，可以训练视频时效模型，通过使用视频时效模型来确定视频时效，且该视频时效模型的多模态特征提取层和特征融合层分别根据各自的预测结果进行约束训练，提高了模型提取特征的能力，提高了视频时效的识别准确度。所述技术方案如下。
[0006]根据本申请的一方面，提供了一种视频时效模型的训练方法，所述方法包括：
[0007]将样本视频的至少两种模态数据分别输入至少两个特征提取层，得到所述与至少两种模态数据对应的至少两个模态特征；
[0008]将所述至少两个模态特征输入...

【技术保护点】

【技术特征摘要】
1.一种视频时效模型的训练方法，其特征在于，所述方法包括：将样本视频的至少两种模态数据分别输入至少两个特征提取层，得到所述与至少两种模态数据对应的至少两个模态特征；将所述至少两个模态特征输入特征融合层，得到融合特征；根据所述至少两个模态特征输出至少两个模态预测结果；以及根据所述融合特征输出融合预测结果；根据所述至少两个模态预测结果与所述样本视频的时效标签的损失，训练所述至少两个特征提取层；以及根据所述融合预测结果与所述样本视频的所述时效标签的损失，训练所述至少两个特征提取层和所述特征融合层。2.根据权利要求1所述的方法，其特征在于，所述至少两个模态预测结果包括：基于视觉特征输出的视觉预测结果，以及，基于文本特征输出的文本预测结果；所述至少两个特征提取层包括：基于所述样本视频的视觉数据输出视觉特征的视觉特征提取层，以及，基于所述样本视频的文本数据输出文本特征的文本特征提取层；所述根据所述至少两个模态预测结果与所述样本视频的时效标签的损失，训练所述至少两个特征提取层，包括：根据所述视觉预测结果与所述样本视频的所述时效标签的第一损失，训练所述视觉特征提取层；根据所述文本预测结果与所述样本视频的所述时效标签的第二损失，训练所述文本特征提取层。3.根据权利要求2所述的方法，其特征在于，所述根据所述视觉预测结果与所述样本视频的所述时效标签的第一损失，训练所述视觉特征提取层，包括：根据所述第一损失计算第一梯度，所述第一损失为所述视觉预测结果与所述时效标签的损失；根据第一差异比对所述第一梯度进行加权得到第二梯度，所述第一差异比是根据所述视觉预测结果与所述文本预测结果的差异计算得到的；根据所述第二梯度对所述视觉特征提取层的模型参数进行梯度更新。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：计算所述视觉预测结果与所述文本预测结果的第一比值；在所述第一比值大于一的情况下，对所述第一比值进行归一调制，得到所述第一差异比；在所述第一比值不大于一的情况下，将1确定为所述第一差异比。5.根据权利要求2所述的方法，其特征在于，所述根据所述文本预测结果与所述样本视频的所述时效标签的第二损失，训练所述文本特征提取层，包括：根据所述第二损失计算第三梯度，所述第二损失为所述文本预测结果与所述时效标签的损失；根据第二差异比对所述第二梯度进行加权得到第四梯度，所述第二差异比是根据所述文本预测结果与所述视觉预测结果的差异计算得到的；根据所述第四梯度对所述文本特征提取层的模型参数进行梯度更新。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：
计算所述文本预测结果与所述视觉预测结果的第二比值；在所述第二比值大于1的情况下，对所述第二比值进行归一调制，得到所述第二差异比；在所述第二比值不大于1的情况下，将1确定为所述第二差异比。7.根据权利要求1至6任一所述的方法，其特征在于，所述将样本视频的至少两种模态数据分别输入至少两个特征提取层，得到所述至少两种模态数据对应的至少两个模态特征；将所述至少两个模态特征输入特征融合层，得到融合特征；根据所述至少两个模态特征输出至少两个模态预测结果，包括：将所述样本视频的视觉数据输入视觉特征提取层，得到视觉特征；将所述样本视频的文本数据输入文本特征提取层，得到文本特征；将所述视觉特征和所述文本特征输入交叉注意力特...

【专利技术属性】
技术研发人员：杨善明，李和瀚，司建锋，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人