视频文本特征提取模型的训练方法、文本视频匹配方法组成比例

技术编号:40383815 阅读:18 留言:0更新日期:2024-02-20 22:19
本说明书的实施例提供了一种视频文本特征提取模型的训练方法、文本视频匹配方法和装置。在该视频文本特征提取模型的训练方法中,利用当前视频文本特征提取模型提取与当前训练样本集中的各个视频文本对的视频数据和文本数据分别对应的视频特征和文本特征,视频数据包括从长视频中采样得到的视频片段;根据所得到的各个视频特征和文本特征之间的相似度,生成与当前训练样本集对应的原生相似度矩阵;再基于原生相似度矩阵对视频数据与文本数据进行对齐,得到用于指示视频数据与文本数据之间的潜在对齐关系的关系校正矩阵;根据原生相似度矩阵和对应的关系校正矩阵确定当前训练样本集对应的对比损失值,进而据此调整当前视频文本特征提取模型的参数。

【技术实现步骤摘要】

本说明书实施例通常涉及计算机,尤其涉及视频文本特征提取模型的训练方法、文本视频匹配方法和装置。


技术介绍

1、视频文本预训练可以指使用大规模的成对的视频和文本数据集对深度学习模型进行训练,以学习视频内容和文本信息之间的关联关系,从而使得计算机可以更好地进行视频内容的理解、搜索和推荐等任务。但目前视频文本预训练能否成功往往取决于视频内容与相应的文本信息是否正确对齐。然而,由于实际中通常存在视频文本错误对齐的情况,因而应用传统的视频文本预训练技术所提取的跨模态特征在视频检索、分类等下游任务上的效果不佳。因此,如何提高模型在视频文本不对齐情况下的特征表征能力,以支持视频内容分析、推荐等具体下游任务,仍然是一个非常重要且具有挑战性的问题。


技术实现思路

1、鉴于上述,本说明书实施例提供了一种视频文本特征提取模型的训练方法、文本视频匹配方法和装置。利用该方法、装置,可以有效提高模型在视频文本不对齐情况下的特征表征能力。

2、根据本说明书的实施例的一个方面,提供一种视频文本特征提取模型的训练方法,包括:利用当本文档来自技高网...

【技术保护点】

1.一种视频文本特征提取模型的训练方法,包括:

2.如权利要求1所述的训练方法,其中,所述根据所得到的各个视频特征和文本特征之间的相似度,生成与当前训练样本集对应的原生相似度矩阵包括:

3.如权利要求2所述的训练方法,其中,所述基于所述原生相似度矩阵对视频数据与文本数据进行对齐,确定与所述原生相似度矩阵相对应的关系校正矩阵包括:

4.如权利要求3所述的训练方法,其中,所述根据所述原生相似度矩阵和对应的关系校正矩阵确定当前训练样本集对应的对比损失值包括:

5.如权利要求1到4中任一所述的训练方法,其中,所述根据所得到的各个视频特征和文本特征之...

【技术特征摘要】

1.一种视频文本特征提取模型的训练方法,包括:

2.如权利要求1所述的训练方法,其中,所述根据所得到的各个视频特征和文本特征之间的相似度,生成与当前训练样本集对应的原生相似度矩阵包括:

3.如权利要求2所述的训练方法,其中,所述基于所述原生相似度矩阵对视频数据与文本数据进行对齐,确定与所述原生相似度矩阵相对应的关系校正矩阵包括:

4.如权利要求3所述的训练方法,其中,所述根据所述原生相似度矩阵和对应的关系校正矩阵确定当前训练样本集对应的对比损失值包括:

5.如权利要求1到4中任一所述的训练方法,其中,所述根据所得到的各个视频特征和文本特征之间的相似度,生成与当前训练样本集对应的原生相似度矩阵包括:

6.如权利要求5所述的训练方法,其中,所述基于所述原生相似度矩阵对视频数据与文本数据进行对齐,确定与所述原生相似度矩阵相对应的关系校正矩阵包括:

【专利技术属性】
技术研发人员:张杰刘佳林义杰
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1