用于确定文本和视频之间的相似度的方法和装置制造方法及图纸

技术编号：40415687 阅读：3 留言：0更新日期：2024-02-20 22:32

本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该方法中，利用文本特征提取模型和视频特征提取模型分别得到文本和视频对应的初始文本特征和初始视频特征；根据文本的句法层级分析结果对初始文本特征进行处理，得到句法层级分析结果中的各个元素分别对应的文本特征；根据句法层级分析结果对应的文本特征与所得到的初始视频特征之间的匹配度，构建与句法层级分析结果对应的视频层级分析结果；进而对对应的初始视频特征进行处理得到视频层级分析结果中的各个元素分别对应的视频特征；根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定文本和所述视频之间的相似度。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例通常涉及计算机，尤其涉及用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法以及用于训练特征提取模型的方法和装置。

技术介绍

1、随着互联网技术的飞速发展，网络视频的规模也越来越大，在诸如文本-视频检索或视频-文本检索任务中，对于准确计算文本与视频之间的语义相似度的需求也越来越强烈。相关的方式是遵循一个通用的范式，该范式通常可分为三个模块：文本编码、视频编码和文本视频对齐。由于文本模态和视频模态是两种具有不同性质的模态，其中文本通常具有良好的语法句法结构，而视频数据是非结构化的，同时伴随着大量的冗余信息。因此如何通过对齐模块对跨模态相似性进行建模，以提升所得到的多模态特征的表征能力，仍然是一个非常具有挑战性且重要的问题。

技术实现思路

1、鉴于上述，本说明书实施例提供了一种用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法、用于训练特征提取模型的方法和装置。利用该方法、装置，可以提升文本、视频的跨模态特征的表征能力，进而有助于实现准确计算文本与视频之间的语义相似度。

2、根据本说明书的实施例的一个方面，提供一种用于确定文本和视频之间的相似度的方法，包括：将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征，其中，所述初始文本特征包括所述文本包含的各个词符对应的词符特征，所述初始视频特征包括基于所述视频包含的图像而提取的图像特征；对所述文本进行句法分析

3、根据本说明书的实施例的另一个方面，提供一种文本视频检索方法，包括：接收用户提供的查询文本；根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询文本和候选视频之间的相似度，其中，各个查询文本视频对根据所述查询文本和候选视频集中的各个候选视频得到；基于所确定的相似度，从所述候选视频集中确定出匹配视频作为视频搜索结果；以及将所述视频搜索结果提供给所述用户。

4、根据本说明书的实施例的另一个方面，提供一种文本视频检索方法，包括：接收用户提供的查询视频；根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询视频和候选文本之间的相似度，其中，各个查询文本视频对根据所述查询视频和候选文本集中的各个候选文本得到；基于所确定的相似度，从所述候选文本集中确定出匹配文本作为文本搜索结果；以及将所述文本搜索结果提供给所述用户。

5、根据本说明书的实施例的另一个方面，提供一种用于训练特征提取模型的方法，其中，所述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型，所述方法包括：利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由匹配的文本数据和视频数据组成的正例文本视频对或由不匹配的文本数据和视频数据组成的负例文本视频对：将当前训练样本集中的各个当前训练样本的文本数据提供给当前文本特征提取模型，得到各个当前训练样本的初始文本特征；将各个当前训练样本的视频数据提供给当前视频特征提取模型，得到各个当前训练样本的初始视频特征；针对各个当前训练样本，对该当前训练样本的文本数据进行句法分析，得到对应的句法层级分析结果；将所得到的句法层级分析结果和该初始文本特征提供给当前文本特征处理模型，得到与该句法层级分析结果中的各个元素分别对应的文本特征；根据所得到的与该句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与该句法层级分析结果对应的视频层级分析结果；根据该视频层级分析结果对各个元素对应的初始视频特征提供给当前视频特征处理模型，得到该视频层级分析结果中的各个元素分别对应的视频特征；根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定该当前训练样本的文本数据和对应的视频数据之间的相似度；基于所确定的各个当前训练样本的文本数据和对应的视频数据之间的相似度，确定当前训练样本集对应的对比损失值；以及响应于不满足训练结束条件，根据所述对比损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

6、根据本说明书的实施例的又一个方面，提供一种用于确定文本和视频之间的相似度的装置，包括：特征提取单元，被配置为将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征，其中，所述初始文本特征包括所述文本包含的各个词符对应的词符特征，所述初始视频特征包括基于所述视频包含的图像而提取的图像特征；层级分析单元，被配置为对所述文本进行句法分析，得到句法层级分析结果；根据所得到的与所述句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与所述句法层级分析结果对应的视频层级分析结果；文本特征处理单元，被配置为根据所述句法层级分析结果对所述初始文本特征进行处理，得到与所述句法层级分析结果中的各个元素分别对应的文本特征；视频特征处理单元，被配置为根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征；以及相似度确定单元，被配置为根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定所述文本和所述视频之间的相似度。

7、根据本说明书的实施例的再一个方面，提供一种文本视频检索装置，包括：文本接收单元，被配置为接收用户提供的查询文本；相似度计算单元，被配置为根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询文本和候选视频之间的相似度，其中，各个查询文本视频对根据所述查询文本和候选视频集中的各个候选视频得到；视频结果提供单元，被配置为基于所确定的相似度，从所述候选视频集中确定出匹配视频作为视频搜索结果；以及将所述视频搜索结果提供给所述用户。

8、根据本说明书的实施例的又一个方面，提供一种视频文本检索装置，包括：视频接收单元，被配置为接收用户提供的查询视频；相似度计算单元，被配置为根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询视频和候选文本之间的相似度，其中，各个查询文本视频对根据所述查询视频和候选文本集中的各个候选文本得到；文本文档来自技高网...

【技术保护点】

1.一种用于确定文本和视频之间的相似度的方法，包括：

2.如权利要求1所述的方法，其中，所述句法层级分析结果中的元素包括：位于第一层级的句子节点和位于第二层级的动作节点，

3.如权利要求2所述的方法，其中，所述句法层级分析结果中的元素还包括位于第三层级的实体节点，

4.如权利要求3所述的方法，其中，所述句法层级分析结果中的元素还包括位于第四层级的属性节点，

5.如权利要求2所述的方法，其中，所述初始视频特征包括与视频帧对应的帧特征，

6.如权利要求3所述的方法，其中，所述初始视频特征包括与视频帧所划分的图像块对应的图像块特征，

7.如权利要求2所述的方法，其中，所述初始视频特征包括与视频帧对应的帧特征，

8.如权利要求5所述的方法，所述根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征包括：

9.如权利要求6所述的方法，所述根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征包括：

10.如权利要求1到9中任一所述的方法，其中，所述根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定所述文本和所述视频之间的相似度包括：

11.如权利要求10所述的方法，其中，各个层级中的各个元素所对应的权重基于对该层级中的各个元素对应的文本特征或视频特征的归一化处理而确定。

12.一种文本视频检索方法，包括：

13.一种视频文本检索方法，包括：

14.一种用于训练特征提取模型的方法，其中，所述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型，所述方法包括：

15.一种用于确定文本和视频之间的相似度的装置，包括：

16.一种文本视频检索装置，包括：

17.一种视频文本检索装置，包括：

18.一种用于训练特征提取模型的装置，其中，所述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型，所述装置被配置为由训练单元利用训练样本集循环执行模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由匹配的文本数据和视频数据组成的正例文本视频对或由不匹配的文本数据和视频数据组成的负例文本视频对，所述训练单元包括：

19.一种用于确定文本和视频之间的相似度的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求1至11中任一所述的用于确定文本和视频之间的相似度的方法。

20.一种文本视频匹配检索的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求12所述的文本视频检索方法或如权利要求13所述的视频文本检索方法。

21.一种用于训练特征提取模型的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求14所述的用于训练特征提取模型的方法。

...

【技术特征摘要】