System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多模态检索,尤其是指一种文本视频检索方法及装置。
技术介绍
1、文本-视频检索tvr(text-to-video retrieval)是一项多模态任务,旨在根据给定的自然语言文本查询,从视频数据库中检索出与其相关的视频。这项技术在多个领域具有广泛的应用价值。一方面,它被用于视频搜索引擎和视频推荐系统,满足用户的信息检索需求;另一方面,这项技术可用于帮助管理视频内容,有助于维护互联网信息资源的质量和安全性。在文本-视频检索中,视频帧选择对检索模型的效率和性能的双向提升至关重要。目前常见的帧选择方法可以分为基于文本引导的方法和基于无文本引导的方法。
2、基于文本引导的帧选择方法利用文本信息过滤掉文本无关帧,目的是过滤掉视频中与文本无关的帧,进而帮助文本-视频的语义对齐。具体地,根据视频帧和文本是否有交互,可分为基于文本直接引导的有交互的帧选择方法和基于文本间接引导的无交互帧选择方法。
3、基于文本直接引导的有交互的帧选择方法:通过计算帧与文本间的余弦相似度,或者构造复杂的信息融合模块来衡量帧与文本的相似度,进而选择与文本相关性高的帧用于检索;其通过计算文本特征和视频帧特征之间的相关性,来选择关键帧;需要文本视频信息在线交互,检索时增加了额外的选帧上的时间开销,且仍然需要保存视频中所有帧的特征,存储资源消耗大。基于文本间接引导的无交互帧选择方法:通过学习一个打分模块,计算视频帧的重要性分数并选择关键帧;检索时,由于无需与文本在线交互,因此可离线选择关键帧并保存,不带来额外的时间开销并减少了保存视频
技术实现思路
1、为此,本专利技术所要解决的技术问题在于克服现有技术中在训练帧选择模块时,缺少直接的帧级别的标注信息,导致帧选择模块对于关键帧的选取不准确,进而导致文本视频检索性能下降的问题。
2、为解决上述技术问题,本专利技术提供了一种文本视频检索方法,包括:
3、获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;
4、获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;
5、对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;
6、基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;
7、基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;
8、基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;
9、获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:
10、利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;
11、将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前k个重要性分数所对应的样本图像,作为k帧优化关键帧;
12、利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的k帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;
13、利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,获取相似度最高所对应的检索视频数据,为待检测文本的相关视频。
14、在本专利技术的一个实施例中,所述对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数,包括:
15、对于每个视频数据将其对应的多帧样本图像输入帧选择模块,获取每帧样本图像的重要性分数,表示为:
16、;
17、其中,每个视频数据中所有图像样本的重要性分数集合,表示为,表示每个视频数据中预采样获取的样本图像的个数;表示视频数据中第帧图像样本的编码图像特征;表示多层感知机;表示归一化指数函数。
18、在本专利技术的一个实施例中,所述基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数,包括:
19、计算任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取样本图像关于该文本样本的相关性分数,表示为:;
20、每个视频数据的n帧样本图像对应的相关性分数,组成该视频数据的伪标签集合,表示为:;
21、其中,表示动量文本特征,表示第帧样本图像的动量图像特征,表示第帧样本图像关于文本样本的相关性分数,n表示每个视频数据中样本图像的帧数。
22、在本专利技术的一个实施例中,所述基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数,表示为:
23、;
24、其中,表示散度损失函数,kl()表示kl散度,b表示训练批次,表示训练批次中第个视频数据的重要性分数集合,表示训练批次中第个视频数据的伪标签集合;表示训练批次中第个视频数据中第帧样本图像的相关性得分,表示训练批次中第个视频数据中第帧样本图像的重要性得分。
25、在本专利技术的一个实施例中,所述利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的k帧优化关键帧的加权特征进行聚合,获取每个视频数据的优化视频特征,包括:
26、基于每个优化关键帧的重要性分数,加权该优化关键帧对应的编码图像特征,获取加权特征,表示为:;
27、对每个检索视频数据,将其k个优化关键帧对应的样本图像的加权特征进行求和,获取该检索视频数据的视频特征,表示为:;
28、其中,表示第帧优化关键帧的重要性分数,表示第帧优化关键帧的编码图像特征,表示优化关键帧总个数,表示归一化指数函数。
29、在本专利技术的一个实施例中,所述获取预先训练好的帧选择模块后,还包括:
30、在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数本文档来自技高网...
【技术保护点】
1.一种文本视频检索方法,其特征在于,包括:
2.根据权利要求1所述的文本视频检索方法,其特征在于,所述对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数,包括:
3.根据权利要求2所述的文本视频检索方法,其特征在于,所述基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数,包括:
4.根据权利要求3所述的文本视频检索方法,其特征在于,所述基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数,表示为:
5.根据权利要求1所述的文本视频检索方法,其特征在于,所述利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个视频数据的优化视频特征,包括:
6.根据权利要求1所述的文本视频检索方法,其特征在于,所述获取预先训练好的帧选择模块后,还包括:
7.
8.根据权利要求7所述的文本视频检索方法,其特征在于,所述基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失,表示为:
9.根据权利要求1所述的文本视频检索方法,其特征在于,所述文本编码器为Bert,所述视觉编码器为Vision Transformer。
10.一种文本视频检索装置,其特征在于,包括:
...【技术特征摘要】
1.一种文本视频检索方法,其特征在于,包括:
2.根据权利要求1所述的文本视频检索方法,其特征在于,所述对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数,包括:
3.根据权利要求2所述的文本视频检索方法,其特征在于,所述基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数,包括:
4.根据权利要求3所述的文本视频检索方法,其特征在于,所述基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数,表示为:
5.根据权利要求1所述的文本视频检索方法,其特征在于,所述利用每帧优化关键帧的重要性分数,对其...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。