基于局部特征增强和模态交互的视频检索方法及系统技术方案

技术编号：40517788 阅读：5 留言：0更新日期：2024-03-01 13:35

本发明专利技术提供一种基于局部特征增强和模态交互的视频检索方法及系统，涉及跨模态视频检索技术领域，该方法包括根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征；获取时序化帧图像特征并进行平均池化得到视频特征，将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强；将文本分词特征和文本关键词特征进行特征融合，实现文本局部特征增强；将时序化帧图像特征和文本全局特征进行跨模态的交互，生成文本条件的视频特征；采用多粒度匹配的策略进行层次化的视频文本匹配。本发明专利技术通过局部特征增强和模态交互，可以提高视频检索性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及跨模态视频检索，尤其涉及一种基于局部特征增强和模态交互的视频检索方法及系统。

技术介绍

1、随着移动设备和互联网的快速发展，文本视频检索这一典型的多模态任务越来越受到人们的关注。该任务旨在根据与特定文本（或视频）的相关性对集合中的视频(或文本)进行排序，这使得用户能够准确快速地找到所需的视频。在过去的几十年里，随着深度学习技术的不断进步，视频检索领域取得了显著的进步。

2、近年来，基于对比文本-图像对的预训练模型（contrastive language-imagepre-training，clip）的视频检索技术取得了显著成功。现有的主流方法首先对视频帧进行均匀取样，然后通过clip编码器获得帧图像表征以及文本表征，视频表征通过对帧图像表征聚合得到，最终计算视频表征与文本表征的相似度完成视频检索。在该类工作中，通常将帧图像特征输入到时序编码器后进行平均池化，获得视频表征用于视频检索。然而该类工作仍然存在一定的缺陷，首先由于clip是在图像文本数据集上训练的，而图像与视频之间存在模态差异，直接使用编码器输出的原始表征进行视频检索会影响性能；另外，视频与文本的对应关系是一对多的，视频与文本两个模态之间交互不足，也会限制模型的检索性能。

技术实现思路

1、为此，本专利技术实施例提供了一种基于局部特征增强和模态交互的视频检索方法及系统，用于解决现有技术中视频检索方法中存在的原始特征匹配效率低、缺少模态交互等问题。

2、为了解决上述问题，本专利技术实施

3、s1：根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征；

4、s2：根据帧图像特征和时序编码器，对帧图像特征进行时序建模，得到时序化帧图像特征，并进行平均池化得到视频特征，将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征；

5、s3：根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征；

6、s4：根据时序化帧图像特征和文本全局特征，进行跨模态的交互，生成文本条件的视频特征；

7、s5：根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配。

8、优选地，所述根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征，具体包括：

9、根据输入的视频数据，按固定速率对视频帧进行均匀取样，将取样的帧图像输入视频编码器中，获得编码后的帧图像特征；

10、根据输入的文本数据，使用keybert提取文本数据中的关键词，将提取的关键词数据输入到关键词编码器中，获得文本关键词特征；

11、根据输入的文本数据，使用文本编码器，获得文本分词特征和文本全局特征。

12、优选地，所述文本编码器与所述关键词编码器具有相同的网络结构并且在训练过程中共享参数。

13、优选地，所述根据视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征，具体包括：

14、将视频特征与时序化帧图像特征进行特征级联后，输入到长短期记忆网络中进行充分的融合交互，从而达到局部特征语义增强的目的，使之更好地适应视频检索任务；另一方面，采用自适应权重层来减少不相关内容对最终对齐的影响，所述自适应权重层由两个全连接层、自注意力层以及sigmoid激活层构成；最终，使用预测的权重进行分配，获得增强后的视频局部特征。

15、优选地，所述根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征，具体包括：

16、使用交叉注意力机制通过文本关键词特征的引导对文本分词特征进行局部特征增强：

17、we= crossatten(w·wk, w·wv, wk·wq)；

18、其中，w和wk分别为文本分词特征和文本关键词特征；wk、wv 以及wq为对应的投影矩阵；crossatten()为交叉注意力机制；we为增强后的文本局部特征。

19、优选地，所述根据时序化帧图像特征和文本全局特征，进行跨模态的交互，生成文本条件的视频特征，具体包括：

20、使用交叉注意力机制通过文本全局特征的引导对时序化帧图像特征进行条件池化：

21、v = crossatten(f·w′k, f· w′v, t · w′q)；

22、其中，f和t分别为时序化帧图像特征和文本全局特征；w′k、w′v 以及w′q分别为对应的投影矩阵；crossatten()为交叉注意力机制；v为文本条件池化后的视频特征。

23、优选地，所述根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配，具体包括：

24、将增强后的视频局部特征和增强后的文本局部特征进行细粒度相似度计算；

25、将文本条件的视频特征与文本全局特征进行粗粒度的相似度计算；

26、将两个粒度的相似度相加得出最终的视频文本相似度。

27、本专利技术实施例还提供了一种基于局部特征增强和模态交互的视频检索系统，该系统用于实现上述所述的基于局部特征增强和模态交互的视频检索方法，具体包括：

28、特征提取模块，用于根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征；

29、视频局部特征增强模块，用于根据帧图像特征和时序编码器，对帧图像特征进行时序建模，得到时序化帧图像特征，并进行平均池化得到视频特征，将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征；

30、文本局部特征增强模块，用于根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征；

31、文本条件的视频特征生成模块，用于根据时序化帧图像特征和文本全局特征，进行跨模态的交互，生成文本条件的视频特征；

32、视频文本匹配模块，用于根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征，采用多粒度匹配的策略进行层次化的视频文本匹配。

33、本专利技术实施例还提供了一种电子设备，所述电子设备包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现上述所述的基于局部特征增强和模态交互的视频检索方法。

34、本专利技术实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括本文档来自技高网...

【技术保护点】

1.一种基于局部特征增强和模态交互的视频检索方法，其特征在于，包括：

2.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述根据输入的视频数据和文本数据，获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征，具体包括：

3.根据权利要求2所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述文本编码器与所述关键词编码器具有相同的网络结构并且在训练过程中共享参数。

4.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述将视频特征与时序化帧图像特征进行特征融合，实现视频局部特征增强，获得增强后的视频局部特征，具体包括：

5.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述根据文本分词特征和文本关键词特征，进行特征融合，实现文本局部特征增强，获得增强后的文本局部特征，具体包括：

6.一种基于局部特征增强和模态交互的视频检索系统，其特征在于，所述系统用于实现权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法，具体包括：

7.一种电子设备，其特征在于，所述电子设备包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括的若干指令，用以使得一台计算机设备执行权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法。

...

【技术特征摘要】

1.一种基于局部特征增强和模态交互的视频检索方法，其特征在于，包括：

5.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法，其特征在于，所述根据文本分词...

【专利技术属性】
技术研发人员：张东霖，王治文，吴小俊，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人