一种文本视频检索方法、系统及计算机存储介质技术方案

技术编号：40319322 阅读：12 留言：0更新日期：2024-02-07 21:02

本申请公开了一种文本视频检索方法、系统及计算机存储介质，涉及图像处理技术领域。其中方法包括：获取文本，对文本进行编码，获得文本特征向量；生成与文本相应的图像；对图像进行编码，获得图像特征向量；将文本特征向量和图像特征向量组合，获得文本图像组合特征向量；获取视频，对视频进行编码，获得视频深度预览特征向量；确定文本图像组合特征向量和每个视频的视频深度预览特征向量的相似度，根据相似度确定与文本匹配的视频。本申请通过生成图像来增强文本表示的丰富度和维度，使文本能更全面地与视频特征进行匹配，从而提高检索的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，特别涉及一种文本视频检索方法、系统及计算机存储介质。

技术介绍

1、视频内容在互联网上的快速增长，特别是在视频平台普及的背景下，已经促使了对自动化视频内容识别、描述和检索方法的需求急剧增加。目前，大量用户每天都在观看在线视频，特别是在年轻人群中，这一趋势尤为明显。与此同时，视频流媒体市场正在迅速扩张，预计未来几年将继续保持强劲的增长势头。在这种情况下，文本到视频的检索成为了信息检索领域的一个重要且迅速发展的研究方向。这项任务旨在根据自然语言查询，在众多视频中找到内容最相关的视频。近期的研究重点包括使用自然语言注释的视频数据来学习文本-视频嵌入，以及开发新的多模态学习模型和算法。这些进展不仅展示了该领域技术的提升，还标志着面向未来的信息检索技术的重要步骤。

2、文本到视频检索（video-text retrieval, vtr）是一个挑战性的跨模态任务，旨在搜索与给定句子语义相关的视频，并且反之亦然。尽管深度学习技术在近年来取得了显著的进步，vtr任务仍然面临如何有效学习空间-时间视频特征和缩小跨模态差距等问题。在大数据时代背景下，人们迫切需要找到高效的方式快速搜索满足用户需求的视频。尤其是视频数量的迅速增长，使得找到目标视频变得更加耗时和困难。vtr需要分析大量视频-文本对，充分挖掘多模态信息，判断两种模态是否可以对齐。现有文本到视频检索方法主要关注于学习不同模态间的联合特征表示空间，从而实现跨模态匹配。这些方法包括全局对齐和局部对齐两种主要策略。全局对齐方法利用高层次语义进行文本-视频检索，而局

3、然而，现有方法在以下三个方面存在不足：(i) 全局对齐可能无法捕捉文本和视频中的局部细节；(ii) 局部对齐由于逐字逐帧的匹配操作而计算成本高；(iii) 两种对齐策略都倾向于将文本（视频）粗略地表示为一组概念，可能无法利用数据中的异质概念，容易聚焦于不变特征。因此，目前的文本到视频检索方法仍存在检索结果的准确性不高的问题。

技术实现思路

1、本申请实施例提供了一种文本视频检索方法、系统及计算机存储介质，用以解决现有技术中检索方法得到的检索结果准确性不高的问题。

2、一方面，本申请实施例提供了一种文本视频检索方法，包括：

3、获取文本，对文本进行编码，获得文本特征向量；

4、生成与文本相应的图像；

5、对图像进行编码，获得图像特征向量；

6、将文本特征向量和图像特征向量组合，获得文本图像组合特征向量；

7、获取视频，对视频进行编码，获得视频深度预览特征向量；

8、确定文本图像组合特征向量和每个视频的视频深度预览特征向量的相似度，根据相似度确定与文本匹配的视频。

9、另一方面，本申请实施例还提供了一种文本视频检索系统，包括：

10、文本编码模块，用于获取文本，对文本进行编码，获得文本特征向量；

11、图像生成模块，用于生成与文本相应的图像；

12、图像编码模块，用于对图像进行编码，获得图像特征向量；

13、向量组合模块，用于将文本特征向量和图像特征向量组合，获得文本图像组合特征向量；

14、视频编码模块，用于获取视频，对视频进行编码，获得视频深度预览特征向量；

15、视频检索模块，用于确定文本图像组合特征向量和每个视频的视频深度预览特征向量的相似度，根据相似度确定与文本匹配的视频。

16、另一方面，本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有多条计算机指令，该多条计算机指令用于使计算机执行上述的方法。

17、本申请中的一种文本视频检索方法、系统及计算机存储介质，具有以下优点：

18、通过生成图像来增强文本表示的丰富度和维度，使文本能更全面地与视频特征进行匹配，从而提高检索的准确性。此外，本申请的方法还注重降低计算成本，适应大数据环境下的视频内容分析。总体而言，本申请的方法展现了创新性，不仅解决了现有方法的局限，也为未来信息检索领域的发展提供了新的方向。

本文档来自技高网...

【技术保护点】

1.一种文本视频检索方法，其特征在于，包括：

2.根据权利要求1所述的一种文本视频检索方法，其特征在于，对所述文本进行编码的方法包括：

3.根据权利要求1所述的一种文本视频检索方法，其特征在于，生成所述文本图像组合特征向量的方法包括：

4.根据权利要求3所述的一种文本视频检索方法，其特征在于，确定所述关键词的方法包括：

5.根据权利要求1所述的一种文本视频检索方法，其特征在于，在将所述第一特征向量、第二特征向量和第三特征向量组合后，利用预览感知注意力模块将组合后的特征向量与所述全局预览特征向量进行组合，得到所述视频深度预览特征向量。

6.根据权利要求1所述的一种文本视频检索方法，其特征在于，在确定所述文本图像组合特征向量和每个所述视频的所述视频深度预览特征向量的相似度时，将所述全局预览特征向量和文本图像组合特征向量通过全连接层投影至第一混合空间，将所述视频深度预览特征向量和文本图像组合特征向量通过所述全连接层投影至第二混合空间，分别在所述第一混合空间和第二混合空间中确定相应的空间相似度，将两个所述空间相似度之和作为所述文

7.根据权利要求6所述的一种文本视频检索方法，其特征在于，所述第一混合空间和第二混合空间在训练时，将训练数据分别输入所述第一混合空间和第二混合空间，确定相应的第一空间损失和第二空间损失，以所述第一空间损失和第二空间损失之和最小为目标对所述第一混合空间和第二混合空间进行训练。

8.一种文本视频检索系统，其特征在于，包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有多条计算机指令，所述多条计算机指令用于使计算机执行权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种文本视频检索方法，其特征在于，包括：

2.根据权利要求1所述的一种文本视频检索方法，其特征在于，对所述文本进行编码的方法包括：

3.根据权利要求1所述的一种文本视频检索方法，其特征在于，生成所述文本图像组合特征向量的方法包括：

4.根据权利要求3所述的一种文本视频检索方法，其特征在于，确定所述关键词的方法包括：

6.根据权利要求1所述的一种文本视频检索方法，其特征在于，在确定所述文本图像组合特征向量和每个所述视频的所述视频深度预览特征向量的相似度时，将所述全局预览特征向量和文本图像组合特征向量...

【专利技术属性】
技术研发人员：丁松涛，王红玉，耿淳，杨雨晨，
申请(专利权)人：西安邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人