一种基于多级编码的文本到视频的跨模态检索方法技术

技术编号：24574807 阅读：42 留言：0更新日期：2020-06-21 00:13

本发明专利技术公开了一种基于多级编码的文本到视频的跨模态检索方法，该方法包括：首先获取视频和文本的初步特征，然后通过两个多级编码网络分支分别对两种模态的全局、时序和局部信息进行编码；对于视频端提取音频特征，对于文本端提取句子特征；最后将编码的多个特征进行多级特征融合，得到鲁棒的视频和文本表达。通过全连接层将两个模态的特征映射到一个统一公共空间中，利用公共空间算法学习两个模态之间的关系，通过端到端的方式训练模型，自动学习文本和视频的匹配关系，从而实现文本到视频的跨模态检索。本发明专利技术是一种无概念的方法，不需复杂的概念检测操作，就能实现跨模态检索，并且利用了深度学习技术，在很大程度上提高了检索的性能和效率。

A text to video cross modal retrieval method based on multi-level coding

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多级编码的文本到视频的跨模态检索方法
本专利技术涉及视频跨模态检索
，尤其涉及一种基于多级编码的文本到视频的跨模态检索方法。
技术介绍
近年来，由于互联网和移动智能设备的普及以及通信和多媒体技术的迅速发展，每天都会有海量的多媒体数据被创造并上传至互联网，不同模态的数据，如文字、图像和视频等正在以爆炸性的速度在增长，而这些多媒体数据也已经成为现代人们获取信息的最主要来源。随着5G时代的到来，因其更快的传输速度、更大的带宽和更低的时延等特点，将会进一步的加快多媒体数据的增长，特别是对于视频数据来说，人们将更容易地上传和共享自己所创造的视频，可以预见的是，未来互联网上的视频数据存储量将会非常巨大。面对如此庞大的多媒体数据，如何从中快速且准确地检索出用户所需求的视频是一个艰巨的挑战。文本到视频的跨模态检索就是缓解这个挑战的关键技术之一。现有的文本到视频的跨模态检索假设所有的视频没有任何文本标注，用户通过自然语句描述其查询需求，检索模型通过计算文本和视频的跨模态相关度返回与查询相关度较高的视频。该检索模式的核心是计算文本和视频的跨模态相关度。现有文本到视频的跨模态检索方法以基于概念建模为主，从文本查询和视频中分别提取相关概念，并通过两种模态数据之间的概念匹配计算跨模态相关度。但这种基于概念的检索方法存在以下不足：一、文本和视频具有非常丰富的内容，一般很难通过若干概念充分地描述其内容从而导致信息的丢失；二、检索模型的性能取决于文本和视频的概念提取器，但如何构建有效的概念提取器并不容易；三、由于这类检索方法依...

【技术保护点】
1.一种基于多级编码的文本到视频的跨模态检索方法，其特征在于，包括：/n(1)利用不同的特征提取方法分别对视频和文本的特征进行提取，得到两种模态数据的初始特征；并获得视频的音频特征及文本的BERT特征。/n(2)对在步骤(1)中得到的视频初始特征进行多级编码，包括视频的全局、时序和局部三个等级的编码。/n(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个等级特征进行多级特征融合。/n(4)以并行的方式，对在步骤(1)中得到的文本初始特征进行多级编码，包括文本的全局、时序和局部三个等级的编码。/n(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个等级特征进行多级特征融合。/n(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中，利用公共空间学习算法来学习两个模态之间的相关度，最后以端到端的方式训练模型。/n(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。/n

【技术特征摘要】
1.一种基于多级编码的文本到视频的跨模态检索方法，其特征在于，包括：
(1)利用不同的特征提取方法分别对视频和文本的特征进行提取，得到两种模态数据的初始特征；并获得视频的音频特征及文本的BERT特征。
(2)对在步骤(1)中得到的视频初始特征进行多级编码，包括视频的全局、时序和局部三个等级的编码。
(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个等级特征进行多级特征融合。
(4)以并行的方式，对在步骤(1)中得到的文本初始特征进行多级编码，包括文本的全局、时序和局部三个等级的编码。
(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个等级特征进行多级特征融合。
(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中，利用公共空间学习算法来学习两个模态之间的相关度，最后以端到端的方式训练模型。
(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。

2.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤：
(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取，获得视频的初始特征。
(1-2)利用预训练的VGGish模型对视频的音频进行特征提取，得到视频的音频特征。
(1-3)利用独热编码对文本中的每个单词进行编码，获得文本的初始特征。
(1-4)利用在大规模无标注语料上预训练的BERT模型，提取包含丰富语义信息的句子特征，即文本的BERT特征。

3.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(2)中对在步骤(1)中获得的视频初始特征进行多级编码的方法包括如下步骤：
(2-1)视频的全局信息编码。通过对视频帧的初始特征做均值操作，获得一个视频的全局编码特征。
(2-2)视频的时序信息编码。利用双向GRU(bi-GRU)对视频初始特征进行编码，获得bi-GRU每个时刻的隐藏状态，通过对这些隐藏状态做均值操作，获得一个包含视频时序信息的特征向量。
(2-3)视频的局部信息增强编码。利用1维卷积神经网络(1-dCNN)对步骤(2-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作，得到视频局部信息增强的特征。

4.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(3)中将步骤(1)获得的视频的音频特征fv(1)和步骤(2)获得的视频的全局特征fv(2)、时序特征fv(3)、局部特征fv(4)进行多级特征融合，将这四个特征分别拼接任意两个特征，之后将这些特征作为一个多层感知机的输入，以此来量化四个特征之间的关系，最后将多层感知机的输出进行平均池化得到视频端的最终特征表示为：

其中MLPθ表示一个多层感知机，||表示两个不同的特征的拼接，(i＜j)表示不考虑两个特征的前后顺序，

5.根据权利要求1所述的基于多级编码的文...

【专利技术属性】
技术研发人员：董建锋，叶金德，章磊敏，林昶廷，王勋，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人