一种基于多级编码的文本到视频的跨模态检索方法技术

技术编号:24574807 阅读:42 留言:0更新日期:2020-06-21 00:13
本发明专利技术公开了一种基于多级编码的文本到视频的跨模态检索方法,该方法包括:首先获取视频和文本的初步特征,然后通过两个多级编码网络分支分别对两种模态的全局、时序和局部信息进行编码;对于视频端提取音频特征,对于文本端提取句子特征;最后将编码的多个特征进行多级特征融合,得到鲁棒的视频和文本表达。通过全连接层将两个模态的特征映射到一个统一公共空间中,利用公共空间算法学习两个模态之间的关系,通过端到端的方式训练模型,自动学习文本和视频的匹配关系,从而实现文本到视频的跨模态检索。本发明专利技术是一种无概念的方法,不需复杂的概念检测操作,就能实现跨模态检索,并且利用了深度学习技术,在很大程度上提高了检索的性能和效率。

A text to video cross modal retrieval method based on multi-level coding

【技术实现步骤摘要】
一种基于多级编码的文本到视频的跨模态检索方法
本专利技术涉及视频跨模态检索
,尤其涉及一种基于多级编码的文本到视频的跨模态检索方法。
技术介绍
近年来,由于互联网和移动智能设备的普及以及通信和多媒体技术的迅速发展,每天都会有海量的多媒体数据被创造并上传至互联网,不同模态的数据,如文字、图像和视频等正在以爆炸性的速度在增长,而这些多媒体数据也已经成为现代人们获取信息的最主要来源。随着5G时代的到来,因其更快的传输速度、更大的带宽和更低的时延等特点,将会进一步的加快多媒体数据的增长,特别是对于视频数据来说,人们将更容易地上传和共享自己所创造的视频,可以预见的是,未来互联网上的视频数据存储量将会非常巨大。面对如此庞大的多媒体数据,如何从中快速且准确地检索出用户所需求的视频是一个艰巨的挑战。文本到视频的跨模态检索就是缓解这个挑战的关键技术之一。现有的文本到视频的跨模态检索假设所有的视频没有任何文本标注,用户通过自然语句描述其查询需求,检索模型通过计算文本和视频的跨模态相关度返回与查询相关度较高的视频。该检索模式的核心是计算文本和视频的跨模态相关度。现有文本到视频的跨模态检索方法以基于概念建模为主,从文本查询和视频中分别提取相关概念,并通过两种模态数据之间的概念匹配计算跨模态相关度。但这种基于概念的检索方法存在以下不足:一、文本和视频具有非常丰富的内容,一般很难通过若干概念充分地描述其内容从而导致信息的丢失;二、检索模型的性能取决于文本和视频的概念提取器,但如何构建有效的概念提取器并不容易;三、由于这类检索方法依赖于复杂的概念建模与概念匹配,其检索效率比较低。
技术实现思路
本专利技术针对现有技术的不足,采用了一种无需概念建模的方法,提出了多级深度编码网络,首次使用具有相似架构的多层编码网络同时对句子和视频进行量化编码和表示学习。通过将编码后的特征映射到公共空间,计算它们在公共空间的相关度,实现文本到视频的跨模态检索。本专利技术的目的是通过以下技术方案来实现的:一种基于多级编码的文本到视频的跨模态检索方法,包括以下步骤:(1)利用不同的特征提取方法分别对视频和文本的特征进行提取,得到这两种模态数据的初始特征;并获得视频的音频特征及文本的BERT特征。(2)对在步骤(1)中得到的视频视觉特征进行多级编码;通过对视频的全局、时序和局部三个等级的编码,以此获得具有更强表示的视觉特征。(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个视觉特征进行多级特征融合。(4)以并行的方式,采用与步骤(2)中相似的网络结构,对在步骤(1)中得到的文本初始特征进行多级编码,包括文本的全局、时序和局部三个等级的编码。(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个特征进行多级特征融合。(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型。(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。进一步地,所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤:(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取,获得视频的初始特征。(1-2)利用预训练的VGGish模型对视频的音频进行特征提取,得到视频的音频特征。(1-3)利用独热编码(one-hot)对文本中的每个单词进行编码,获得文本的初始特征。(1-4)利用在大规模无标注语料上预训练的BERT(BidirectionalEncoderRepresentationsfromTransformers)模型,提取包含丰富语义信息的句子特征,即文本的BERT特征。进一步地,所述步骤(2)中对在步骤(1)中获得的视频视觉特征进行多级编码的方法包括如下步骤:(2-1)视频的全局信息编码。步骤(1)已获得视频的初始特征,通过对这些视频帧的特征做均值操作,就能获得一个视频的全局编码特征。(2-2)视频的时序信息编码。由于视频是一系列图像序列组成的,具有前后顺序,也就是说视频具有时序性,因此获取视频的时序信息也是十分重要的。我们利用双向GRU(bi-GRU)来对步骤(1-1)得到的视频初始特征进行编码,获得bi-GRU每个时刻的隐藏状态,通过对这些隐藏状态做均值操作,获得一个包含视频时序信息的特征向量。(2-3)视频的局部信息增强编码。前述步骤已经获取视频的全局特征,同样的视频的局部特征也是含有丰富的信息。因此我们利用1维卷积神经网络(1-dCNN)对步骤(2-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作,以此增强视频的局部信息。(3)通过上述三个等级的编码以及视频音频特征的提取,我们分别获得了视频的全局、时序、局部和音频特征,通过对这四个特征进行多级特征融合来获得输入视频最终的多级编码特征。所述步骤(4)中以类似的方式对在步骤(1)中获取的文本特征进行多级编码,它与视频的多级编码并行执行,具体方法包括如下步骤:(4-1)文本的全局信息编码。步骤(1-3)中已经利用one-hot对文本中的每个单词进行了编码,使用与视频同样的方法,对每个单词的特征向量做均值操作,获取文本的一个全局特征。(4-2)文本的时序信息编码。同样地,文本也含有时序信息。首先对文本的one-hot向量做词嵌入操作,获得每个单词的词嵌入编码。之后利用步骤(2-2)中提到的bi-GRU对文本的时序信息进行编码。(4-3)文本的局部信息增强编码。对于在步骤(4-2)中获得的文本特征,类似地,我们采用步骤(2-3)中基于biGRU-CNN的方法对文本特征进行编码,得到文本局部信息增强的特征。(5)使用与步骤(3)一样的方法,对上述得到的三个文本特征及步骤(1-4)得到的文本的BERT特征进行多级特征融合,以获得文本最终的特征。进一步地,所述步骤(6)利用公共空间学习算法来学习两个模态之间的相关性并训练模型的方法如下:(6-1)将从步骤(3)和(5)中经过多级特征融合得到的视频和文本的特征分别通过全连接层映射到一个统一的公共空间进行表达,并且在全连接层之后使用批归一化(BN)层。(6-2)通过定义的三元排序损失,以端到端的方式训练模型,使模型自动学习两个模态之间的相关性。进一步地,所述步骤(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索包括如下步骤:(7-1)将输入的文本查询和所有候选视频通过训练好的模型映射到一个公共空间。(7-2)计算文本查询和所有候选视频在公共空间的相似度,并根据相似度对候选视频进行排序,并返回检索结果。本专利技术的有益效果是:本专利技术提出了多级深度编码网络,首次使用具有相似架构的多层编码网络同时对句子和视频进行量化编码和表示学习,将编码的多个特征进行多级特征融合,挖掘特征之间的关系,从而得到鲁棒的视频和文本表达。由于两个本文档来自技高网
...

【技术保护点】
1.一种基于多级编码的文本到视频的跨模态检索方法,其特征在于,包括:/n(1)利用不同的特征提取方法分别对视频和文本的特征进行提取,得到两种模态数据的初始特征;并获得视频的音频特征及文本的BERT特征。/n(2)对在步骤(1)中得到的视频初始特征进行多级编码,包括视频的全局、时序和局部三个等级的编码。/n(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个等级特征进行多级特征融合。/n(4)以并行的方式,对在步骤(1)中得到的文本初始特征进行多级编码,包括文本的全局、时序和局部三个等级的编码。/n(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个等级特征进行多级特征融合。/n(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型。/n(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。/n

【技术特征摘要】
1.一种基于多级编码的文本到视频的跨模态检索方法,其特征在于,包括:
(1)利用不同的特征提取方法分别对视频和文本的特征进行提取,得到两种模态数据的初始特征;并获得视频的音频特征及文本的BERT特征。
(2)对在步骤(1)中得到的视频初始特征进行多级编码,包括视频的全局、时序和局部三个等级的编码。
(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个等级特征进行多级特征融合。
(4)以并行的方式,对在步骤(1)中得到的文本初始特征进行多级编码,包括文本的全局、时序和局部三个等级的编码。
(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个等级特征进行多级特征融合。
(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型。
(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。


2.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤:
(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取,获得视频的初始特征。
(1-2)利用预训练的VGGish模型对视频的音频进行特征提取,得到视频的音频特征。
(1-3)利用独热编码对文本中的每个单词进行编码,获得文本的初始特征。
(1-4)利用在大规模无标注语料上预训练的BERT模型,提取包含丰富语义信息的句子特征,即文本的BERT特征。


3.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(2)中对在步骤(1)中获得的视频初始特征进行多级编码的方法包括如下步骤:
(2-1)视频的全局信息编码。通过对视频帧的初始特征做均值操作,获得一个视频的全局编码特征。
(2-2)视频的时序信息编码。利用双向GRU(bi-GRU)对视频初始特征进行编码,获得bi-GRU每个时刻的隐藏状态,通过对这些隐藏状态做均值操作,获得一个包含视频时序信息的特征向量。
(2-3)视频的局部信息增强编码。利用1维卷积神经网络(1-dCNN)对步骤(2-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作,得到视频局部信息增强的特征。


4.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法,其特征在于,所述步骤(3)中将步骤(1)获得的视频的音频特征fv(1)和步骤(2)获得的视频的全局特征fv(2)、时序特征fv(3)、局部特征fv(4)进行多级特征融合,将这四个特征分别拼接任意两个特征,之后将这些特征作为一个多层感知机的输入,以此来量化四个特征之间的关系,最后将多层感知机的输出进行平均池化得到视频端的最终特征表示为:



其中MLPθ表示一个多层感知机,||表示两个不同的特征的拼接,(i<j)表示不考虑两个特征的前后顺序,


5.根据权利要求1所述的基于多级编码的文...

【专利技术属性】
技术研发人员:董建锋叶金德章磊敏林昶廷王勋
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1