基于双重编码与联合的跨模态检索方法、系统及存储介质技术方案

技术编号:24251623 阅读:35 留言:0更新日期:2020-05-22 23:37
本发明专利技术公开了一种基于双重编码与联合的跨模态检索方法、系统及装置。该方法一种基于双重编码与双重联合嵌入学习的跨模态检索算法,通过神经网络对视频的多种特征进行提取、编码,对文字特征进行多层编码,并学习训练出两个联合视频文本嵌入的网络模型,通过两个模型获取文本到视频检索结果或视频到文本检索的结果。通过使用本发明专利技术中的方法,能够减少视频特征和自然语言描述的文本之间的语义差异,有针对性地互补地捕获、学习、优化视频和文本之间的潜在信息与联系,最终提高视频和文本相互之间检索的精确度。本发明专利技术可广泛应用于视频处理技术领域内。

Multimodal retrieval method, system and storage medium based on double coding and combination

【技术实现步骤摘要】
基于双重编码与联合的跨模态检索方法、系统及存储介质
本专利技术涉及视频处理
,尤其是一种基于双重编码与联合的跨模态检索方法、系统、装置及存储介质。
技术介绍
模态:是指一种数据的来源或者存在形式,比如文本、音频、图像、视频等。跨模态:有些数据的存在形式不同,但都是描述同一事物或事件的。跨模态检索:给定一个检索模态实例,检索另一个跟其实例语义相似或一致的另一模态实例。随着互联网与信息技术的发展,数据的形式种类越来越多,比较常见的多媒体数据包括文本数据、图像数据、视频数据以及音频数据。互联网上视频的快速增长使得使用自然语言查询搜索视频内容成为一项重大挑战。与简单的图像相比,视频是由连续多帧相互关联的图像序列组成的,因此视频流有时间的推进与空间的变化,具有动态特征;其次,视频还可能包含来自多种形式的信息,例如声音、场景、字幕等。这些信息不仅使视频内容更丰富,也使得视频文本跨模态检索更具有挑战性。对同一个事件的描述,会有不同来源的多种媒体数据,在视频和文本的跨模态检索中,给定视频,应该检索到最相关的描述文本;给定文本,应查询到最相关的视频。由于视频和文本属于不同的模态,如何把这有效地选择、编码视频和文本的特征,如何把特征投影到公共的空间,如何最大化对应视频与文本的相关性成为了该领域重点研究的问题。目前,关于跨模态检索的研究分为两大类别:图像文本检索、视频文本检索。在图像文本检索方面,规范相关分析(CanonicalCorrelationAnalysis,简称CCA)将不同维度的数据映射到相同的子空间,然后使训练的文本和图像特征相关联起来;难分样本改善视觉语义联合嵌入方法(Visual-SemanticEmbeddingswithHardNegatives,简称VSE++)基于三元组损失函数中最难负样本与正样本之间的冲突修改了的成对排名损失函数,并在图文检索任务中取得了一定成效。与图文检索类似,大多数视频文本检索的方法都使用共享子空间,深层视频和合成文本联合建模方法(JointlyModelingDeepVideoandCompositionalText,简称JMDV)依赖树结构模型通过从给定句子中提取的主语、动词、宾语三元组,然后通过递归神经网络聚合为句子级矢量,使用最小二乘损失训练联合嵌入,以将句子表示和视频表示投影到联合空间中。基于句子矢量化和多层感知器的深度视觉编码网络(Word2VisualVec,简称W2VV)提出了一种名为Word2VisualVec的方法,用于视频到句子匹配任务,使用均方损失将向量化的句子投影到视觉特征空间中。但以上所提及的方法大部分与图像和文本检索方法非常相似,从图文检索中改进而来,并且主要关注损失函数。但是,此类忽视了视频的特性,无法利用视频中已包含的互补性信息,如时空信息、声音信息,这限制了检索系统的健壮性,检索结果精确度不够高,不能满足现实的需求。
技术实现思路
本专利技术的目的在于至少一定程度上解决现有技术中存在的技术问题之一,为此,本专利技术实施例的目的在于提供一种鲁棒性好,精确度高的基于双重编码与联合的跨模态检索方法、系统及存储介质。为了达到上述技术目的,本专利技术实施例所采取的技术方案包括:第一方面,本专利技术实施例提供了一种基于双重编码与联合的跨模态检索方法,包括以下步骤:获取训练集视频;通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量以及词嵌入向量;将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码;对所述词嵌入向量进行编码;通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型;通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。另外,根据本专利技术上述实施例的基于双重编码与联合的跨模态检索方法,还具有以下附加的技术特征:所述视频各帧特征向量具体包括外观特征向量、活动特征向量和声音特征向量。进一步地,所述根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果,其步骤具体包括:获取查询目标和待检索视频,所述查询目标为文本语句或视频片段;当查询目标为文本语句,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述文本语句对应的视频片段;当查询目标为视频片段,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述视频片段对应的文本内容。进一步地,所述相似度为余弦相似度。进一步地,所述将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码这一步骤,其具体包括:通过平均池化层将所述外观特征向量转化为所述静态特征;通过平均池化层将所述活动特征向量和所述声音特征向量转化为所述动态特征;通过非线性嵌入函数对所述静态特征和所述动态特征进行编码。进一步地,所述对所述词嵌入向量进行编码这一步骤,其具体包括:通过双向门控循环单元对所述词嵌入向量进行编码,得到上下文语义信息;通过卷积神经网络对所述词嵌入向量进行编码,得到隐藏局部特征。进一步地,通过成对排名损失函数以及最大边距损失函数对所述静态文本嵌入模型和所述动态文本嵌入模型参数进行训练。第二方面,本专利技术实施例提出了一种基于双重编码与联合的跨模态检索系统,包括:特征提取模块,用于获取训练集视频和用于通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量以及词嵌入向量;特征编码模块,用于将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码和用于对所述词嵌入向量进行编码;公共空间学习模块,用于通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型和用于通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;检索模块,用于根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。第三方面,本专利技术实施例提供了一种基于双重编码与联合的跨模态检索系统,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现所述的基于双重编码与联合的跨模态检索方法。第四方面,本专利技术实施例提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现所述的基于双重编码与联合的跨模态检索方法。本专利技术的优点和有益效果:本专利技术所提供的技术方案通过双重编码和双重联合嵌入学习的跨模态检索方法,能够有效利用视频中文本特征以及视频各帧的静态特征和动态特征构建两个联合嵌入模型,减少视频特征和自然语言描述的文本之间的语义差异,有针对性地互补地捕获、学习、优化视频和文本之间的潜在信息与联系,最终本文档来自技高网
...

【技术保护点】
1.基于双重编码与联合的跨模态检索方法,其特征在于,包括以下步骤:/n获取训练集视频;/n通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量以及词嵌入向量;/n将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码;/n对所述词嵌入向量进行编码;/n通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型;/n通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;/n根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。/n

【技术特征摘要】
1.基于双重编码与联合的跨模态检索方法,其特征在于,包括以下步骤:
获取训练集视频;
通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量以及词嵌入向量;
将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码;
对所述词嵌入向量进行编码;
通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型;
通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;
根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。


2.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于:所述视频各帧特征向量具体包括:外观特征向量、活动特征向量和声音特征向量。


3.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果,其步骤具体包括:
获取查询目标和待检索视频,所述查询目标为文本语句或视频片段;
当查询目标为文本语句,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述文本语句对应的视频片段;
当查询目标为视频片段,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述视频片段对应的文本内容。


4.根据权利要求3所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述相似度为余弦相似度。


5.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于:所述将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码,其步骤具体包括:
通过平均池化层将所述外观特征向量转化为所述静态特征;
通过平均池化层将所述活动特征向量和所述...

【专利技术属性】
技术研发人员:肖菁崔晓桃
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1