【技术实现步骤摘要】
基于双重编码与联合的跨模态检索方法、系统及存储介质
本专利技术涉及视频处理
,尤其是一种基于双重编码与联合的跨模态检索方法、系统、装置及存储介质。
技术介绍
模态:是指一种数据的来源或者存在形式,比如文本、音频、图像、视频等。跨模态:有些数据的存在形式不同,但都是描述同一事物或事件的。跨模态检索:给定一个检索模态实例,检索另一个跟其实例语义相似或一致的另一模态实例。随着互联网与信息技术的发展,数据的形式种类越来越多,比较常见的多媒体数据包括文本数据、图像数据、视频数据以及音频数据。互联网上视频的快速增长使得使用自然语言查询搜索视频内容成为一项重大挑战。与简单的图像相比,视频是由连续多帧相互关联的图像序列组成的,因此视频流有时间的推进与空间的变化,具有动态特征;其次,视频还可能包含来自多种形式的信息,例如声音、场景、字幕等。这些信息不仅使视频内容更丰富,也使得视频文本跨模态检索更具有挑战性。对同一个事件的描述,会有不同来源的多种媒体数据,在视频和文本的跨模态检索中,给定视频,应该检索到最相关的描述 ...
【技术保护点】
1.基于双重编码与联合的跨模态检索方法,其特征在于,包括以下步骤:/n获取训练集视频;/n通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量以及词嵌入向量;/n将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码;/n对所述词嵌入向量进行编码;/n通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型;/n通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;/n根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。/n
【技术特征摘要】
1.基于双重编码与联合的跨模态检索方法,其特征在于,包括以下步骤:
获取训练集视频;
通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量以及词嵌入向量;
将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码;
对所述词嵌入向量进行编码;
通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型;
通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;
根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。
2.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于:所述视频各帧特征向量具体包括:外观特征向量、活动特征向量和声音特征向量。
3.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果,其步骤具体包括:
获取查询目标和待检索视频,所述查询目标为文本语句或视频片段;
当查询目标为文本语句,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述文本语句对应的视频片段;
当查询目标为视频片段,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述视频片段对应的文本内容。
4.根据权利要求3所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述相似度为余弦相似度。
5.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于:所述将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码,其步骤具体包括:
通过平均池化层将所述外观特征向量转化为所述静态特征;
通过平均池化层将所述活动特征向量和所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。