【技术实现步骤摘要】
一种基于文本概念扩展的跨模态检索算法
[0001]本专利技术涉及跨模态检索
,尤其涉及一种基于文本概念扩展的跨模态检索算法。
技术介绍
[0002]跨模态检索需要利用给定模态数据从海量信息中找到在语义层面相关联的数据,因此,跨模态技术主要解决的问题是如何对齐不同模态数据的语义。
[0003]现有的视频文本检索算法为不同模态的样本找到一个公共的嵌入空间,在这个共享空间内实现异构模态间的关系度量。这一类方法的优势在于视频和文本编码器的多样性,能够得到不同模态表征能力较强的特征,从而实现更精准的检索。
[0004]以上方法分别以概念和深度特征作为桥梁,但是缺乏对视频文本检索问题的深入探讨。由于视频包含音频、图像等多个模态,视频含有非常丰富的信息量。相比于视频,文本中的信息要少很多,这种信息量存在不平衡,降低了检索性能的问题。
技术实现思路
[0005]本专利技术的目的在于提供一种基于文本概念扩展的跨模态检索算法,旨在解决视频信息量与文本信息量不平衡,降低了检索性能的问题。
[0006] ...
【技术保护点】
【技术特征摘要】
1.一种基于文本概念扩展的跨模态检索算法,其特征在于,包括以下步骤:对视频进行预处理,得到视频嵌入特征表示;对文本进行预处理,得到文本嵌入特征表示;计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度,得到隐空间相似度;通过编码器对所述视频进行加深,得到视频概念;利用语法解析对所述文本进行解析,得到初始概念;通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念;计算所述视频概念与所述文本概念之间的相似度,得到概念空间相似度;对所述隐空间相似度和所述概念空间相似度进行加权计算,得到融合相似度模型;基于检索指令并利用所述融合相似度模型进行检索排序。2.如权利要求1所述的基于文本概念扩展的跨模态检索算法,其特征在于,所述对视频进行预处理,得到视频嵌入特征表示的具体方式为:按照预设帧率对视频进行关键帧抽取,得到视频帧;利用残差网络提取所述视频帧的特征,得到图像层级特征;采用注意力机制来聚合所述图像层级特征,并学习整个视频的特征表示,得...
【专利技术属性】
技术研发人员:王树徽,方晟,
申请(专利权)人:镇江智栎高科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。