【技术实现步骤摘要】
本专利技术涉及大数据,特别涉及一种基于加权多模态重排的图文音跨模态检索方法。
技术介绍
1、图像-文本检索在大数据时代扮演着重要的角色。然而,不同形式数据的分布和表示是异构的,这使得很难测量它们之间的相似性。因此,如何度量不同数据形式之间的相似性成为图像-文本检索的一个重要问题。
2、现有许多检索模型仅聚焦于跨模态检索中的一个子任务,即图像-文本跨模态检索,很少有工作研究能综合处理三个甚至更多数量模态的跨模态检索。作为数据中同样广泛存在的模态,音频同样是一个重要的数据模态。图像和文本对应人与世界交互中的视觉,而音频则对应听觉。对人类而言,听觉与视觉具有相同的重要性,共同作用于人类对环境的感知和对自然的理解过程。然而,现有的工作很少能够对图像、文本和音频三个模态数据进行统一综合的跨模态检索。
3、当前,研究人员已经对自动语音识别技术进行了广泛研究。语音是人类交流中最方便、有效和自然的方式。自动语音识别被认为是未来人类与机器交互的主要方式。所以,音频应当是跨模态检索任务中的重要模态之一。无论是使用音频进行检索,还是检
...【技术保护点】
1.一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,具体包括以下步骤:
2.如权利要求1所述的一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,所述S2包括:
3.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,所述S2-1具体包括:
4.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,所述S2-2具体包括:
5.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,所述S2-3具体包括:
6.如权利要求1所述的一
...【技术特征摘要】
1.一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,具体包括以下步骤:
2.如权利要求1所述的一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,所述s2包括:
3.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,所述s2-1具体包括:
4.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,所述s2-2具体包括:
5.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法,其特征在于,所述s2-3具体包括:
6.如权利要求...
【专利技术属性】
技术研发人员:魏然,罗成,刘辉,龙海平,黄煜楠,
申请(专利权)人:重庆医药数据信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。