一种基于加权多模态重排的图文音跨模态检索方法技术

技术编号：42590429 阅读：16 留言：0更新日期：2024-09-03 18:05

本发明专利技术公开一种基于加权多模态重排的图文音跨模态检索方法，包括以下步骤：S1：采集包含图像、文本和音频数据的多模态数据集；S2：对多模态数据集进行预处理和特征提取得到图像特征表示、文本特征表示和音频特征表示；S3：根据图像特征表示、文本特征表示和音频特征表示构建跨单模态检索的第一加权多模态重排相似度模型和跨双模态检索的第二加权多模态重排相似度模型；S4：根据第一加权多模态重排相似度模型和第二加权多模态重排相似度模型进行跨模态检索。本发明专利技术通过使用使用加权多模态重排的图文音跨模态检索方法，实现图像、文本和音频相互检索的功能。用户通过输入图像、文本或音频数据，检索相关的另一或二模态数据，返回检索结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据，特别涉及一种基于加权多模态重排的图文音跨模态检索方法。

技术介绍

1、图像-文本检索在大数据时代扮演着重要的角色。然而，不同形式数据的分布和表示是异构的，这使得很难测量它们之间的相似性。因此，如何度量不同数据形式之间的相似性成为图像-文本检索的一个重要问题。

2、现有许多检索模型仅聚焦于跨模态检索中的一个子任务，即图像-文本跨模态检索，很少有工作研究能综合处理三个甚至更多数量模态的跨模态检索。作为数据中同样广泛存在的模态，音频同样是一个重要的数据模态。图像和文本对应人与世界交互中的视觉，而音频则对应听觉。对人类而言，听觉与视觉具有相同的重要性，共同作用于人类对环境的感知和对自然的理解过程。然而，现有的工作很少能够对图像、文本和音频三个模态数据进行统一综合的跨模态检索。

3、当前，研究人员已经对自动语音识别技术进行了广泛研究。语音是人类交流中最方便、有效和自然的方式。自动语音识别被认为是未来人类与机器交互的主要方式。所以，音频应当是跨模态检索任务中的重要模态之一。无论是使用音频进行检索，还是检...

【技术保护点】

1.一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，具体包括以下步骤：

2.如权利要求1所述的一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，所述S2包括：

3.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，所述S2-1具体包括：

4.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，所述S2-2具体包括：

5.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，所述S2-3具体包括：

6.如权利要求1所述的一种基于加权多模态重排...

【技术特征摘要】

1.一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，具体包括以下步骤：

2.如权利要求1所述的一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，所述s2包括：

3.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，所述s2-1具体包括：

4.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，所述s2-2具体包括：

5.如权利要求2所述的一种基于加权多模态重排的图文音跨模态检索方法，其特征在于，所述s2-3具体包括：

6.如权利要求...

【专利技术属性】
技术研发人员：魏然，罗成，刘辉，龙海平，黄煜楠，
申请(专利权)人：重庆医药数据信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人