一种基于多模态的在线图文检索分析算法制造技术

技术编号：46614547 阅读：2 留言：0更新日期：2025-10-14 21:11

本发明专利技术公开了一种基于多模态的在线图文检索分析算法，涉及多模态检索技术领域，包括以下步骤：获取在线图文信息；基于多模态数据训练模型输入图文信息；基于多模态数据获取各个目标图像各自对应的图像特征集合；基于特征集合获取的图像特征和待检索的目标文本特征。本发明专利技术通过先获取在线图文信息，在基于多模态数据训练模型输入图文信息，然后基于多模态数据获取各个目标图像各自对应的图像特征集合，之后基于特征集合获取的图像特征和待检索的目标文本特征，获取两者的相似度，最后基于获得的相似度，对多模态数据训练模型进行压缩，得到训练后的多模态检索模型，该训练后的多模态检索模型拥有更加准确的匹配图文对的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态检索，具体是一种基于多模态的在线图文检索分析算法。

技术介绍

1、近年来，多媒体数据爆炸式增长，如图像、文本、音频、视频等，放大了信息搜索领域的挑战。搜索效率低成为大型多媒体应用最紧迫的问题之一。哈希，作为一种有效的表示工具，因其具有低存储成本和高处理速度的优点而受到越来越多的关注。例如，如果用128位来表示视觉对象，一百万张图像只需要16mb的内存来存储。两个图像之间的相似性由有效的异或(xor)操作来衡量，这大大提高了搜索效率。

2、图文检索过程是一种跨模态的图像和文本信息的交互过程，通过两个单模态编码器分别对图像和文本信息进行特征编码，将最终获得的图像特征和文本特征输入至一个多模态编码器中进行特征融合，从而确定图像和文本的匹配程度，通过比较多个图像和文本之间的匹配程度，从多个图像中检索出与文本最为适配的匹配图像，但现有的图文检索场景中，检索图像的方法准确率较低，有待提高。于是，在此提出一种基于多模态的在线图文检索分析算法。

技术实现思路

1、解决的技术问题

2本文档来自技高网...

【技术保护点】

1.一种基于多模态的在线图文检索分析算法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于多模态的在线图文检索分析算法，其特征在于：所述步骤三中获取各个目标图像各自对应的图像特征集合时，对特征集合中的各个目标图像进行唯一特征编码的标示，用以区分各个目标图像。

3.根据权利要求2所述的一种基于多模态的在线图文检索分析算法，其特征在于：所述步骤四中基于特征集合获取的目标文本特征时，提取特征集合中的各个目标图像的唯一特征编码，并将目标文本特征和唯一特征编码进行对其。

4.根据权利要求1所述的一种基于多模态的在线图文检索分析算法，其特征在于：所述多...

【技术特征摘要】

1.一种基于多模态的在线图文检索分析算法，其特征在于：包括以下步骤：

4.根据权利要求1所述的一种基于多模态的在线图文检索分析算法，其特征在于：所述多模态数据训练模型输入图文信息时，...

【专利技术属性】
技术研发人员：高程森，
申请(专利权)人：博雅云捷北京信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人