基于实体语义引导与关系融合的无配对跨模态检索方法技术

技术编号：44551427 阅读：34 留言：0更新日期：2025-03-11 14:14

本发明专利技术公开了一种基于实体语义引导与关系融合的无配对跨模态检索方法，包括：从实体数据集中提取实体图像特征与实体文本特征；基于实体图像特征与实体文本特征，通过负样本选择以及模态内邻居关系约束获得实体公共语义空间；基于实体公共语义空间，通过伪配对生成与筛选方法获得高置信图文伪配对集；基于高置信图文伪配对集，通过关系融合模块捕获关系信息并对齐，获得融合公共语义空间；基于融合公共语义空间计算图文之间的相似性，依据相似性进行排序并输出跨模态检索结果。本发明专利技术与其它无配对跨模态检索方法相比，性能明显提高，学习得到的空间能够从更深层次对数据进行准确表达，整体方法可解释性更优。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理与自然语言生成的，尤其是指一种基于实体语义引导与关系融合的无配对跨模态检索方法。

技术介绍

1、随着人工智能技术的发展与多媒体数据在日常生活中的爆炸式增长，跨模态检索已成为一个重要的研究课题。跨模态检索旨在挖掘不同模态数据之间的联系，通过输入一个模态数据在另一个模态数据库中检索具有近似语义的数据。不同模态的数据之间存在语义鸿沟，如何准确地测量跨模态数据的语义相似性成为了跨模态检索最主要的挑战之一。跨模态检索技术作为多模态交叉课题，推动了模型对多模态信息的理解，为多种类型数据提供匹配功能，为其他模态任务的发展提供新的思路和技术，具有重要的理论研究价值；同时，跨模态检索具备广阔的应用前景，例如信息检索、电子商务平台的商品检索、社交网络平台的个性化推荐等都能应用上跨模态检索技术。

2、当前主流的跨模态检索方法基于大规模有配对标注的数据集进行训练，通过对齐跨模态数据，构建公共语义空间，以消除跨模态语义鸿沟。然而现实中尽管能从互联网上采集足够的数据，为这些数据标注配对信息需要耗费大量人力和时间资源，因此有工作在缺...

【技术保护点】

1.基于实体语义引导与关系融合的无配对跨模态检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于实体语义引导与关系融合的无配对跨模态检索方法，其特征在于，在步骤1)中，使用卷积神经网络ResNet50提取实体图像特征，使用时间循环神经网络LSTM提取实体文本特征，具体过程为：给定一个实体数据集，将实体数据集中的每个图像缩放到256×256大小的尺寸，再通过卷积神经网络ResNet50提取实体图像特征，得到实体图像特征集共NE个样本，vEi是第i个实体图像特征；从实体数据集中取出与图像对应的文本标签，通过词嵌入方法将文本标签编码为词向量，并将词向量输入到时间循环神...

【技术特征摘要】

1.基于实体语义引导与关系融合的无配对跨模态检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于实体语义引导与关系融合的无配对跨模态检索方法，其特征在于，在步骤1)中，使用卷积神经网络resnet50提取实体图像特征，使用时间循环神经网络lstm提取实体文本特征，具体过程为：给定一个实体数据集，将实体数据集中的每个图像缩放到256×256大小的尺寸，再通过卷积神经网络resnet50提取实体图像特征，得到实体图像特征集共ne个样本，vei是第i个实体图像特征；从实体数据集中取出与图像对应的文本标签，通过词嵌入方法将文本标签编码为词向量，并将词向量输入到时间循环神经网络lstm提取实体文本特征，得到实体文本特征集共ne个样本，tei是第i个实体文本特征。

3.根据权利要求2所述的基于实体语义引导与关系融合的无配对跨模态检索方法，其特征在于，在步骤2)中，通过由多层神经网络组成的图像单模态编码器将实体图像特征嵌入到图像单模态空间中，得到图像单模态特征通过由多层神经网络组成的文本单模态编码器ftm将实体文本特...

【专利技术属性】
技术研发人员：沃焱，梁展扬，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人