基于自监督学习的模态缺失图像文本跨模态哈希检索方法技术

技术编号：41504507 阅读：67 留言：0更新日期：2024-05-30 14:45

本发明专利技术公开了基于自监督学习的模态缺失图像文本跨模态哈希检索方法，属于多媒体检索的跨模态检索技术领域。本发明专利技术首先通过Bottom‑Up算法从图像中提取显著目标作为样本的伪标签;然后通过语义网络从伪标签中挖掘深层语义信息。为了缓解数据缺失的影响，本发明专利技术提出了三个联合的损失函数恢复缺失数据。在哈希码生成阶段，使用一个非对称损失函数有效地利用伪标签信息来约束不同的模态被投影到相同的汉明空间中，并保持它们之间的语义相似性。本发明专利技术将模态恢复和哈希学习统一到一个框架中，进一步提高了跨模态检索准确率，具有良好的应用前景和可观的市场价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于自监督学习的模态缺失图像文本跨模态哈希检索方法，属于多媒体检索的跨模态检索。

技术介绍

1、互联网上视频和图像数据量占比越来越大，这使得以单模态文本检索方法不再满足检索需求。因此结合图像，文本，音频，视频序列等多模态检索方法势在必行。而基于哈希的深度学习方法因其在跨模态检索领域的有效性而受到研究人员关注。深度哈希方法将不同模态的样本通过神经网络统一映射到相同的汉明空间，然后通过计算样本之间的汉明距离，测量数据之间的一致性。因为哈希方法在数据库中仅仅需要存储二进制码，因此存储空间占用比较低；而且二值码之间的汉明距离可以被现有cpu架构中的指令高效地计算，因此汉明距离计算比较快。现存的跨模态哈希检索方法都是依赖与数据的完整性假设，即数据都是完整的没有丢失的。然而，随着数据量和复杂性的增加，想要获得完整的数据集变得非常困难。主要有以下两个问题:1) 如何消除缺失数据的影响，现实生活中，由于数据收集和传输的复杂性，可能会丢失一些模态的数据，从而导致所谓的不完整的多模态问题。为了解决这一问题并消除缺失数据的影响，有些研究人员提...

【技术保护点】

1.基于自监督学习的模态缺失图像文本跨模态哈希检索方法，其特征在于，其包括以下步骤：

2.如权利要求1所述的基于自监督学习的模态缺失图像文本跨模态哈希检索方法，其特征在于，所述步骤S3中：

【技术特征摘要】

1.基于自监督学习的模态缺失图像文本跨模态哈希检索方法，其特征在于，其包括以下步骤：

2...

【专利技术属性】
技术研发人员：姚涛，彭守永，卜亚斐，王丽丽，盛国瑞，苏庆堂，
申请(专利权)人：鲁东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人