一种分层联合模态的跨模态图像-文本检索方法技术

技术编号:42468251 阅读:47 留言:0更新日期:2024-08-21 12:54
本发明专利技术公开了一种分层联合模态的跨模态图像‑文本检索方法,包括:获取原始图像数据集后输入CLIP分支图像网络和VGG分支图像网络,并进行特征融合,获得融合特征;基于融合特征获取多角度图像语义信息,并生成邻接矩阵;将邻接矩阵输入正负样本平衡器进行矩阵处理,获得优化矩阵;将融合特征输入图卷积网络进行分层处理,获得图像特征的结构语义;基于优化矩阵和图像特征的结构语义进行联合哈希码重构,获得联合重构损失;基于联合重构损失构建目标函数,对目标函数进行优化,获得优化后的目标函数;基于优化后的目标函数进行跨模态图像‑文本检索,获得检索结果。本发明专利技术提高了搜索结果的精准性。

【技术实现步骤摘要】

本专利技术属于跨模态检索领域,尤其涉及一种分层联合模态的跨模态图像-文本检索方法


技术介绍

1、随着智能设备的普及,日常生活中产生了大量不同模态的数据,引领了多模态发展,这一激增为跨模态检索领域带来了新的挑战和机遇。跨模态计算的核心目标是将不同模态的数据映射到汉明空间中,对二进制码进行操作。现有的cmh方法通常分为两类:有监督跨模态哈希方法和无监督跨模态哈希方法。

2、有监督的跨模态哈希方法通常通过直接整合标签信息或相似性矩阵来管理学习过程。引入了各种基于标签的哈希方法,如监督矩阵分解哈希(smfh)方法,该方法利用拉普拉斯约束确保模态内几何与模态间标签的一致性,从而引导矩阵分解学习哈希码。半监督知识蒸馏(skdch)采用通过半监督方法生成的输出来指导监督的多模态检索方法。弱监督增强语义感知哈希(wash)方法利用低秩稀疏分解减轻标签噪声,并通过在经过噪声减少的标签上执行低秩分解来进一步获得高级语义因子和语义相关矩阵。深度对抗离散哈希(dadh)方法采用对抗性方法对特征进行编码,并引入一种新颖的加权三元损失,深入探讨多标签数据的语义。此外,快本文档来自技高网...

【技术保护点】

1.一种分层联合模态的跨模态图像-文本检索方法,其特征在于,包括:

2.根据权利要求1所述的分层联合模态的跨模态图像-文本检索方法,其特征在于,将所述第一图像特征和第二图像特征进行融合的过程包括:

3.根据权利要求2所述的分层联合模态的跨模态图像-文本检索方法,其特征在于,对图像和文本的特征进行多模态融合配对和噪声过滤的过程还包括:

4.根据权利要求1所述的分层联合模态的跨模态图像-文本检索方法,其特征在于,基于所述融合特征获取多角度图像语义信息,并生成邻接矩阵的过程包括:通过所述融合特征的特征语义表示初始化相关实例集,并在训练中自适应增强相关实例集。...

【技术特征摘要】

1.一种分层联合模态的跨模态图像-文本检索方法,其特征在于,包括:

2.根据权利要求1所述的分层联合模态的跨模态图像-文本检索方法,其特征在于,将所述第一图像特征和第二图像特征进行融合的过程包括:

3.根据权利要求2所述的分层联合模态的跨模态图像-文本检索方法,其特征在于,对图像和文本的特征进行多模态融合配对和噪声过滤的过程还包括:

4.根据权利要求1所述的分层联合模态的跨模态图像-文本检索方法,其特征在于,基于所述融合特征获取多角度图像语义信息,并生成邻接矩阵的过程包括:通过所述融合特征的特征语义表示初始化相关实例集,并在训练中自适应增强相关实例集。

5....

【专利技术属性】
技术研发人员:李明勇张捷
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1