基于提示学习的遥感领域的图像-文本检索方法及装置制造方法及图纸

技术编号:42843651 阅读:35 留言:0更新日期:2024-09-27 17:14
本发明专利技术提供基于提示学习的遥感领域的图像‑文本检索方法及装置,涉及遥感图像技术领域。此方法包括:将输入文本和多层文本提示输入文本编码器,输出文本特征向量;根据输入图像、各层文本提示、提示学习模块和图像编码器,确定图像特征向量;将可学习提示、文本特征向量和图像特征向量分别输入适配器模块,对应的输出最终文本特征向量和最终图像特征向量;根据最终文本特征向量、最终图像特征向量,计算图文对比损失和对称性损失,并根据对比损失和对称性损失进行反向传播优化,得到优化的检索模型;将测试数据集输入优化的检索模型,输出相似度矩阵。这样,使得检索所消耗的算力更少和时间更短,使得检索的灵活性较好。

【技术实现步骤摘要】

本专利技术涉及遥感图像,尤其涉及一种基于提示学习的遥感领域的图像-文本检索方法及装置


技术介绍

1、跨模态图像-文本检索是多模态信息处理中一项重要的任务,旨在根据查询图像检索相关文本,以及根据查询文本检索匹配图像。随着传感器和互联网技术的发展,多种模态数据快速增长,跨模态图像-文本检索的应用范围也愈加广泛。如通用(自然)领域的图像文本检索技术,根据一段描述文本精确地搜索相关图像。当涉及专业领域时(如遥感图像检索),特定领域的图像文本检索技术,通过将专业领域的图像与相关文本进行匹配,可以更深刻地理解其中的语义信息,实现对目标图像的检索。

2、目前,对遥感领域的图像-文本检索,通常利用遥感图像-文本数据,对对比学习的文本-图像预训练模型(contrastive language-image pre-training,clip)进行全微调,然后使用训练得到的优化模型实现遥感图像-文本检索。然而,由于clip的编码器规模较大,全微调的方式需要更新全部参数,产生了巨大的计算量,使得消耗更多的算力和时间,当新的数据集需要训练时,全微调的方式又需要改变模型本文档来自技高网...

【技术保护点】

1.一种基于提示学习的遥感领域的图像-文本检索方法,其特征在于,所述图像-文本检索方法包括:

2.根据权利要求1所述的图像-文本检索方法,其特征在于,所述对图像模态数据和文本模态数据分别进行预设处理,对应的得到输入图像和输入文本,包括:

3.根据权利要求1所述的图像-文本检索方法,其特征在于,所述文本编码器包括多层预设Transformer模块,所述多层预设Transformer模块包括第一层预设Transformer模块到第K层预设Transformer模块,所述多层文本提示包括第一层文本提示到第K层文本提示;

4.根据权利要求3所述的图像-文本检索...

【技术特征摘要】

1.一种基于提示学习的遥感领域的图像-文本检索方法,其特征在于,所述图像-文本检索方法包括:

2.根据权利要求1所述的图像-文本检索方法,其特征在于,所述对图像模态数据和文本模态数据分别进行预设处理,对应的得到输入图像和输入文本,包括:

3.根据权利要求1所述的图像-文本检索方法,其特征在于,所述文本编码器包括多层预设transformer模块,所述多层预设transformer模块包括第一层预设transformer模块到第k层预设transformer模块,所述多层文本提示包括第一层文本提示到第k层文本提示;

4.根据权利要求3所述的图像-文本检索方法,其特征在于,所述根据所述输入图像、各层文本提示、提示学习模块和图像编码器,确定图像特征向量,包括:

5.根据权利要求4所述的图像-文本检索方法,其特征在于,多层图像提示包括第一层图像提示到第k层图像提示,所述将所述各层文本提示,分别依次输入到所述transformer模块和所述全连接层中,输出多层图像提示,包括:

6.根据权利要求5...

【专利技术属性】
技术研发人员:杨瑞王爽李沅恒韩迎萍陶建伟权豆杨志朱宗卫
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1