基于提示学习的遥感领域的图像-文本检索方法及装置制造方法及图纸

技术编号：42843651 阅读：35 留言：0更新日期：2024-09-27 17:14

本发明专利技术提供基于提示学习的遥感领域的图像‑文本检索方法及装置，涉及遥感图像技术领域。此方法包括：将输入文本和多层文本提示输入文本编码器，输出文本特征向量；根据输入图像、各层文本提示、提示学习模块和图像编码器，确定图像特征向量；将可学习提示、文本特征向量和图像特征向量分别输入适配器模块，对应的输出最终文本特征向量和最终图像特征向量；根据最终文本特征向量、最终图像特征向量，计算图文对比损失和对称性损失，并根据对比损失和对称性损失进行反向传播优化，得到优化的检索模型；将测试数据集输入优化的检索模型，输出相似度矩阵。这样，使得检索所消耗的算力更少和时间更短，使得检索的灵活性较好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及遥感图像，尤其涉及一种基于提示学习的遥感领域的图像-文本检索方法及装置。

技术介绍

1、跨模态图像-文本检索是多模态信息处理中一项重要的任务，旨在根据查询图像检索相关文本，以及根据查询文本检索匹配图像。随着传感器和互联网技术的发展，多种模态数据快速增长，跨模态图像-文本检索的应用范围也愈加广泛。如通用(自然)领域的图像文本检索技术，根据一段描述文本精确地搜索相关图像。当涉及专业领域时(如遥感图像检索)，特定领域的图像文本检索技术，通过将专业领域的图像与相关文本进行匹配，可以更深刻地理解其中的语义信息，实现对目标图像的检索。

2、目前，对遥感领域的图像-文本检索，通常利用遥感图像-文本数据，对对比学习的文本-图像预训练模型(contrastive language-image pre-training，clip)进行全微调，然后使用训练得到的优化模型实现遥感图像-文本检索。然而，由于clip的编码器规模较大，全微调的方式需要更新全部参数，产生了巨大的计算量，使得消耗更多的算力和时间，当新的数据集需要训练时，全微调...

【技术保护点】

1.一种基于提示学习的遥感领域的图像-文本检索方法，其特征在于，所述图像-文本检索方法包括：

2.根据权利要求1所述的图像-文本检索方法，其特征在于，所述对图像模态数据和文本模态数据分别进行预设处理，对应的得到输入图像和输入文本，包括：

3.根据权利要求1所述的图像-文本检索方法，其特征在于，所述文本编码器包括多层预设Transformer模块，所述多层预设Transformer模块包括第一层预设Transformer模块到第K层预设Transformer模块，所述多层文本提示包括第一层文本提示到第K层文本提示；

4.根据权利要求3所述的图像-文本检索...

【技术特征摘要】

1.一种基于提示学习的遥感领域的图像-文本检索方法，其特征在于，所述图像-文本检索方法包括：

3.根据权利要求1所述的图像-文本检索方法，其特征在于，所述文本编码器包括多层预设transformer模块，所述多层预设transformer模块包括第一层预设transformer模块到第k层预设transformer模块，所述多层文本提示包括第一层文本提示到第k层文本提示；

4.根据权利要求3所述的图像-文本检索方法，其特征在于，所述根据所述输入图像、各层文本提示、提示学习模块和图像编码器，确定图像特征向量，包括：

5.根据权利要求4所述的图像-文本检索方法，其特征在于，多层图像提示包括第一层图像提示到第k层图像提示，所述将所述各层文本提示，分别依次输入到所述transformer模块和所述全连接层中，输出多层图像提示，包括：

6.根据权利要求5...

【专利技术属性】
技术研发人员：杨瑞，王爽，李沅恒，韩迎萍，陶建伟，权豆，杨志，朱宗卫，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人