【技术实现步骤摘要】
本专利技术涉及遥感图像,尤其涉及一种基于提示学习的遥感领域的图像-文本检索方法及装置。
技术介绍
1、跨模态图像-文本检索是多模态信息处理中一项重要的任务,旨在根据查询图像检索相关文本,以及根据查询文本检索匹配图像。随着传感器和互联网技术的发展,多种模态数据快速增长,跨模态图像-文本检索的应用范围也愈加广泛。如通用(自然)领域的图像文本检索技术,根据一段描述文本精确地搜索相关图像。当涉及专业领域时(如遥感图像检索),特定领域的图像文本检索技术,通过将专业领域的图像与相关文本进行匹配,可以更深刻地理解其中的语义信息,实现对目标图像的检索。
2、目前,对遥感领域的图像-文本检索,通常利用遥感图像-文本数据,对对比学习的文本-图像预训练模型(contrastive language-image pre-training,clip)进行全微调,然后使用训练得到的优化模型实现遥感图像-文本检索。然而,由于clip的编码器规模较大,全微调的方式需要更新全部参数,产生了巨大的计算量,使得消耗更多的算力和时间,当新的数据集需要训练时,全微调
...【技术保护点】
1.一种基于提示学习的遥感领域的图像-文本检索方法,其特征在于,所述图像-文本检索方法包括:
2.根据权利要求1所述的图像-文本检索方法,其特征在于,所述对图像模态数据和文本模态数据分别进行预设处理,对应的得到输入图像和输入文本,包括:
3.根据权利要求1所述的图像-文本检索方法,其特征在于,所述文本编码器包括多层预设Transformer模块,所述多层预设Transformer模块包括第一层预设Transformer模块到第K层预设Transformer模块,所述多层文本提示包括第一层文本提示到第K层文本提示;
4.根据权利要求3
...【技术特征摘要】
1.一种基于提示学习的遥感领域的图像-文本检索方法,其特征在于,所述图像-文本检索方法包括:
2.根据权利要求1所述的图像-文本检索方法,其特征在于,所述对图像模态数据和文本模态数据分别进行预设处理,对应的得到输入图像和输入文本,包括:
3.根据权利要求1所述的图像-文本检索方法,其特征在于,所述文本编码器包括多层预设transformer模块,所述多层预设transformer模块包括第一层预设transformer模块到第k层预设transformer模块,所述多层文本提示包括第一层文本提示到第k层文本提示;
4.根据权利要求3所述的图像-文本检索方法,其特征在于,所述根据所述输入图像、各层文本提示、提示学习模块和图像编码器,确定图像特征向量,包括:
5.根据权利要求4所述的图像-文本检索方法,其特征在于,多层图像提示包括第一层图像提示到第k层图像提示,所述将所述各层文本提示,分别依次输入到所述transformer模块和所述全连接层中,输出多层图像提示,包括:
6.根据权利要求5...
【专利技术属性】
技术研发人员:杨瑞,王爽,李沅恒,韩迎萍,陶建伟,权豆,杨志,朱宗卫,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。