一种基于多类别标签辅助的遥感图像描述方法技术

技术编号：41197903 阅读：4 留言：0更新日期：2024-05-07 22:25

本发明专利技术涉及一种基于多类别标签辅助的遥感图像描述方法，将采集的遥感图像输入到基于多类别标签辅助的遥感图像描述模型中，最终输出遥感图像的描述信息。其中，遥感图像描述模型包括编码器模块、辅助多标签分类模块、LSTM解码器模块；所述编码器模块，采用在ImageNet预训练过的Resnet50，用于对输入的预处理去重后的遥感图像提取图像全文特征；所述辅助多标签分类模块，用于将输入的图像全文特征经过SoftMax进行多分类判定后，获得预测的显著目标类别；所述LSTM解码器模块，用于在学习到所输入的信息中的图像特征与句法特征之间的映射关系后，输出图像描述信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理和自然语言处理的交叉领域，具体涉及到一种基于多分类标签辅助的遥感图像描述方法。

技术介绍

1、在过去几年中，遥感技术取得了重大进展，从而从大量传感器获得了高质量的遥感图像。尽管如此，研究的遥感任务，例如图像分割和变化检测，通常侧重于对象或像素级理解，没有全面的语义知识。为了捕获更全面的语义信息，在遥感中引入了图像描述，可以生成概括高级语义信息的直观文本描述。

2、图像描述是一项具有挑战性的任务，因为它既涉及理解图像的内容，也涉及将其翻译为自然语言。早期的遥感图像描述方法使用基于模板和基于检索的模型。随后，它们被基于编码器-解码器的方法所取代。最近，人们还探索了视觉注意机制，如cn111860235高低层特征融合的注意力遥感图像描述的生成方法及系统，通过充分利用图像浅层特征的局部细节信息和高层特征的全局语义信息，给予传统的注意力机制全局和局部双意识，从而更准确理解图像所表达的语义内容，以及该语义内容与自然语言句子之间的相互关系，进而为遥感图像生成内容准确的自然语言句子描述。但是，现有的图像描述方法，是直接在数量匮乏的现有数据集上进行训练，而遥感图像描述数据集比计算机视觉中可用的数据集小得多，这将导致直接的图像描述方法的生成描述质量较低。

技术实现思路

1、本专利技术实例提供一种基于多类别标签辅助的遥感图像描述方法，以解决现有图像描述生成方法生成图像描述质量低，准确性差的问题。

2、本专利技术第一方面提供一种基于多分类标签辅助的遥感图像描述

3、所述编码器模块，采用在imagenet预训练过的resnet50，用于对输入的预处理去重后的遥感图像提取图像全文特征；

4、所述辅助多标签分类模块，与所述编码器模块连接，用于将输入的图像全文特征经过softmax进行多分类判定后，获得预测的显著目标类别；

5、所述lstm解码器模块，分别与所述编码器模块和所述辅助多标签分类模块连接，用于在学习到所输入的图像全文特征与显著目标类别之间的映射关系后，输出图像描述信息；

6、所述lstm解码器模块在输出图像描述信息时，采用交叉熵损失反向传播方式进行优化；

7、所述编码器模块、所述辅助多标签分类模块和所述lstm解码器模块均采取adams优化器、余弦退火和学习率预热的策略进行训练，选取加权损失最低时的模型权重作为最优模型。

8、基于上述，对遥感图像采用方式进行预处理去重：

9、从公开的遥感数据集和网络爬虫的方式收集遥感图像，使用感知哈希算法去除相似图片；

10、对每幅图像提供描述语句，描述准则为包含图像中全部显著对象；同时，对每幅图像提供显著目标的类别标注txt标签文件。

11、基于上述，所述编码器模块提取图像全文特征的具体过程为：

12、分批次读取图像进入编码器模块提取特征；

13、其中，预训练的resnet50结构去除后面的池化层和softmax层，得到下采样后的图像全文特征，同时编码器模块在训练前期参数冻结，在后期进行解冻参与参数更新。

14、基于上述，在softmax分类过程中，采用l2损失函数对预测的类别和真实的类别进行参数优化。

15、基于上述，将图像全文特征和显著目标类别送入所述lstm解码器模块时，图像全文特征作为进入lstm解码器模块的序列的第一位，显著目标类别作为其余序列按词进入lstm解码器模块。

16、基于上述，所述lstm解码器模块采用四个级联的lstm模块。

17、基于上述，获取最优模型的具体过程为：

18、模型取动量项0.95，进行迭代训练100个epoch；

19、在前5个epoch，采取学习预热的方式，将学习率从0上升到0.001；

20、在后95个epoch，采取余弦退火策略，将学习率在一个余弦周期内下降到0；

21、在训练过程中，将加权损失进行可视化，取加权损失最小时的模型作为最优模型。

22、本专利技术第二方面提供一种基于多类别标签辅助的遥感图像描述方法，将采集的遥感图像输入到所述的基于多类别标签辅助的遥感图像描述模型中，输出描述单词时采用beamsearch策略，beam size取值为5，每次取概率最大的五个词，最终输出遥感图像的描述信息。

23、本专利技术第三方面提供一种基于多类别标签辅助的遥感图像描述装置，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口以及存储器通过通信总线完成相互间的通信；

24、存储器，用于存放计算机程序和数据；

25、处理器，用于执行存储器上所存放的程序时，实现如所述的基于多类别标签辅助的遥感图像描述方法。

26、本专利技术第四方面提供一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如所述的基于多类别标签辅助的遥感图像描述方法。

27、本专利技术的有益效果：

28、1、本专利技术模型通过联合解、编码器结构和辅助任务实现了遥感图像的准确描述。

29、2、本专利技术模型通过选择多标签分类作为辅助任务来改进图像描述，而所选择的辅助任务在语义上与主要任务图像描述相似，使得图像描述的准确性优于单个任务模型，从而改进遥感图像的描述。

本文档来自技高网...

【技术保护点】

1.一种基于多分类标签辅助的遥感图像描述模型，其特征在于：包括编码器模块、辅助多标签分类模块、LSTM解码器模块；

2.根据权利要求1所述的基于多分类标签辅助的遥感图像描述模型，其特征在于，对遥感图像采用方式进行预处理去重：

3.根据权利要求1所述的基于多类别标签辅助的遥感图像描述模型，其特征在于，所述编码器模块为去除了后面的池化层和softmax层的Resnet50结构；

4.根据权利要求1所述的基于多类别标签辅助的遥感图像描述模型，其特征在于：在SoftMax分类过程中，采用L2损失函数对预测的类别和真实的类别进行参数优化。

5.根据权利要求1所述的基于多类别标签辅助的遥感图像描述模型，其特征在于：

6.根据权利要求1的基于多类别标签辅助的遥感图像描述模型，其特征在于，所述LSTM解码器模块采用四个级联的LSTM模块。

7.根据权利要求1的基于多类别标签辅助的遥感图像描述模型，其特征在于，获取最优模型的具体过程为：

8.一种基于多类别标签辅助的遥感图像描述方法，其特征在于：

9.一

10.一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求8所述的基于多类别标签辅助的遥感图像描述方法。

...

【技术特征摘要】

1.一种基于多分类标签辅助的遥感图像描述模型，其特征在于：包括编码器模块、辅助多标签分类模块、lstm解码器模块；

2.根据权利要求1所述的基于多分类标签辅助的遥感图像描述模型，其特征在于，对遥感图像采用方式进行预处理去重：

3.根据权利要求1所述的基于多类别标签辅助的遥感图像描述模型，其特征在于，所述编码器模块为去除了后面的池化层和softmax层的resnet50结构；

4.根据权利要求1所述的基于多类别标签辅助的遥感图像描述模型，其特征在于：在softmax分类过程中，采用l2损失函数对预测的类别和真实的类别进行参数优化。

5.根据权利要求1所述的基于多类别标签辅助的遥感图像描述模型，其特...

【专利技术属性】
技术研发人员：谢文博，李鹏飞，高毫林，李永才，叶森，
申请(专利权)人：郑州信大先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人