【技术实现步骤摘要】
高低层特征融合的注意力遥感图像描述的生成方法及系统
本专利技术涉及一种图像描述领域,具体讲涉及一种高低层特征融合的注意力遥感图像描述的生成方法及系统。
技术介绍
遥感图像描述生成(RemoteSensingDescriptionGeneration,RSDG)是遥感图像领域的一个重要组成部分,要解决的主要问题是理解遥感图像的语义内容,然后为遥感图像生成自然语言句子描述。因此遥感图像描述生成要解决的一个首要问题是遥感图像语义的理解,这有助于机器理解人类视觉捕获图像特征的方式;其次,相对于遥感图像领域的其他问题,例如场景分类(SceneClassification),目标检测(ObjectDetection)、语义分割(SemanticSegmentation)等任务都需要理解图像的内容,其中场景分类需要对遥感图像的场景进行分类,目标检测需要定位遥感目标的位置并识别该目标的种类,语义分割需要区分前景背景的像素类别。而遥感图像描述生成不仅需要理解遥感图像的语义内容,还需要生成自然语言句子描述,该描述不仅要说明该遥感图像的场景类别,还需要对场景中所包含的目标类别以及目标与场景背景之间的相互关系进行描述。因此,遥感图像描述生成一直是遥感图像领域探索的一个重要研究方向。目前,关于遥感图像描述生成的方法主要有以下方法:1)基于句子模板的方法基于句子模板的方法主要是通过人为预先设计的句子模板,把从图像中把遥感目标及其属性和状态识别出来并用单词形式表示,然后填充到句子模板中去,作为输入遥感图像的自然语言句子描述。 >2)基于句子检索的方法基于句子检索的方法,它先是选出一些与输入的遥感图像最相似图像,然后从这些相似图像的句子描述中选出最能够很好的描述输入图像句子,作为该输入遥感图像的自然语言描述。3)基于句子生成的方法基于句子生成的方法,它采用了经典的编解码结构(Encoder-Decoder),利用卷积神经网络(ConvolutionalNeuralNetwork)作为编码器来对遥感图像特征进行提取,然后利用循环递归网络(RecurrentNeuralNetwork)。上述遥感图像描述生成方法都是采用现成的句子或者预先定义的句子模板,而在实际条件下,同一张图像可以用不同的自然语言句子来描述。这些方法都不能够描述输入遥感图像本身特有的细节信息,而且得到的自然语言句子描述的多样性受限,因此这些方法生成的描述不能够很好的描述输入遥感图像。
技术实现思路
为解决现有技术中存在的不能够很好的描述输入遥感图像的问题,本专利技术提供了一种高低层特征融合的注意力遥感图像描述的生成方法,包括:获取待测遥感图像;基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;其中,所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。优选的,基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述,包括:基于预先训练好的编码器对所述待测遥感图像进行特征提取,由高层网络得到所述待测遥感图像的全局语义特征,由底层网络得到所述待测遥感图像的局部细节特征,以及每个特征对应的语义表示;利用高低层特征融合的注意力对待测遥感图像的全局语义特征和局部细节特征的语义表示进行不同程度的关注,得到显著图像特征;利用预先训练好的解码器,对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述。优选的,所述编码器的训练包括:获取遥感图像的图像数据以及对应的自然语言句子描述数据;将所述遥感图像数据进行切割得到图像切片数据;由所述图像切片数据以及对应的自然语言句子描述数据分别构建遥感图像数据集和对应的自然语言句子描述数据集;将所述遥感图像数据集和对应的自然语言句子描述数据集按照设定比例划分为训练集、检测集和测试集;基于训练集中的所述遥感图像数据及对应的自然语言句子描述数据对所述编码器进行训练;并基于所述检测集和测试集对所述编码器进行检测和测试得到训练好的编码器。优选的,所述编码器采用深度网络模型或残差网络模型。优选的,所述利用高低层特征融合的注意力对各特征的语义表示进行不同程度的关注,得到显著图像特征,包括:基于所述全局特征采用注意力权重计算公式计算所述待测遥感图像的局部特征的注意力权重;基于所述局部特征和所述注意力权重得到所述待测遥感图像的显著图像特征。优选的,所述注意力权重计算公式如下式所示:αt=htW1[Imiddle;W2Ihigh]式中,αt:注意力权重;W1和W2是权重大小;Ihigh遥感图像的全局特征;Imiddle遥感图像的局部特征;ht解码器在上一时刻隐藏状态的输出。优选的,所述解码器的训练包括:将遥感图像对应的自然语言句子描述数据转换为由单词组成的句子序列;由所述解码器的embedding层将所述句子序列中的单词进行词嵌入处理,得到词嵌入向量;将所述词嵌入向量和所述显著图像特征进行拼接作为所述解码器的输入;所述解码器根据上一时刻隐藏状态向量预测下一个时刻的隐藏状态,然后将所述隐藏状态通过变换矩阵映射到与字典维度相同的空间里;通过SoftMax函数预测下一个时刻输出的单词的概率分布;根据所述预测下一个时刻输出的单词的概率分布采用贪婪算法选取最大概率分布对应的单词作为当前时刻预测得到的单词;把当前时刻所有预测得到的单词进行拼接操作,组成完整的句子作为所述解码器的输出。优选的,所述利用预先训练好的解码器,对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述,包括:基于训练好的所述解码器上一时刻隐藏状态特征向量预测下一时刻隐藏状态特征向量;将所述待测遥感图像的显著图像特征与预测下一时刻所述隐藏状态特征进行拼接,得到当前时刻解码器的输入量;由所述预先训练好的解码器对所述待测遥感图像进行解码生成所述待测遥感图像的自然语言句子描述。优选的,所述将所述遥感图像数据进行切割得到图像切片数据,之前还包括:对所述遥感图像数据集和所述对应的自然语言句子描述数据集进行筛选处理,并对筛选后的图像切片进行场景类别分类处理。一种高低层特征融合的注意力遥感图像描述的生成系统,包括:数据获取模块,用于获取待测遥感图像;语言生成模块,基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;其中,所述图像描述模型的训练包括:基于遥感图像和所述遥感图像对应的自然语言句子描述信息对所述编码器以及解码器进行训练。与现有技术相比,本专利技术的有益效果为:1、一种高低层特征融合的注意力遥感图像描述的生成方法及系统,包括:获取待测遥感图像;基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;其中本文档来自技高网...
【技术保护点】
1.一种高低层特征融合的注意力遥感图像描述的生成方法,其特征在于,包括:/n获取待测遥感图像;/n基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;/n其中,所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。/n
【技术特征摘要】
1.一种高低层特征融合的注意力遥感图像描述的生成方法,其特征在于,包括:
获取待测遥感图像;
基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;
其中,所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。
2.如权利要求1所述的注意力遥感图像描述的生成方法,其特征在于,基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述,包括:
基于预先训练好的编码器对所述待测遥感图像进行特征提取,由高层网络得到所述待测遥感图像的全局语义特征,由底层网络得到所述待测遥感图像的局部细节特征,以及每个特征对应的语义表示;
利用高低层特征融合的注意力对待测遥感图像的全局语义特征和局部细节特征的语义表示进行不同程度的关注,得到显著图像特征;
利用预先训练好的解码器,对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述。
3.如权利要求2所述的注意力遥感图像描述的生成方法,其特征在于,所述编码器的训练包括:
获取遥感图像的图像数据以及对应的自然语言句子描述数据;
将所述遥感图像数据进行切割得到图像切片数据;
由所述图像切片数据以及对应的自然语言句子描述数据分别构建遥感图像数据集和对应的自然语言句子描述数据集;
将所述遥感图像数据集和对应的自然语言句子描述数据集按照设定比例划分为训练集、检测集和测试集;
基于训练集中的所述遥感图像数据及对应的自然语言句子描述数据对所述编码器进行训练;
并基于所述检测集和测试集对所述编码器进行检测和测试得到训练好的编码器。
4.如权利要求3所述的注意力遥感图像描述的生成方法,其特征在于,所述编码器采用深度网络模型或残差网络模型。
5.如权利要求2所述的注意力遥感图像描述的生成方法,其特征在于,所述利用高低层特征融合的注意力对各特征的语义表示进行不同程度的关注,得到显著图像特征,包括:
基于所述全局特征采用注意力权重计算公式计算所述待测遥感图像的局部特征的注意力权重;
基于所述局部特征和所述注意力权重得到所述待测遥感图像的显著图像特征。
6.如权利要求5所述的注意力遥感图像描述的生成方法,其特征在于,所述注意力权...
【专利技术属性】
技术研发人员:张文凯,孙显,许光銮,张政远,李轩,汪勇,刘文杰,
申请(专利权)人:中国科学院空天信息创新研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。