一种基于场景预分类的光学遥感图像语句描述生成方法技术

技术编号:23766114 阅读:46 留言:0更新日期:2020-04-11 19:55
本发明专利技术公开一种基于场景预分类的光学遥感图像语句描述生成方法,技术核心是将语句描述生成任务与场景预分类任务进行联合优化,从而提升模型的数据域适应性。该方法包含四个步骤:步骤一:制作数据集;步骤二:搭建网络模型;步骤三:分步训练网络模型;步骤四:遥感图像语句描述生成。本发明专利技术克服了现有技术的不足,很好地解决了遥感图像语句描述模型与遥感数据域的适应性问题,自动化程度和语句描述内容准确度均较高,具有广阔的应用前景和巨大的使用价值。

A sentence description generation method of optical remote sensing image based on scene pre classification

【技术实现步骤摘要】
一种基于场景预分类的光学遥感图像语句描述生成方法
本专利技术涉及一种基于场景预分类的光学遥感图像语句描述生成方法,属于光学遥感图像语句描述自动生成

技术介绍
遥感(remotesensing)可以分为主动遥感和被动遥感,前者通过发射和回收信号来成像,而后者通过接收地物反射的太阳光来成像,光学遥感(opticalremotesensing)一般指后者,指在紫外波段和红外波段的范围内,通过探测仪器远距离获取地物信息的技术。目前,光学遥感技术一般依靠星载和机载传感器来探测地物目标,受拍摄设备高度、拍摄角度以及传感器精度的影响,获取到的图像数据在分辨率、覆盖地物尺度等多个方面表现出不同于自然图像的特点,对相关处理技术有着更高的要求。光学遥感图像在民事和军事应用中均具有重要的作用,民事上主要用于气象预报、土地普查以及灾害评估等方面,军事上主要用于导弹预警、战场监测等方面。图像语句描述生成(imagecaption)是指计算机通过分析输入图像的语义内容,包括场景、目标以及目标之间的关系,之后自动生成一句描述图像内容的语句的技术。相比于目标检测、图像分割等传统图像处理技术,该技术可以实现图像到描述语句的映射,功能上更接近人类的行为表现,具有更加广阔的应用场景,包括图像检索,智能交互以及情报自动生成等多个方面。其技术实现在数据集构建、模型搭建以及训练和测试等多个方面面临更大的困难和挑战。卷积神经网络(convolutionalneuralnetwork)是近年来发展非常迅速的神经网络模型之一,该网络在处理图像数据时具有天然的优势,解决了网络庞大臃肿、难以训练以及泛化能力差等诸多问题,在图像分类比赛中屡创佳绩,以ImageNet数据集分类任务为例,人类的Top5error分类精度大致在5%到10%之间,自从2015年深度残差网络(residualneuralnetwork)提出之后,计算机的分类精度已经超越人类。在图像语句描述生成任务中,如何使用卷积神经网络提取高质的图像语义表示,仍是目前研究面临的一大难点。循环神经网络(recurrentneuralnetwork)是处理序列数据最有效的神经网络模型,在语句生成任务中应用广泛。由于该模型在训练时存在梯度消失的问题,后经改进,变身为长短时记忆模型(longshort-termmemory,LSTM),LSTM通过设计遗忘门、输入门以及输出门解决了梯度消失问题。目前在图像语句描述生成模型中,一般采用LSTM或其变体来生成描述图像的语句结果。注意力机制(attentionmechanism)是指人脑通过注意力聚焦来重点关注某一部分信息的机制,基于该机制构建的注意力模块在图像语句描述生成模型中扮演着重要的角色,该模块可以帮助模型在生成语句的单词时与图像进行语义对齐,从而得到更准确的描述结果。现有的注意力模块主要包括空间注意力模块、自适应注意力模块两种,本专利技术在此基础上提出了一种3D注意力结构,这种设计更适用于处理尺度不一的光学遥感图像数据。场景分类(sceneclassification)技术是指计算机根据输入的图像判定图像所属场景类别的技术。由于光学遥感图像与自然图像相比,通常一张遥感图像只包含一种地物场景,如港口、山区等,对其进行场景分类有助于图像语句描述生成模型获取更加准确的语义信息,从而减轻语句生成部分的学习压力,进而得到一种更适合于光学遥感图像语句生成的模型。本专利技术就是基于这种思想,将场景分类任务与语句描述生成任务进行多任务联合,搭建了一种基于场景预分类的光学遥感图像语句描述生成模型,与领域内其它模型相比,该模型具有出色的性能表现。
技术实现思路
本专利技术的目的在于提供一种基于场景预分类的光学遥感图像语句描述生成方法,该方法从光学遥感图像的数据特点出发,结合场景分类技术,设计了一种更适用于光学遥感图像数据的语句描述生成方法,旨在通过赋予模型场景识别能力的同时提升模型对遥感数据域的适应能力。本专利技术是通过以下技术方案实现的:本专利技术是一种基于场景预分类的光学遥感图像语句描述生成方法,是一种针对光学遥感图像数据的语句描述自动生成方法。该方法的具体步骤如下:步骤一:制作数据集。首先准备图像语句描述数据集,数据集的图像数据大小为400×400~1000×1000(像素)之间,数据来源包括谷歌地球图像数据、高分一号及二号融合图像数据以及其他光学遥感数据源数据,数据包括三个通道,每张图像对应标注一句或一句以上的英文描述作为语句标签。之后对图像进行场景分类,以数字表示其场景类别。最后将这些信息统一记录在标注文件内。步骤二:搭建网络模型。该模型总共包括数据输入模块、语义特征提取模块、场景分类模块、3D注意力模块、语句描述生成模块等共计5个模块。数据输入模块主要包括数据预处理、搭建数据流等两个功能类;语义特征提取模块采用参数共享的方式,将输入图像映射成大小为49×2048的特征矩阵;场景分类模块主要包括分类预测层、交叉熵损失函数以及优化器等三个部分,用于训练场景分类任务;3D注意力模块是在空间注意力的基础上,增加了模型对不同尺度特征的应用能力;语句描述生成模块主要由LSTM和解码网络构成,用于预测生成的单词,其中,该模块还包含有一个用于测试阶段生成语句结果的功能函数,称为集束搜索函数,用于搜索得到最优的描述语句。搭建整个网络模型的具体步骤如下:S21、编写数据输入类:classDataSet();S22、构建特征提取网络:defbuild_feat();S23、构建场景分类分支:以步骤S22中的输出为输入,构建场景分类分支;S24、3D注意力模块:该模块用于计算分配注意力的系数矢量;初始时间步采用步骤S22的输出和“<start>”常向量作为输入,在迭代过程中采用步骤S22和步骤S25的输出作为该模块的输入;S5、构建语句描述生成分支:将步骤S22、S24的输出向量进行点乘作为当前步骤的图像内容输入,用于下一个时间步的迭代。步骤三:训练整个模型。考虑到图像场景识别任务与语句描述任务是两个强相关的时序任务,因此,本专利技术先用数据集对场景分类分支进行预训练,在得到稳定的模型后,再对语句描述生成分支进行训练,最后对二者进行联合调优。特别的,在训练语句描述生成分支时,本专利技术将场景分类任务的结果用于其损失函数设计,对模型识别错误的数据对应的损失进行抑制,从而避免场景识别错误的数据给语句生成模块带来数据噪声干扰。具体的,训练整个模型的过程如下:S31、场景分类分支优化方法选择动量优化器;S32、采用迁移模型图像语义特征提取网络的权重进行初始化;S33、输入训练数据并通过前向传播得到场景分类结果;S34、计算神经网络输出和标签之间的交叉熵损失;S35、通过反向传播误差调整神经网络中的权重和偏置;重复步骤S32、S33、S34,直到迭代次数达到最大迭代次数,此时停止优化并保存网络模型参数;S36、训练语句生成分支网络;<本文档来自技高网
...

【技术保护点】
1.一种基于场景预分类的光学遥感图像语句描述生成方法,其特征在于:该方法的具体步骤如下:/n步骤一:制作数据集;/n步骤二:搭建网络模型;该模型总共包括数据输入模块、语义特征提取模块、场景分类模块、3D注意力模块、语句描述生成模块;数据输入模块主要包括数据预处理、搭建数据流两个功能类;语义特征提取模块采用参数共享的方式,将输入图像映射成大小为49×2048的特征矩阵;场景分类模块主要包括分类预测层、交叉熵损失函数以及优化器,用于训练场景分类任务;3D注意力模块是在空间注意力的基础上,增加了模型对不同尺度特征的应用能力;语句描述生成模块主要由LSTM和解码网络构成,用于预测生成的单词;/n步骤三:训练整个模型;先用数据集对场景分类分支进行预训练,在得到稳定的模型后,再对语句描述生成分支进行训练,最后对二者进行联合调优;在训练语句描述生成分支时,将场景分类任务的结果用于损失函数设计,对模型识别错误的数据对应的损失进行抑制,避免场景识别错误的数据给语句生成模块带来数据噪声干扰;/n步骤四:光学遥感图像语句描述生成;模型通过集束搜索的方式生成描述图像内容的语句。/n

【技术特征摘要】
1.一种基于场景预分类的光学遥感图像语句描述生成方法,其特征在于:该方法的具体步骤如下:
步骤一:制作数据集;
步骤二:搭建网络模型;该模型总共包括数据输入模块、语义特征提取模块、场景分类模块、3D注意力模块、语句描述生成模块;数据输入模块主要包括数据预处理、搭建数据流两个功能类;语义特征提取模块采用参数共享的方式,将输入图像映射成大小为49×2048的特征矩阵;场景分类模块主要包括分类预测层、交叉熵损失函数以及优化器,用于训练场景分类任务;3D注意力模块是在空间注意力的基础上,增加了模型对不同尺度特征的应用能力;语句描述生成模块主要由LSTM和解码网络构成,用于预测生成的单词;
步骤三:训练整个模型;先用数据集对场景分类分支进行预训练,在得到稳定的模型后,再对语句描述生成分支进行训练,最后对二者进行联合调优;在训练语句描述生成分支时,将场景分类任务的结果用于损失函数设计,对模型识别错误的数据对应的损失进行抑制,避免场景识别错误的数据给语句生成模块带来数据噪声干扰;
步骤四:光学遥感图像语句描述生成;模型通过集束搜索的方式生成描述图像内容的语句。


2.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法,其特征在于:所述的语句描述生成模块,还包含有一个用于测试阶段生成语句结果的功能函数,称为集束搜索函数,用于搜索得到最优的描述语句。


3.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法,其特征在于:所述步骤二搭建整个网络模型的具体步骤如下:
S2...

【专利技术属性】
技术研发人员:史振威马小锋赵睿陈科研张宁韩传钊章泉源朱新忠张瑞珏
申请(专利权)人:北京航空航天大学上海航天电子通讯设备研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1