一种基于声音指导的遥感图像描述方法技术

技术编号：21686286 阅读：44 留言：0更新日期：2019-07-24 14:42

为解决现有的遥感图像描述方法无法充分利用数据库当中的标注、在一些复杂场景不能有效适用的问题，本发明专利技术提供了一种基于声音指导的遥感图像描述方法。本发明专利技术考虑到了遥感图像涉及目标分布复杂的特点，从观察者的角度出发，通过为数据库中的原始遥感图像添加对应的单词语音标注，以限定观察者感兴趣的区域范围，将语音标注当中包含的信息作为描述遥感图像的指导信息，使得生成的句子更贴近观察者的目的。

A Description Method of Remote Sensing Image Based on Sound Guidance

全部详细技术资料下载

【技术实现步骤摘要】
一种基于声音指导的遥感图像描述方法
本专利技术属于信息处理
，特别涉及一种遥感图像描述方法，可用于地震灾害评估和海洋监测等领域。
技术介绍
随着遥感以及相关技术的不断发展，更高分辨率的遥感图像的获取越来越方便。获取的高分辨率遥感图像已应用于地震灾害的分级评估和海洋观测等领域。每时每刻，都在产生大量的遥感图像，这些遥感图像从生成到传输都要耗费巨大的人力物力，如何能够更详尽的挖掘遥感图像当中的信息，以更有效地发挥遥感图像在全球观测等各个方面的重要作用具有重要意义。为了挖掘遥感图像中的信息，需要研究基于遥感图像的语义理解，对高分辨率遥感图像进行描述，将高分辨率的遥感图像信息转化成为人类能够理解的文本信息。遥感图像不同于普通的自然图像：首先，遥感图像是利用传感器(卫星，航空航天器等)从远处来感知物体的手段；其次，传感器位置不同，对相同的物质会呈现出不同的大小和相对位置，使得遥感图像的语义理解更加困难；最后，因为遥感图像对于普通人而言不熟悉，在标注的时候存在一个不完全标注的问题，更使得遥感图像的语义理解与自然图像的语义理解大有不同。为了利用有监督的机器学习手段解决遥感图像语义理解的问题，业内研究人员标注了相应的机器学习数据库。文献“B.Qu,X.Li,D.Tao,andX.Lu,“Deepsemanticunderstandingofhighresolutionremotesensingimage,”inProceedingsoftheInternationalConferenceonComputer,InformationandTelecommunicati...

【技术保护点】
1.一种基于声音指导的遥感图像描述方法，其特征在于，包括以下步骤：1)构建训练样本集和测试样本集：首先为数据库中每一张原始遥感图像添加单词语音标注，所添加的单词语音标注的语义内容与原始遥感图像所描述的内容相关，然后将数据库中原始遥感图像及其对应的文本标注和单词语音标注进行划分，将一部分原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集，其余划入测试样本集；2)对训练样本集中的原始遥感图像及其对应的文本标注和单词语音标注进行表达：2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征；2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句文本标注的文本特征；2.3)提取每张原始遥感图像所对应的单词语音标注的初步语音特征；3)构建基于单词语音指导的网络框架，所述网络框架包括依次连接的声音模块、特征融合模块和输出模块；声音模块用于从步骤2.3)提取的初步语音特征中进一步进行单词语音信息的特征提取；特征融合模块用于对步骤2.1)得到的图像特征和声音模块输出的单词语音特征进行融合；输出模块用于逐个单词地生成描述句子；4)对所述网络框架进行训练：采用损失函数，结合训练样本集...

【技术特征摘要】
1.一种基于声音指导的遥感图像描述方法，其特征在于，包括以下步骤：1)构建训练样本集和测试样本集：首先为数据库中每一张原始遥感图像添加单词语音标注，所添加的单词语音标注的语义内容与原始遥感图像所描述的内容相关，然后将数据库中原始遥感图像及其对应的文本标注和单词语音标注进行划分，将一部分原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集，其余划入测试样本集；2)对训练样本集中的原始遥感图像及其对应的文本标注和单词语音标注进行表达：2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征；2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句文本标注的文本特征；2.3)提取每张原始遥感图像所对应的单词语音标注的初步语音特征；3)构建基于单词语音指导的网络框架，所述网络框架包括依次连接的声音模块、特征融合模块和输出模块；声音模块用于从步骤2.3)提取的初步语音特征中进一步进行单词语音信息的特征提取；特征融合模块用于对步骤2.1)得到的图像特征和声音模块输出的单词语音特征进行融合；输出模块用于逐个单词地生成描述句子；4)对所述网络框架进行训练：采用损失函数，结合训练样本集中的文本标注来反馈训练输出模块的模型参数、特征融合模块的模型参数和声音模块的模型参数；在训练的过程中，逐个选取文本标注当中的每一句进行训练，每一句当中的每个单词对应各个模块当中的一步；5)待测遥感图像的描述：5.1)输入待测遥感图像和用户语音；5.2)利用预训练好的深度神经网络提取待测遥感图像的图像特征；5.3)提取输入的用户语音特征；5.4)将步骤5.2)得到的图像特征和步骤5.3)得到的用户语音特征输入到步骤4)中训练好的网络框架中，得到待测遥感图像的文本描述。2.根据权利要求1所述的基于声音指导的遥感图像描述方法，其特征在于：步骤1)在划分时，将数据库中90％的原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集，10％的原始遥感图像及其对应的文本标注和单词语音标注划入测试样本集。3.根据权利要求1所述的基于声音指导的遥感图像描述方法，其特征在于：步骤2.1)中的所述深度神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet。4.根据权利要求1或2或3所述的基于声音指导的遥感图像描述方法，其特征在于，步骤2.2)具体为：将每个单词利用预训练好的词向量模型映射到固定的维度。5.根据权利要求4所述的基于声音指导的遥感图像描述方法，其特征在于：步骤2.3)具体采用Mel-FrequencyCepstralCoefficients(MFCC)进行语音特征的初步提取。6.根据权利要求5所述的基于声音指导的遥感图像描述方法，其特征在于，步骤3)中的声音模块、特征融合模块和输出模块均采用GatedRecurrentUnit(GRU)构建。7.根据权利要求6所述的基于声音指导的遥感图像描述方法，其特征在于：步骤4)中对声音模块的模型参数进行训练的过程具体为：第1步声音模块的模型当中，GatedRecurrentUnit(GRU)的表达式如下：z1＝σ(WzWss+bz),其中：表示Hadamard乘积；σ的表达式如下：Ws、Wz、Wh是需要学习的权重参数；z1是更新门；是中间变量；h1是第一步输出的语音...

【专利技术属性】
技术研发人员：卢孝强，王斌强，郑向涛，
申请(专利权)人：中国科学院西安光学精密机械研究所，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人