一种基于声音指导的遥感图像描述方法技术

技术编号:21686286 阅读:44 留言:0更新日期:2019-07-24 14:42
为解决现有的遥感图像描述方法无法充分利用数据库当中的标注、在一些复杂场景不能有效适用的问题,本发明专利技术提供了一种基于声音指导的遥感图像描述方法。本发明专利技术考虑到了遥感图像涉及目标分布复杂的特点,从观察者的角度出发,通过为数据库中的原始遥感图像添加对应的单词语音标注,以限定观察者感兴趣的区域范围,将语音标注当中包含的信息作为描述遥感图像的指导信息,使得生成的句子更贴近观察者的目的。

A Description Method of Remote Sensing Image Based on Sound Guidance

【技术实现步骤摘要】
一种基于声音指导的遥感图像描述方法
本专利技术属于信息处理
,特别涉及一种遥感图像描述方法,可用于地震灾害评估和海洋监测等领域。
技术介绍
随着遥感以及相关技术的不断发展,更高分辨率的遥感图像的获取越来越方便。获取的高分辨率遥感图像已应用于地震灾害的分级评估和海洋观测等领域。每时每刻,都在产生大量的遥感图像,这些遥感图像从生成到传输都要耗费巨大的人力物力,如何能够更详尽的挖掘遥感图像当中的信息,以更有效地发挥遥感图像在全球观测等各个方面的重要作用具有重要意义。为了挖掘遥感图像中的信息,需要研究基于遥感图像的语义理解,对高分辨率遥感图像进行描述,将高分辨率的遥感图像信息转化成为人类能够理解的文本信息。遥感图像不同于普通的自然图像:首先,遥感图像是利用传感器(卫星,航空航天器等)从远处来感知物体的手段;其次,传感器位置不同,对相同的物质会呈现出不同的大小和相对位置,使得遥感图像的语义理解更加困难;最后,因为遥感图像对于普通人而言不熟悉,在标注的时候存在一个不完全标注的问题,更使得遥感图像的语义理解与自然图像的语义理解大有不同。为了利用有监督的机器学习手段解决遥感图像语义理解的问题,业内研究人员标注了相应的机器学习数据库。文献“B.Qu,X.Li,D.Tao,andX.Lu,“Deepsemanticunderstandingofhighresolutionremotesensingimage,”inProceedingsoftheInternationalConferenceonComputer,InformationandTelecommunicationSystems,2016,pp.124–128”首次提出基于机器学习来研究遥感图像的语义理解方法,并提出了两个遥感语义理解方法的数据库,这两个数据库分别是UCM-captions和Sydney-captions。其中,UCM-captions包含2100张遥感图像,每张图像对应五句不同的文本标注,Sydney-captions包含613遥感图像,每张图像对应五句不同的文本标注。文献“X.Lu,B.Wang,X.Zheng,andX.Li,“Exploringmodelsanddataforremotesensingimagecaptiongeneration,”IEEETransactionsonGeoscienceandRemoteSensing,vol.56,no.4,pp.2183–2195,2017.”针对遥感图像不同于自然图像的类别模糊,尺度多变等特点,推出了数据库RSICD(RemoteSensingImageCaptionDataset),其中包含10921张遥感图像,并邀请不同的志愿者对图像进行了标注,每个图像对应五句不同的文本标注。由于从数据库中通过图像检索生成句子是非常困难的,为了有效利用上述遥感图像数据库中的信息,技术人员采用了以下两类方法从数据库中获取遥感图像对应的句子:一是基于循环神经网络来生成遥感图像描述的方法,这种方法通过循环神经网络来逐个单词地生成对应遥感图像的描述。B.Qu等人在文献“B.Qu,X.Li,D.Tao,andX.Lu,“Deepsemanticunderstandingofhighresolutionremotesensingimage,”InternationalConferenceonComputer,InformationandTelecommunicationSystems,pp.124–128,2016.”中提出一种句子生成的框架,该框架基于两种不同的循环神经网络来进行句子的生成。利用神经网络的强大表征能力,图像使用预训练的深度模型后端全连接层的输出,然后利用循环神经网络来逐个单词地生成最终的描述。这种方法对数据库的依赖较强,因为最终生成的句子是和数据库当中的句子作对比,而且一个句子可能偏向于数据库中五个句子当中的简单句子,无法充分利用数据库每一句标注中的细分信息。二是基于目标检测的方法。这种方法的核心思想是通过目标检测的算法来获取图像当中存在的目标,然后将目标填充到预定义的句子模板当中来进行句子的生成。句子模板是一些缺乏单词的句子,将任务转换为将检测到的目标准确的填充到句子对应的空位置上去。Z.Shi等人在文献“Z.ShiandZ.Zou,“Canamachinegeneratehumanlikelanguagedescriptionsforaremotesensingimage?”IEEETransactionsonGeoscienceandRemoteSensing,vol.55,no.6,pp.3623–3634,2017.”中提出一种方法,不同于传统卷积神经网络,这个方法使用全卷积网络来编码图像的特征,并将目标按照视野的大小分为三个等级:单个目标级别,小场景级别和大场景级别。在获取到目标之后,再将这些获取到的目标填充到预定义的句子模板当中。句子模板的生成考虑了人的用法习惯,但是这种生成方式生成的句子相对比较固化,一些复杂的场景并不能有效的适用。
技术实现思路
为解决现有的遥感图像描述方法无法充分利用数据库当中的标注、在一些复杂场景不能有效适用的问题,本专利技术提供了一种基于声音指导的遥感图像描述方法。本专利技术的技术方案是:一种基于声音指导的遥感图像描述方法,其特殊之处在于,包括以下步骤:1)构建训练样本集和测试样本集:首先为数据库中每一张原始遥感图像添加单词语音标注,所添加的单词语音标注的语义内容与原始遥感图像所描述的内容相关,然后将数据库中原始遥感图像及其对应的文本标注和单词语音标注进行划分,将一部分原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,其余划入测试样本集;2)对训练样本集中的原始遥感图像及其对应的文本标注和单词语音标注进行表达:2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征;2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句文本标注的文本特征;2.3)提取每张原始遥感图像所对应的单词语音标注的初步语音特征;3)构建基于单词语音指导的网络框架,所述网络框架包括依次连接的声音模块、特征融合模块和输出模块;声音模块用于从步骤2.3)提取的初步语音特征中进一步进行单词语音信息的特征提取;特征融合模块用于对步骤2.1)得到的图像特征和声音模块输出的单词语音特征进行融合;输出模块用于逐个单词地生成描述句子;4)对所述网络框架进行训练:采用损失函数,结合训练样本集中的文本标注来反馈训练输出模块的模型参数、特征融合模块的模型参数和声音模块的模型参数;在训练的过程中,逐个选取文本标注当中的每一句进行训练,每一句当中的每个单词对应各个模块当中的一步;5)待测遥感图像的描述:5.1)输入待测遥感图像和用户语音;5.2)利用预训练好的深度神经网络提取待测遥感图像的图像特征;5.3)提取输入的用户语音特征;5.4)将步骤5.2)得到的图像特征和步骤5.3)得到的用户语音特征输入到步骤4)中训练好的网络框架中,得到待测遥感图像的文本描述。进一步地,步骤1)在划分时,将数据库中90%的原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,10%的原始本文档来自技高网
...

【技术保护点】
1.一种基于声音指导的遥感图像描述方法,其特征在于,包括以下步骤:1)构建训练样本集和测试样本集:首先为数据库中每一张原始遥感图像添加单词语音标注,所添加的单词语音标注的语义内容与原始遥感图像所描述的内容相关,然后将数据库中原始遥感图像及其对应的文本标注和单词语音标注进行划分,将一部分原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,其余划入测试样本集;2)对训练样本集中的原始遥感图像及其对应的文本标注和单词语音标注进行表达:2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征;2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句文本标注的文本特征;2.3)提取每张原始遥感图像所对应的单词语音标注的初步语音特征;3)构建基于单词语音指导的网络框架,所述网络框架包括依次连接的声音模块、特征融合模块和输出模块;声音模块用于从步骤2.3)提取的初步语音特征中进一步进行单词语音信息的特征提取;特征融合模块用于对步骤2.1)得到的图像特征和声音模块输出的单词语音特征进行融合;输出模块用于逐个单词地生成描述句子;4)对所述网络框架进行训练:采用损失函数,结合训练样本集中的文本标注来反馈训练输出模块的模型参数、特征融合模块的模型参数和声音模块的模型参数;在训练的过程中,逐个选取文本标注当中的每一句进行训练,每一句当中的每个单词对应各个模块当中的一步;5)待测遥感图像的描述:5.1)输入待测遥感图像和用户语音;5.2)利用预训练好的深度神经网络提取待测遥感图像的图像特征;5.3)提取输入的用户语音特征;5.4)将步骤5.2)得到的图像特征和步骤5.3)得到的用户语音特征输入到步骤4)中训练好的网络框架中,得到待测遥感图像的文本描述。...

【技术特征摘要】
1.一种基于声音指导的遥感图像描述方法,其特征在于,包括以下步骤:1)构建训练样本集和测试样本集:首先为数据库中每一张原始遥感图像添加单词语音标注,所添加的单词语音标注的语义内容与原始遥感图像所描述的内容相关,然后将数据库中原始遥感图像及其对应的文本标注和单词语音标注进行划分,将一部分原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,其余划入测试样本集;2)对训练样本集中的原始遥感图像及其对应的文本标注和单词语音标注进行表达:2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征;2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句文本标注的文本特征;2.3)提取每张原始遥感图像所对应的单词语音标注的初步语音特征;3)构建基于单词语音指导的网络框架,所述网络框架包括依次连接的声音模块、特征融合模块和输出模块;声音模块用于从步骤2.3)提取的初步语音特征中进一步进行单词语音信息的特征提取;特征融合模块用于对步骤2.1)得到的图像特征和声音模块输出的单词语音特征进行融合;输出模块用于逐个单词地生成描述句子;4)对所述网络框架进行训练:采用损失函数,结合训练样本集中的文本标注来反馈训练输出模块的模型参数、特征融合模块的模型参数和声音模块的模型参数;在训练的过程中,逐个选取文本标注当中的每一句进行训练,每一句当中的每个单词对应各个模块当中的一步;5)待测遥感图像的描述:5.1)输入待测遥感图像和用户语音;5.2)利用预训练好的深度神经网络提取待测遥感图像的图像特征;5.3)提取输入的用户语音特征;5.4)将步骤5.2)得到的图像特征和步骤5.3)得到的用户语音特征输入到步骤4)中训练好的网络框架中,得到待测遥感图像的文本描述。2.根据权利要求1所述的基于声音指导的遥感图像描述方法,其特征在于:步骤1)在划分时,将数据库中90%的原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,10%的原始遥感图像及其对应的文本标注和单词语音标注划入测试样本集。3.根据权利要求1所述的基于声音指导的遥感图像描述方法,其特征在于:步骤2.1)中的所述深度神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet。4.根据权利要求1或2或3所述的基于声音指导的遥感图像描述方法,其特征在于,步骤2.2)具体为:将每个单词利用预训练好的词向量模型映射到固定的维度。5.根据权利要求4所述的基于声音指导的遥感图像描述方法,其特征在于:步骤2.3)具体采用Mel-FrequencyCepstralCoefficients(MFCC)进行语音特征的初步提取。6.根据权利要求5所述的基于声音指导的遥感图像描述方法,其特征在于,步骤3)中的声音模块、特征融合模块和输出模块均采用GatedRecurrentUnit(GRU)构建。7.根据权利要求6所述的基于声音指导的遥感图像描述方法,其特征在于:步骤4)中对声音模块的模型参数进行训练的过程具体为:第1步声音模块的模型当中,GatedRecurrentUnit(GRU)的表达式如下:z1=σ(WzWss+bz),其中:表示Hadamard乘积;σ的表达式如下:Ws、Wz、Wh是需要学习的权重参数;z1是更新门;是中间变量;h1是第一步输出的语音...

【专利技术属性】
技术研发人员:卢孝强王斌强郑向涛
申请(专利权)人:中国科学院西安光学精密机械研究所
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1