一种基于GRU注意力的遥感影像区域关注与文本生成方法技术

技术编号:30140947 阅读:11 留言:0更新日期:2021-09-23 15:03
本发明专利技术提供了一种基于GRU注意力的遥感影像区域关注与文本生成方法包括如下步骤:步骤S1、在编码器部分提取遥感影像特征信息,输出特征图;步骤S2、特征图和训练集中的文本信息共同作为解码器的输入;所述解码器中,包括GRU注意力网络及LSTM语言网络,所述GRU注意力网络在输入的特征图的单词生成前,对特征图的特征向量和特征图生成文本信息的单词计算权重系数,增加对重点区域的选择和关注度,并将所述GRU注意力网络获得的注意力值及隐状态输入到所述LSTM语言网络,输出单词和状态。本发明专利技术能够更为准确地在到遥感影像的预选区域中判断出重点区域,以生成更为准确的描述。以生成更为准确的描述。以生成更为准确的描述。

【技术实现步骤摘要】
一种基于GRU注意力的遥感影像区域关注与文本生成方法


[0001]本专利技术涉及遥感影像文本生成
,特别涉及一种基于GRU(门控循环单元,Gated Recurrent Unit)注意力的遥感影像区域关注与文本生成方法。

技术介绍

[0002]现代航天遥感技术的高速进步,使得遥感卫星日趋成熟、遥感数据获取量成倍增长。然而,目前人们对航天遥感影像的推理与理解以检测和分类为主,其结果与高层信息之间仍存在较大差距。因此,面对如此海量的遥感影像数据,亟需具备与遥感影像获取速度相匹配的解译能力,如何在浩瀚的遥感影像中挖掘提取出高价值信息成为遥感领域进一步探索研究的方向。
[0003]航天遥感影像文本生成技术指对于输入的遥感影像,通过计算机自动生成影像中目标和场景文本描述的语义信息,是遥感影像智能处理的最终目标之一。航天遥感影像文本生成技术源于自然场景图像描述技术,处理流程是:首先利用卷积神经网络(Convolutional Neural Network,CNN)构成的特征编码器提取输入遥感影像的特征信息,生成便于计算机理解的特征图;接着将特征图输入由循环神经网络(Recurrent Neural Networks,RNN)构成的文本解码器,结合先验文本库,将特征图转换为文本描述,如图1所示。航天遥感影像文本生成技术能够充分利用海量的遥感影像,自主理解影像内容并获得影像中目标的特征和目标与目标、目标与场景间的关系,并从语义层面对遥感影像进行描述。该技术在民用和军事领域均具有极其重要的作用,是解决遥感数据增长量和人工判读效率有限这一矛盾的主要解决方法之一,具有重要的研究意义。
[0004]为提高自然场景中语义描述和视觉问答算法的准确性和相关性,近几年注意力机制(Attention Mechanism)得到广泛应用,获得了较好的效果。但是遥感影像文本生成过程中存在干扰噪声多、目标背景复杂和目标特点不丰富等问题,直接影响了遥感影像特征提取的准确率和场景信息的关注度,从而影响遥感影像语义文本生成的结果,即使采用注意力机制对场景加以关注,也难以获得较好的效果。
[0005]注意力机制本质上属于一种对资源进行重新划分和调整的机制,原本平均分配的资源,在注意力机制的作用下,根据对象的重要程度进行重新分配,重要对象所占资源的权重增大,反之不重要的对象占据资源的比例就相对减弱,以此来实现对重点目标和区域的准确关注。注意力可概况为两类:一是有主观意识的自顶而下的注意力,即聚焦式注意力。聚焦式注意力是指有特定目标且建立在某个任务上的注意力。二是非主观的自下而上的注意力,即基于显著性的注意力。基于显著性的注意力在外界影响下被动出现,无需主动干涉。此外,根据任务的不同,注意力机制还存在其他变体,目前应用最广泛的是神经机器翻译和图像描述生成领域。
[0006]近些年,随着深度学习的发展,注意力机制在机器翻译、自然语言处理和图像描述领域也具有广泛的应用。在图像描述领域,可将注意力机制理解为关注图像局部区域信息的方法,因为随着任务的变化,关注区域和对象也随之发生变化,通过注意力机制准确定位
有价值区域,筛除无关信息,对于图像和文本的处理有显著的改进效果。遥感领域典型注意力机制包含SOFT(一种利用全局计算获得每个Key(关键点)的权重概率,确保所有Key具有对应权重的注意力机制,该注意力机制对于高关注区域,在权重的作用下,关注度保持原始值;对于低关注区域或目标,在权重作用下,关注度接近0,从而实现对目标和场景的关注,进而生成更具针对性的描述。)注意力机制和HARD(一种通过计算概率来采样输入端的隐状态获得,通过蒙特卡洛采样法来估算梯度值,从而反向传播梯度的注意力机制,该注意力机制能够使用梯度下降进行训练,使每次生成单词时所用的特征图趋向于效果更好的方向)注意力机制两种。
[0007]但是在遥感影像语义理解与文本生成领域存在两个较为严重的问题:
[0008](1)SOFT注意力机制在处理过程中,将全部信息压缩到长度固定的隐向量z上,忽略了输入x的长度,因此当输入x长度超过一定阈值,比如长度超过遥感影像数据集中的描述长度时,遥感影像文本生成模型的性能会急剧下降。
[0009](2)虽然SOFT注意力机制通过确定性参数化计算解决了模型参数不可微分,难以通过反向传播算法直接训练的问题,但是遥感影像相较于自然场景,包含的信息更为丰富,背景也更加复杂,难以直接通过注意力机制划分出目标和周围场景,因此使用上述注意力机制无法取得理想的效果。
[0010]HARD注意力机制的处理方式是直接精准定位到某个key,此时这个key的概率等效为1,其余key的概率全部是0。虽然这种方式能够获得比SOFT注意力机制更好的目标区域划分和提取效果,但是该方法对于对齐方式要求很高,如果没有正确对齐,效果反而会更差;并且对于遥感影像,仅通过选取部分key作为注意力目标,难以准确表达场景中包含的所有信息,在训练过程中可能出现目标特征丢失的问题。
[0011]因此,SOFT注意力机制与HARD注意力机制在遥感影像语义理解与文本描述领域都有一定的局限性。

技术实现思路

[0012]本专利技术提供了一种基于GRU注意力的遥感影像区域关注与文本生成方法,针对传统注意力机制在遥感领域难以准确关注目标和场景并提取其位置关系的不足,继而导致生成描述不准确的问题,提出了基于门控循环单元注意力机制的遥感影像区域关注算法。
[0013]为了达到上述目的,本专利技术提供的一种基于GRU注意力的遥感影像区域关注及文本生成方法,在每个单词生成前,通过GRU注意力网络对输入的特征向量和单词计算权重系数,增加对重点区域的关注度,进而获得更为准确的描述。
[0014]本专利技术提供的一种基于GRU注意力的遥感影像区域关注及文本生成方法,包括如下步骤:
[0015]步骤S1、将获取的遥感影像输入编码器,在编码器部分提取遥感影像特征信息,输出特征图;
[0016]步骤S2、将部分遥感影像作为数据集,将部分遥感影像及对应的文本信息作为训练集,将数据集的特征图和训练集中的文本信息共同作为解码器的输入;
[0017]所述解码器中,包括GRU注意力网络及LSTM语言网络,所述GRU注意力网络在输入的特征图的单词生成前,对特征图的特征向量和特征图生成文本信息的单词计算权重系
数,增加对重点区域的选择和关注度,并将所述GRU注意力网络获得的注意力值及隐状态输入到所述LSTM语言网络,输出单词和状态;
[0018]其中,计算权重系数时,在遥感影像的预选区域中根据权重系数判断出重点区域,增加对重点区域的选择和关注度,所述注意力值即为权重系数,隐状态是用于控制LSTM语言网络每层输出的值。
[0019]优选地,所述GRU注意力网络遵循以下公式:
[0020][0021]所述LSTM语言网络遵循以下公式:
[0022][0023]其中,和分别代表GRU注意力网络t时刻的输入和隐状态,表示GRU注意力网络t
...

【技术保护点】

【技术特征摘要】
1.一种基于GRU注意力的遥感影像区域关注及文本生成方法,其特征在于,包括如下步骤:步骤S1、将获取的遥感影像输入编码器,在编码器部分提取遥感影像特征信息,输出特征图;步骤S2、将部分遥感影像作为数据集,将部分遥感影像及对应的文本信息作为训练集,将数据集的特征图和训练集中的文本信息共同作为解码器的输入;所述解码器中,包括GRU注意力网络及LSTM语言网络,所述GRU注意力网络在输入的特征图的单词生成前,对特征图的特征向量和特征图生成文本信息的单词计算权重系数,增加对重点区域的选择和关注度,并将所述GRU注意力网络获得的注意力值及隐状态输入到所述LSTM语言网络,输出单词和状态;其中,计算权重系数时,在遥感影像的预选区域中根据权重系数判断出重点区域,增加对重点区域的选择和关注度,所述注意力值即为权重系数,隐状态是用于控制LSTM语言网络每层输出的值。2.根据权利要求1所述的一种基于GRU注意力的遥感影像区域关注及文本生成方法,其特征在于,所述GRU注意力网络遵循以下公式:所述LSTM语言网络遵循以下公式:其中,和分别代表GRU注意力网络t时刻的输入和隐状态,表示GRU注意力网络t

1时刻的隐状态,和分别代表LSTM语言网络t时刻的输入和隐状态,表示LSTM语言网络t

1时刻的隐状态;GRU注意力网络满足以下公式:该式表示,GRU注意力网络的输入由三部分组成,分别是:(t

1)时刻LSTM语言网络的隐状态输入特征图的平均池化特征和已生成单词的编码W
d
Π
t
。3.根据权利要求2所述的一种基于GRU注意力的遥感影像区域关注及文本生成方法,其特征在于,所述GRU注意力网络中对特征图的权重计算公式为:α
i,t
=Softmax(m
i,t
)其中,α
i,t
为特征图中的关注度权重,为t时刻遥感影像特征图的动态表示,i表示输入遥感影像的第i个区域,K代表特征图的个数,用于计算平均池化特征,m
i,t
表示t时刻第i个区域的特征图,W
fm
,W
Hm
和均是网络参数,f
i
为第i个区域的特征图的平均池化特征,m表示
特征图表;GRU注意力网络输出的状态值和图像特征图构成了LSTM语言网络的输入,状态值为经过GRU注意力网络权重系数计算后的输出值,图像特征图为数据集的图像特征图:权重系数计算后的输出值,图像特征图为数据集的图像特征图:表示GRU注意力网络t时刻的隐状态,表示t时刻平均池化了的特征图;t时刻GRU注意力网络和LSTM语言网络输出的任一单词的概率分布为:t时刻GRU注意力网络和LSTM语言网络输出的任一单词的概率分布为:其中,Y
1:T
指代单词序列(Y1,Y2,...Y
t
...Y
T
),p(Y
t
|Y
1:t
‑1)代表每个time step的条件分布,p(Y
1:T
)指完整的条件分布,W
p
和b
p
分别是GRU注意力网络和LSTM语言网络构成的模型的权重和偏差;偏差指的是每层网络计算过程中的偏置b;以交叉熵函数作为GRU注意力网络和LSTM语言网络构成的模型优化的损失函数:式中,p
θ
表示单词采样过程中的模型参数,指损失函数中的条件分布,其中的和均指代本模型中输入数据集描述的单词序列。4.根据权利要求3所述的一种基于GRU注意力的遥感影像区...

【专利技术属性】
技术研发人员:夏鲁瑞林郁李森陈雪旗张占月王鹏薛武
申请(专利权)人:中国人民解放军战略支援部队航天工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1