当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于注意力的深度加速强化学习的目标定位方法技术

技术编号:21834200 阅读:22 留言:0更新日期:2019-08-10 18:34
本发明专利技术公开了一种基于注意力的深度加速强化学习的目标定位方法,包括以下步骤:步骤一,向模型内输入图像,所述模型分为两个子网络,分别是深度强化学习网络和注意力网络;步骤二,模型处理图像,分为四个阶段:第一阶段,是深度强化学习的训练阶段,在强化学习框架下,目标定位任务会被对应到三个要素中去,该基于注意力的深度加速强化学习的目标定位方法,在原有的深度强化学习框架下添加了注意力网络;这个方法将利用强化学习训练过程产生的数据来对注意力网络进行训练,以此得到注意力向量,在这里将深度强化学习网络DQN黑盒问题研究转换为注意力向量的白盒问题,同时可利用注意力机制优化DQN对位置定位过程的控制。

A Target Location Method Based on Attention-based Deep Accelerated Reinforcement Learning

【技术实现步骤摘要】
一种基于注意力的深度加速强化学习的目标定位方法
本专利技术涉及目标定位任务
,具体为一种基于注意力的深度加速强化学习的目标定位方法。
技术介绍
目标定位任务一般分解为位置和分类两个子问题,当前的主要模型是基于监督学习的模式下的,在深度学习网络技术的应用下,目标的特征描述性能上取得了重大突破,但在目标的位置的确定上仍然被当作回归问题进行处理。深度强化学习将目标的位置定位作为一个行为控制问题来进行处理,即操控被观察区域与目标区域进行重合来确定目标位置。与其它遵循某种原则来进行位置定位的方法相比,基于深度强化学习技术的目标定位方法具有更高的灵活性和高效性,其原理由于类人性更具可解释性。在样本分布复杂的情况下,基于深度强化学习技术的目标定位模型具有更好的泛化能力。但深度强化学习技术自身的特性在目标定位应用的稳定性上存在缺陷,所需的训练时间也较长,因此设计一种基于注意力的深度加速强化学习的目标定位方法是十分有必要的。
技术实现思路
本专利技术的目的在于提供一种基于注意力的深度加速强化学习的目标定位方法,以解决上述
技术介绍
中提出的问题。为了解决上述技术问题,本专利技术提供如下技术方案:一种基于注意力的深度加速强化学习的目标定位方法,包括以下步骤:步骤一,向模型内输入图像,所述模型分为两个子网络,分别是深度强化学习网络和注意力网络;步骤二,模型处理图像,分为四个阶段:1)第一阶段,是深度强化学习的训练阶段,在强化学习框架下,目标定位任务会被对应到三个要素中去,即状态State、动作Action、收益Reward,深度强化学习所需学习训练的就是控制行为的策略参数π;状态State由深度卷积神经网络CNNs对被观察区域进行编码生成向量o;动作Action包括了水平移动、垂直移动、缩放变化、横宽比例变化、位置确定;收益Reward用来衡量被观察区域b与目标实际区域g之间的相对关系;IoU(b,g)=area(b∩g)/area(b∪g),Reward被表示为Ra(s,s1)=sign(IoU(b1,g)-IoU(b,g));2)第二阶段,被观察区域反向传播到注意力网络,以训练注意力向量层的参数;3)第三阶段,通过Reward中满足阈值所训练后的注意力网络在测试图像中截取关注区域;4)第四阶段,关注区域被传送给深度强化学习网络以迅速锁定目标区域提升效率。根据上述技术方案,所述步骤一中,深度强化学习网络DQN是指在强化学习框架下,利用深度卷积神经网络对图像这种高维数据进行编码降维,提取图像特征。根据上述技术方案,所述步骤二1)中,在目标定位任务中,State代表了所观察区域的图像特征,Action代表了对所观察区域的形变的各种控制动作,Reward代表了观察区域与目标真实位置之间的相互关系。根据上述技术方案,所述步骤二1)中,控制策略π即对搜索行为进行控制的是两个全连接层的神经网络。根据上述技术方案,所述步骤二1)中,第一阶段采用有监督模式。根据上述技术方案,所述步骤二2)中,1)注意力网络首先利用深度卷积神经网络技术将图像转化为H×W×C尺寸的特征图;2)接着我们用通道描述子p来编码特征图中的空间信息,表达式为3)接下来为了我们利用这些描述信息组建注意力网络中的权重ai=σ(W2f(W1p));4)我们接下来将不同通道的注意力权重组建为注意力图这里的[tx;ty;ts]=fCNet(Mi),这里fCNet(·)代表了裁剪函数,将注意力图中的高关注度区域从输入图像中裁剪出来,为了端到端运算,我们将其处理为二维掩码的形式V(x;y)=Vx·Vy,Vx=f(x-tx+0:5ts)-f(x-tx-0:5ts),Vy=f(y-ty+0:5ts)-f(y-ty-0:5ts),其中f(x)=1/(1+exp(-kx)),而关注区域表示为x⊙Vi,其中x代表输入图像,i代表局部区域的索引。根据上述技术方案,所述bc表示在第C个通道上的特征;C代表通道数,c代表第C个通道;f(·)作为激活函数,ai为关联通道中某部分的权重;tx和ty代表了关注区域中心的横纵坐标,ts代表了关注区域的变长。与现有技术相比,本专利技术所达到的有益效果是:该基于注意力的深度加速强化学习的目标定位方法,在原有的深度强化学习框架下添加了注意力网络;这个方法将利用强化学习训练过程产生的数据来对注意力网络进行训练,以此得到注意力向量,在这里将深度强化学习网络DQN黑盒问题研究转换为注意力向量的白盒问题,同时可利用注意力机制优化DQN对位置定位过程的控制。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术的整体流程示意图;图中:1、全连接层;2、池化层;3、注意力向量层。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于注意力的深度加速强化学习的目标定位方法,包括以下步骤:步骤一,向模型内输入图像,模型分为两个子网络,分别是深度强化学习网络和注意力网络;步骤二,模型处理图像,分为四个阶段:1)第一阶段,是深度强化学习的训练阶段,在强化学习框架下,目标定位任务会被对应到三个要素中去,即状态State、动作Action、收益Reward,深度强化学习所需学习训练的就是控制行为的策略参数π;状态State由深度卷积神经网络CNNs对被观察区域进行编码生成向量o;动作Action包括了水平移动、垂直移动、缩放变化、横宽比例变化、位置确定;收益Reward用来衡量被观察区域b与目标实际区域g之间的相对关系;IoU(b,g)=area(b∩g)/area(b∪g),Reward被表示为Ra(s,s1)=sign(IoU(b1,g)-IoU(b,g));2)第二阶段,被观察区域反向传播到注意力网络,以训练注意力向量层的参数;3)第三阶段,通过Reward中满足阈值所训练后的注意力网络在测试图像中截取关注区域;4)第四阶段,关注区域被传送给深度强化学习网络以迅速锁定目标区域提升效率。根据上述技术方案,步骤一中,深度强化学习网络DQN是指在强化学习框架下,利用深度卷积神经网络对图像这种高维数据进行编码降维,提取图像特征。根据上述技术方案,步骤二1)中,在目标定位任务中,State代表了所观察区域的图像特征,Action代表了对所观察区域的形变的各种控制动作,Reward代表了观察区域与目标真实位置之间的相互关系。根据上述技术方案,步骤二1)中,控制策略π即对搜索行为进行控制的是两个全连接层的神经网络。根据上述技术方案,步骤二1)中,第一阶段采用有监督模式。根据上述技术方案,步骤二2)中,1)注意力网络首先利用深度卷积神经网络技术将图像转化为H×W×C尺寸的特征图;2)接着我们用通道描述子p来编码特征图中的空间信息,表达式为3)接下来为了我们利用这些描述信息组建注意力网络中的权重ai=σ(W2f(W1p));4)我们接下来将不同通道的本文档来自技高网...

【技术保护点】
1.一种基于注意力的深度加速强化学习的目标定位方法,包括以下步骤:其特征在于:步骤一,向模型内输入图像,所述模型分为两个子网络,分别是深度强化学习网络和注意力网络;步骤二,模型处理图像,分为四个阶段:1)第一阶段,是深度强化学习的训练阶段,在强化学习框架下,目标定位任务会被对应到三个要素中去,即状态State、动作Action、收益Reward,深度强化学习所需学习训练的就是控制行为的策略参数π;状态State由深度卷积神经网络CNNs对被观察区域进行编码生成向量o;动作Action包括了水平移动、垂直移动、缩放变化、横宽比例变化、位置确定;收益Reward用来衡量被观察区域b与目标实际区域g之间的相对关系;IoU(b,g)=area(b∩g)/area(b∪g),Reward被表示为Ra(s,s1)=sign(IoU(b1,g)‑IoU(b,g));2)第二阶段,被观察区域反向传播到注意力网络,以训练注意力向量层的参数;3)第三阶段,通过Reward中满足阈值所训练后的注意力网络在测试图像中截取关注区域;4)第四阶段,关注区域被传送给深度强化学习网络以迅速锁定目标区域提升效率。

【技术特征摘要】
1.一种基于注意力的深度加速强化学习的目标定位方法,包括以下步骤:其特征在于:步骤一,向模型内输入图像,所述模型分为两个子网络,分别是深度强化学习网络和注意力网络;步骤二,模型处理图像,分为四个阶段:1)第一阶段,是深度强化学习的训练阶段,在强化学习框架下,目标定位任务会被对应到三个要素中去,即状态State、动作Action、收益Reward,深度强化学习所需学习训练的就是控制行为的策略参数π;状态State由深度卷积神经网络CNNs对被观察区域进行编码生成向量o;动作Action包括了水平移动、垂直移动、缩放变化、横宽比例变化、位置确定;收益Reward用来衡量被观察区域b与目标实际区域g之间的相对关系;IoU(b,g)=area(b∩g)/area(b∪g),Reward被表示为Ra(s,s1)=sign(IoU(b1,g)-IoU(b,g));2)第二阶段,被观察区域反向传播到注意力网络,以训练注意力向量层的参数;3)第三阶段,通过Reward中满足阈值所训练后的注意力网络在测试图像中截取关注区域;4)第四阶段,关注区域被传送给深度强化学习网络以迅速锁定目标区域提升效率。2.根据权利要求1所述的一种基于注意力的深度加速强化学习的目标定位方法,其特征在于:所述步骤一中,深度强化学习网络DQN是指在强化学习框架下,利用深度卷积神经网络对图像这种高维数据进行编码降维,提取图像特征。3.根据权利要求1所述的一种基于注意力的深度加速强化学习的目标定位方法,其特征在于:所述步骤二1)中,在目标定位任务中,State代表了所观察区域的图像特征,Action代表了对所观察区域的形变的各种控制动作,Reward...

【专利技术属性】
技术研发人员:王光耀王生生刘家运
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1