一种基于注意力的深度加速强化学习的目标定位方法技术

技术编号：21834200 阅读：22 留言：0更新日期：2019-08-10 18:34

本发明专利技术公开了一种基于注意力的深度加速强化学习的目标定位方法，包括以下步骤：步骤一，向模型内输入图像，所述模型分为两个子网络，分别是深度强化学习网络和注意力网络；步骤二，模型处理图像，分为四个阶段：第一阶段，是深度强化学习的训练阶段，在强化学习框架下，目标定位任务会被对应到三个要素中去，该基于注意力的深度加速强化学习的目标定位方法，在原有的深度强化学习框架下添加了注意力网络；这个方法将利用强化学习训练过程产生的数据来对注意力网络进行训练，以此得到注意力向量，在这里将深度强化学习网络DQN黑盒问题研究转换为注意力向量的白盒问题，同时可利用注意力机制优化DQN对位置定位过程的控制。

A Target Location Method Based on Attention-based Deep Accelerated Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力的深度加速强化学习的目标定位方法
本专利技术涉及目标定位任务
，具体为一种基于注意力的深度加速强化学习的目标定位方法。
技术介绍
目标定位任务一般分解为位置和分类两个子问题，当前的主要模型是基于监督学习的模式下的，在深度学习网络技术的应用下，目标的特征描述性能上取得了重大突破，但在目标的位置的确定上仍然被当作回归问题进行处理。深度强化学习将目标的位置定位作为一个行为控制问题来进行处理，即操控被观察区域与目标区域进行重合来确定目标位置。与其它遵循某种原则来进行位置定位的方法相比，基于深度强化学习技术的目标定位方法具有更高的灵活性和高效性，其原理由于类人性更具可解释性。在样本分布复杂的情况下，基于深度强化学习技术的目标定位模型具有更好的泛化能力。但深度强化学习技术自身的特性在目标定位应用的稳定性上存在缺陷，所需的训练时间也较长，因此设计一种基于注意力的深度加速强化学习的目标定位方法是十分有必要的。
技术实现思路
本专利技术的目的在于提供一种基于注意力的深度加速强化学习的目标定位方法，以解决上述
技术介绍
中提出的问题。为了解决上述技术问题，本专利技术提供如下技术方案：一种基于注意力的深度加速强化学习的目标定位方法，包括以下步骤：步骤一，向模型内输入图像，所述模型分为两个子网络，分别是深度强化学习网络和注意力网络；步骤二，模型处理图像，分为四个阶段：1)第一阶段，是深度强化学习的训练阶段，在强化学习框架下，目标定位任务会被对应到三个要素中去，即状态State、动作Action、收益Reward，深度强化学习所需学习训练的就是控制行为的策略参数π；状态...

【技术保护点】
1.一种基于注意力的深度加速强化学习的目标定位方法，包括以下步骤：其特征在于：步骤一，向模型内输入图像，所述模型分为两个子网络，分别是深度强化学习网络和注意力网络；步骤二，模型处理图像，分为四个阶段：1)第一阶段，是深度强化学习的训练阶段，在强化学习框架下，目标定位任务会被对应到三个要素中去，即状态State、动作Action、收益Reward，深度强化学习所需学习训练的就是控制行为的策略参数π；状态State由深度卷积神经网络CNNs对被观察区域进行编码生成向量o；动作Action包括了水平移动、垂直移动、缩放变化、横宽比例变化、位置确定；收益Reward用来衡量被观察区域b与目标实际区域g之间的相对关系；IoU(b，g)＝area(b∩g)/area(b∪g)，Reward被表示为Ra(s，s1)＝sign(IoU(b1，g)‑IoU(b，g))；2)第二阶段，被观察区域反向传播到注意力网络，以训练注意力向量层的参数；3)第三阶段，通过Reward中满足阈值所训练后的注意力网络在测试图像中截取关注区域；4)第四阶段，关注区域被传送给深度强化学习网络以迅速锁定目标区域提升效率。

【技术特征摘要】
1.一种基于注意力的深度加速强化学习的目标定位方法，包括以下步骤：其特征在于：步骤一，向模型内输入图像，所述模型分为两个子网络，分别是深度强化学习网络和注意力网络；步骤二，模型处理图像，分为四个阶段：1)第一阶段，是深度强化学习的训练阶段，在强化学习框架下，目标定位任务会被对应到三个要素中去，即状态State、动作Action、收益Reward，深度强化学习所需学习训练的就是控制行为的策略参数π；状态State由深度卷积神经网络CNNs对被观察区域进行编码生成向量o；动作Action包括了水平移动、垂直移动、缩放变化、横宽比例变化、位置确定；收益Reward用来衡量被观察区域b与目标实际区域g之间的相对关系；IoU(b，g)＝area(b∩g)/area(b∪g)，Reward被表示为Ra(s，s1)＝sign(IoU(b1，g)-IoU(b，g))；2)第二阶段，被观察区域反向传播到注意力网络，以训练注意力向量层的参数；3)第三阶段，通过Reward中满足阈值所训练后的注意力网络在测试图像中截取关注区域；4)第四阶段，关注区域被传送给深度强化学习网络以迅速锁定目标区域提升效率。2.根据权利要求1所述的一种基于注意力的深度加速强化学习的目标定位方法，其特征在于：所述步骤一中，深度强化学习网络DQN是指在强化学习框架下，利用深度卷积神经网络对图像这种高维数据进行编码降维，提取图像特征。3.根据权利要求1所述的一种基于注意力的深度加速强化学习的目标定位方法，其特征在于：所述步骤二1)中，在目标定位任务中，State代表了所观察区域的图像特征，Action代表了对所观察区域的形变的各种控制动作，Reward...

【专利技术属性】
技术研发人员：王光耀，王生生，刘家运，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林,22

全部详细技术资料下载我是这个专利的主人