【技术实现步骤摘要】
主动目标定位方法、相关设备及存储介质
[0001]本专利技术涉及深度强化学习
,尤其涉及一种基于深度强化学习的主动目标定位方法、主动目标定位设备及计算机可读存储介质。
技术介绍
[0002]近年来深度强化学习技术发展迅速,基于深度强化学习的图像中的目标检测被越来越广泛的应用与生产生活中。
[0003]相关技术的深度强化学习局限于动作空间和样本空间都很小,且一般是离散的情境下。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。当输入的数据为图像或声音时,往往具有很高维度,相关技术的深度强化学习很难处理。其中,深度强化学习就是把深度学习对于的高维输入与强化学习结合起来。基于深度强化学习的图像中的目标检测具有以下两个方面缺点:第一方面,如果网络只从环境中连续发生的经验样本中学习,那么这些样本就会高度相关,导致学习效率低下;第二方面,通过计算整幅图像的特征图像(feature maps),然后生成每个候选框的裁剪图,而实验表明,重叠候选提议策略有更好的结果,但由于空间分辨率的损失,对裁剪后 ...
【技术保护点】
【技术特征摘要】
1.一种主动目标定位方法,其应用于VGG16网络;其特征在于,该方法包括如下步骤:步骤S1、将待处理图像输入预训练VGG16网络,以用于提取出所述待处理图像的特征,所述预训练VGG16网络为训练VGG16网络后获得的完成训练的VGG16网络;步骤S2、通过所述预训练VGG16网络并采用马尔可夫过程共同进行构建并生成第一模型,所述构建包括状态、动作和奖励;步骤S3、通过在所述第一模型中采用深度强化学习网络更新所述深度强化学习网络中的策略网络的权值,并生成第二模型;所述第二模型包括所述深度强化学习网络,更新所述策略网络的权值为所述每间隔预设的时间步将所述深度强化学习网络中的目标网络中的权值更新为所述策略网络的权值;步骤S4、设置所述第二模型的模型结构并生成第三模型;所述预训练VGG16网络包括13层卷积层、5层最大池化层以及3层全连接层;所述第三模型结构分别采用分层方法和动态方法将所述第二模型进行构建,所述分层方法为通过5层所述最大池化层中排列顺序中最后的一个所述最大池化层的输出与24维动作历史向量连接,所述动态方法为通过3层所述全连接层中排列顺序中第一个所述全连接层的输出与一个90维的动作历史向量连接;步骤S5、通过预设的数据集获得多个随机样本;步骤S6、采用多个所述随机样本训练所述第三模型。2.根据权利要求1所述的主动目标定位方法,其特征在于,所述步骤S2中,所述状态的包括当前区域和记忆向量,所述动作包括移动动作和终结动作。3.根据权利要求2所述的主动目标定位方法,其特征在于,所述马尔可夫过程中的交并比满足如下公式(1):其中,b为搜索框,g为参数,IoU为交并比函数;所述马尔可夫过程中的奖励函数满足如下公式(2)和公式(3):R...
【专利技术属性】
技术研发人员:杨海东,胡洋,李泽辉,杨标,
申请(专利权)人:佛山市南海区广工大数控装备协同创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。