一种基于深度强化学习的能量约束下多机探索方法及系统技术方案

技术编号:37202561 阅读:38 留言:0更新日期:2023-04-20 22:57
一种基于深度强化学习的能量约束下多机探索方法及系统,包括:基于预先构建的无人机的数学模型获取当前视图;对当前视图进行预处理后输入到CNN中进行特征提取,得到提取的特征;将提取的特征输入预先训练好的DDQN强化学习算法,得到无人机的动作;通过安全控制器判断无人机的动作是否可执行,确定无人机的动作;其中,无人机的数学模型是以最大化全局的探索效率为目标函数结合无人机运行约束、状态空间和奖励函数构建得到的;DDQN强化学习算法是采用目标网络和经历回放方法训练得到的;本发明专利技术提供了一种惩罚函数,能够使探索系统在保证较高探索效率的同时让系统获得较高的返航率,即无人机能够在完成探索任务的同时在能量耗尽前返回起飞降落区。耗尽前返回起飞降落区。耗尽前返回起飞降落区。

【技术实现步骤摘要】
一种基于深度强化学习的能量约束下多机探索方法及系统


[0001]本专利技术涉及多机器人协作系统领域,具体涉及一种基于深度强化学习的能量约束下多机探索方法及系统。

技术介绍

[0002]随着人工智能和自动化技术的发展,自主机器人广泛应用于被人类视为危险复杂的物理环境中。例如,在森林火灾的情况下,自主机器人可以搜索受难者,然后通过可靠地通信发送受害者的位置来协助营救;在真空环境中,自主机器人可以在火星等领域进行探索并且收集数据。这些应用推动了自主机器人环境探索任务的发展。环境探索任务需要部署单个机器人或机器人系统,以穿越未知环境。它是机器人许多任务的重要组成部分,如行星探测、侦察、救援、割草和清洁。在上述复杂的场景中,无人机以其小巧、敏捷、灵活的特点,备受学术界和工业界的关注。
[0003]环境探索任务是通过传感器对未知环境产生认知的过程,考虑效率、避障等因素。此类任务场景多是危险、恶劣、不适合人工执行的环境。在这样复杂的场景中,单个智能体受到电量限制导致效率较低,还存在单点失效的问题,即在单智能体故障的情况导致任务失败。而多智能体系统以高本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的能量约束下多机探索方法,其特征在于,包括:基于预先构建的无人机的数学模型获取当前视图;对所述当前视图进行预处理后输入到CNN中进行特征提取,得到提取的特征;将所述提取的特征输入预先训练好的DDQN强化学习算法,得到无人机的动作;通过安全控制器判断所述无人机的动作是否可执行,确定所述无人机的动作;其中,无人机的数学模型是以最大化全局的探索效率为目标函数结合无人机运行约束、状态空间和奖励函数构建得到的;DDQN强化学习算法是采用目标网络和经历回放方法训练得到的。2.根据权利要求1所述方法,其特征在于,所述无人机的数学模型的构建,包括:以最大化全局的探索效率为目标构建目标函数;基于无人机的运行参数构建无人机运行约束;基于无人机的所述目标函数设定状态空间和奖励函数;基于所述无人机运行约束、目标函数、状态空间和奖励函数确定无人机的数学模型;其中,所述无人机运行约束包括:每一个激活的无人机不能和其他的激活无人机在同一个位置以避免碰撞约束、无人机的剩余能量始终大于或等于0约束、保证无人机初始在起飞降落区约束和无人机是激活状态并且在高度h上约束。3.根据权利要求2所述方法,其特征在于,所述目标函数的计算式如下所示:式中,x
i
a
i
(t)为t时刻的联合动作,i为无人机编号,t为时刻,T为总时刻,G(t)为t时刻所获得的全局奖励。4.根据权利要求2所述方法,其特征在于,所述每一个激活的无人机不能和其他的激活无人机在同一个位置以避免碰撞约束的计算式如下所示:式中,P
i
(t)为t时刻第i架无人机的位置,P
j
(t)为t时刻第j架无人机的位置,φ
j
(t)为t时刻第j架无人机的操作状态,i为无人机编号,j为无人机编号,I为无人机编号集,t为时刻。5.根据权利要求2所述方法,其特征在于,所述避免无人机碰撞到障碍物约束的计算式如下所示:式中,P
i
(t)为t时刻第i架无人机的位置,B为障碍物位置集,i为无人机编号,I为无人机编号集,t为时刻。6.根据权利要求2所述方法,其特征在于,所述无人机的剩余能量始终大于或等于0约束的计算式如下所示:式中,b
i
(t)为t时刻第i架无人机的电池电量,i为无人机编号,I为无人机编号集,t为时刻。7.根据权利要求2所述方法,其特征在于,所述保证无人机初始在起飞降落区约束的计算式如下所示:
式中,P
i
(0)为第i架无人机在初始时刻的位置,L为起飞降落区,z
i
(0)为第i架无人机的初始时刻的高度,h为初始高度,i为无人机编号,I为无人机编号集。8.根据权利要求2所述方法,其特征在于,所述无人机是激活状态并且在高度h上约束的计算式如下所示:式中,φ
i
(0)为第i架无人机的初始状态,i为无人机编号,I为无人机编号集。9.根据权利要求2所述方法,其特征在于,所述状态空间的计算式如下所示:s(t)=(M,{p
i
(t)},{b
i
(t)},{φ
i
(t)})式中,S为状态空间,L为启动/着陆区,G为探测区,B为障碍,R
I
×3为所有智能体的位置,N
I
为剩余飞行时间,B
I
为操作状态,M∈B
|M|
×
|M|
×3为起飞降落区、障碍物区以及探索范围构成的矩阵向量,t为时刻,s(t)为t时刻的状态,P
i
(t)为t时刻第i架无人机的位置,b
i
(t)为t时刻第i架无人机的电池电量,φ
i
(t)为t时刻第i架无人机的操作状态。10.根据权利要求2所述方法,其特征在于,所述奖励函数的计算式如下所示:r
i
(t)=α(D
i
(t+1)

【专利技术属性】
技术研发人员:史殿习周雅婷杨焕焕张玉晖陈洋李彤月周晨磊胡浩萌
申请(专利权)人:天津滨海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1