基于D3QN的无人船自适应路径规划方法、设备及存储介质技术

技术编号:28468233 阅读:93 留言:0更新日期:2021-05-15 21:35
本发明专利技术属于无人船路径规划领域,通过学习的方式使无人船进行自适应的路径规划。主要包括:构建无人船模型,将无人船放在仿真环境下航行;无人船按照行为空间的行为随机探索;通过无人船的深度相机获取环境图像信息,通过定位系统获取无人船位置信息,将探索得到的数据存放到优先经验回放池;将回放池的数据提取进行D3QN网络的训练;将训练好的网络模型加载到实际无人船中,进行真实环境路径规划。本发明专利技术可以在不需要先验信息的情况下,使路径规划精度高,碰撞率小,无人船的自适应能力强。无人船的自适应能力强。无人船的自适应能力强。

【技术实现步骤摘要】
基于D3QN的无人船自适应路径规划方法、设备及存储介质


[0001]本专利技术涉及无人船路径规划
,尤其涉及一种基于D3QN的无人船自适应路径规划方法、设备及存储介质。

技术介绍

[0002]随着人工智能时代的兴起,无人船技术得到广泛的发展。我国存在着很多海洋环境恶劣的区域,而国内的无人船对环境的自适应能力又较差,又存在各种外界干扰因素,使得国内的无人船技术还远远没有达到预期的要求,迫切的需要一种自适应能力强的,能够应对突发情况的路径规划算法来突破当前的瓶颈。
[0003]传统的无人船路径规划方法的设计原则是根据先验的地图,来规划出一条最优化的无障碍路径,无人船只用遵从算法的指令形式,一旦环境发生变化则算法不能给出最佳的指引。传统的方法在简单的环境中能够有较高的稳定性。但是在未来的研究中,人类会探测越来越复杂的深海,其中将会存在复杂的动静态障碍物和险恶的环境,环境会突然发生变化,在没有预先的探测地图情况下,无人船只有拥有自适应的自主决策系统,才能适应环境的变化。
[0004]为了提高无人船的自适应能力,这就需要无人船控制系统对无人船的空间信息和周围环境的状态具有良好的认知能力和辨识能力。根据目前已有的文献研究,如遗传算法、蚁群算法和A*算法,虽然能够得到收敛,在简单环境下得到较好效果,但是在遇到突发情况时,没有能够及时处理的自适应能力,在强干扰情况下,会大大影响路径规划效果,甚至发生碰撞,产生严重后果。

技术实现思路

[0005]本专利技术要解决的问题是,克服现有技术的不足,当发生突发状况时,路径规划算法能够进行及时的处理,具有良好的自适应能力。提出一种基于D3QN的无人船自适应路径规划方法,使无人船能及时避碰,安全系数高。
[0006]为了实现上述目的,本专利技术提供的基于D3QN的无人船自适应路径规划方法,包括以下步骤:
[0007]S1、构建无人船模型和水下仿真环境,设计D3QN网络,将所述无人船模型放在所述水下仿真环境下自主航行;
[0008]S2、从当前状态S根据ε

贪婪算法选择行为A;
[0009]S3、根据所述行为A采用PID位置和速度误差控制算法使无人船到达下一个状态S

,获取下一个状态S

处与障碍物之间的第一位置关系,并获取下一个状态S

处与终点之间的第二位置关系,根据所述第一位置关系和所述第二位置关系利用奖惩机制得到回报R;
[0010]S4、获取当前状态S的环境信息和位置信息,合并为当前状态数据s,获取下一个状态S

的环境信息和位置信息,合并为下一个状态数据s

,将当前状态数据s、行为A、下一个状态数据s

和回报R以数组D的形式存放到优先经验回放池中,并通过TD

error(用时序差
分法计算得到的当前状态函数值与目标值函数的差值)计算得到优先经验回放池中数组D的采样概率;
[0011]S5、根据所述采样概率将所述经验回放池中的数组D提取到D3QN网络,进行D3QN网络的梯度下降误差训练,并判断是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S

作为当前状态S,返回步骤S2;
[0012]S6、将所述训练的无人船自适应路径规划模型导入到无人船路径规划系统,进行真实环境的无人船路径规划,并获得无人船路径。
[0013]进一步地,所述构建无人船模型和水下仿真环境,设计D3QN网络的步骤包括:
[0014]通过ROS和Gazebo搭建所述无人船模型和所述水下仿真环境;
[0015]通过LSTM网络、卷积神经网络和对抗性的全连接网络分别构成主网络和目标网络;
[0016]通过所述主网络、所述目标网络和经验回放池构成所述D3QN网络。
[0017]进一步地,所述无人船模型上设置深度相机和定位系统;
[0018]所述深度相机用于获取当前环境信息;
[0019]所述定位系统用于获取无人船的位置信息。
[0020]进一步地,步骤S5具体包括:
[0021]将整个所述优先经验回放池的空间按最小样本量M分为M个小范围;
[0022]在每个所述小范围内根据所述采样概率随机提取一个样本数据;
[0023]根据所述样本数据得到当前状态数据s和下一个状态数据s


[0024]通过所述主网络的卷积神经网络处理所述当前状态数据s中的环境信息,得到第一环境信息;
[0025]通过所述主网络的LSTM网络处理所述当前状态数据s中的位置信息,得到第一位置信息;
[0026]将所述第一环境信息和所述第一位置信息结合并输入到所述主网络中的对抗性全连接网络中,得到所述主网络的输出Q;
[0027]通过所述目标网络的卷积神经网络处理下一个状态数据s

中的环境信息,得到第二环境信息;
[0028]通过所述目标网络的LSTM网络处理下一个状态数据s

中的位置信息,得到第二位置信息;
[0029]将所述第二环境信息和所述第二位置信息结合并输入到所述目标网络中的对抗性全连接网络中,得到所述目标网络的输出Q1;
[0030]根据所述Q1和所述Q计算得到目标输出Qt;
[0031]根据所述Q和所述Qt计算得到误差函数;
[0032]基于所述误差函数采用梯度下降方法训练所述D3QN网络,判断误差函数是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S

作为当前状态S,返回步骤S2,重新训练。
[0033]进一步地,所述ε

贪婪算法为:
[0034][0035]其中,ε∈(0,1),Step为训练步数,ε被设置为衰减函数类型,贪婪算法以ε的概率随机从行为空间选择行为,以1

ε的概率选择得到所述主网络的输出Q最大的行为。
[0036]进一步地,所述奖惩机制为:
[0037][0038]其中,R为回报,do表示当前状态S无人船与终点的距离,dt表示下一个状态S

无人船与终点的距离。
[0039]进一步地,所述PID位置和速度误差控制算法为:
[0040]Ep=[P(x

,y

,z

)

P(x,y,z),O(r

,p

,y

)

O(r,p,y)][0041]Ev=[v(x

,y

,z

)

v(x,y,z),ω(x

,y

...

【技术保护点】

【技术特征摘要】
1.一种基于D3QN的无人船自适应路径规划方法,其特征在于,所述无人船自适应路径规划方法包括以下步骤:S1、构建无人船模型和水下仿真环境,设计D3QN网络,将所述无人船模型放在所述水下仿真环境下自主航行;S2、从当前状态S根据ε

贪婪算法选择行为A;S3、根据所述行为A采用PID位置和速度误差控制算法使无人船到达下一个状态S

,获取下一个状态S

处与障碍物的第一位置关系,获取下一个状态S

处与终点的第二位置关系,根据所述第一位置关系和所述第二位置关系利用奖惩机制得到回报R;S4、获取当前状态S的环境信息和位置信息,合并为当前状态数据s,获取下一个状态S

的环境信息和位置信息,合并为下一个状态数据s

,将当前状态数据s、行为A、下一个状态数据s

和回报R以数组D的形式存放到优先经验回放池中,并通过TD

error计算得到优先经验回放池中数组D的采样概率;S5、根据所述采样概率将所述经验回放池中的数组D提取到D3QN网络,进行D3QN网络的梯度下降误差训练,并判断是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S

作为当前状态S,返回步骤S2;S6、将所述训练的无人船自适应路径规划模型导入到无人船路径规划系统,进行真实环境的无人船路径规划,并获得无人船路径。2.根据权利要求1所述的无人船自适应路径规划方法,其特征在于,所述构建无人船模型和水下仿真环境,设计D3QN网络的步骤包括:通过ROS和Gazebo搭建所述无人船模型和所述水下仿真环境;通过LSTM网络、卷积神经网络和对抗性的全连接网络分别构成主网络和目标网络;通过所述主网络、所述目标网络和经验回放池构成所述D3QN网络。3.根据权利要求1所述的无人船自适应路径规划方法,其特征在于,所述无人船模型上设置深度相机和定位系统;所述深度相机用于获取当前环境信息;所述定位系统用于获取无人船的位置信息。4.根据权利2要求所述的无人船自适应路径规划方法,其特征在于,所述步骤S5具体包括:将整个所述优先经验回放池的空间按最小样本量M分为M个小范围;在每个所述小范围内根据所述采样概率随机提取一个样本数据;根据所述样本数据得到当前状态数据s和下一个状态数据s

;通过所述主网络和所述目标网络分别处理所述当前状态数据s和下一个状态数据s

,得到所述主网络的输出Q和所述目标网络的输出Q1;根据所述Q1和所述Q计算得到目标输出Qt;根据所述Q和所述Qt计算得到误差函数;基于所述误差函数采用梯度下降方法训练所述D3QN网络,判断误差函数是否满足终止条件,若满足,获得训练的无人船自适应路径规划模型,并执行步骤S6,否则,将下一个状态S

作为当前状态S,返回步骤S2,重新训练。5.根据权利要求4所述的无人船自适应路径规划方法,其特征在于,所述通过所述主网
络和所述目标网络分别处理所述当前状态数据s和下一个状态数据s

,得到所述主网络的输出Q和所述目标网络的输出Q1的步骤包括:通过所述主网络的卷积神经网络处理所述当前状态数据s中的环境信息,得到第一环境信息;通过所述主网络的LSTM网络处理所述当前...

【专利技术属性】
技术研发人员:刘峰胡潇文陈畅杨茜
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1