【技术实现步骤摘要】
无人艇避障模块训练方法及训练装置、未知区域探索方法
[0001]本专利技术属于人工智能
,更具体地,涉及一种无人艇避障模块训练方法及训练装置、未知区域探索方法。
技术介绍
[0002]随着当前经济的飞速发展,海上越来越多的未知区域需要被探测,或者海上在发生灾难的时候需要紧急救援。然而由于未知区域未被探索,充满着各种各样可能的危险,甚至一些未知区域或救援区域并不适合人类前往。
[0003]当前,许多基于深度强化学习的算法用于未知区域探索领域的研究。在深度强化学习领域,PPO、DDPG等深度强化学习算法被广泛应用于未知区域探测的领域中。对于利用无人艇进行未知区域的探索,最重要的是需要智能避开障碍物,但是,当前的这些算法普遍存在着避障精度不高的问题。
技术实现思路
[0004]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种无人艇避障模块训练方法及训练装置、未知区域探索方法,其目的在于提高无人艇进行未知区域探索时的避障精度。
[0005]为实现上述目的,按照本专利技术的一个方面,提供了一种无人艇避障模块训练方法,所述无人艇避障模块具有TD3智能体,所述训练方法包括:
[0006]步骤S1:初始化智能体各网络、环境的观测状态和智能体的初始动作;
[0007]步骤S2:获取智能体在当前观测状态s
i
下执行当前动作a
i
后环境反馈的下一时刻的观测状态s
i
'和奖励r
i
,以(s
i
【技术保护点】
【技术特征摘要】
1.一种无人艇避障模块训练方法,其特征在于,所述无人艇避障模块具有TD3算法的智能体,所述训练方法包括:步骤S1:初始化智能体各网络、环境的观测状态和智能体的初始动作;步骤S2:获取智能体在当前观测状态s
i
下执行当前动作a
i
后环境反馈的下一时刻的观测状态s
i
'和奖励r
i
,以(s
i
,a
i
,r
i
,s
i
')作为当前样本存入经验缓存,其中,奖励r
i
包含反应无人艇当前位置距离目标位置的距离奖励以及与障碍物之间安全程度的安全性奖励;步骤S3:当所述经验缓存中存入预设数量的样本后,计算每个样本的样本权重,所述样本权重是与critic网络的残差平方和actor网络的损失绝对值之和成正比;步骤S4:根据样本权重抽取若干样本对智能体进行训练以更新智能体各网络参数,其中,样本权重越大、被抽取的概率越大。2.如权利要求1所述的无人艇避障模块训练方法,其特征在于,还包括:步骤S5:判断内循环次数是否满足要求,若否,则重新初始化智能体的初始动作后跳转至步骤S2以执行步骤S2至步骤S5的内循环直至内循环次数达到第一预设值后退出内循环;步骤S6:判断外循环次数是否满足要求,若否,重新初始化环境的观测状态和智能体的初始动作后跳转至步骤S2以执行步骤S2至步骤S6的外循环直至外循环次数达到第二预设值后退出外循环。3.如权利要求1所述的无人艇避障模块训练方法,其特征在于,奖励r
i
还包含角速度奖励、线速度奖励、时间奖励中的任一种或多种;其中,所述角速度奖励反应无人艇当前角速度大小;所述线速度奖励反应无人艇当前线速度大小;所述时间奖励反应无人艇到达目标位置所花时间长度。4.如权利要求1所述的无人艇避障模块训练方法,其特征在于,每个样本的样本权重的计算公式为:其中,p
i
表示归一化前的概率,δ
i
表示任一critic网络的残差,表示在智能体两个critic网络的残差平方中取较大值,表示actor网络的损失,其中,Q(s
i
,a
i
|θ
Q
)表示为在当前观测状态s
i
下actor网络执行当前动作a
i
后任一critic网络输出的Q值,θ
Q
为critic网络当前的网络参数,表示梯度算子,表示在智能体actor网络的两个损失绝对值中取较大者,η为用于平衡为残差和损失之间数量级的权重经验参数,τ
p
和α分别为根据实验确定的补充概率和平衡因子,τ
p
为小于0.3的正数,α为小于1的正数,k表示当前经验缓存中样本的个数,P(i)表示进行归一化后的样本权重。5.如权利要求1所述的无人艇避障模块训练方法,其特征在于,任一critic网络的残差δ
i
的计算公式为:δ
i
=r
i
+γQ(s
i
',a
i
'|θ
Q
')
‑
Q(s
i
,a
i
|θ
Q
)
其中,γ表示衰减因子且取值范围为0.96~0.99,Q(s
i
',a
i
'|θ
Q
')为在观测状态s
i
'下actor目标网络执行动作a
i
'后对应critic目标网络输出的Q值,θ
Q
'为critic目标网络当前的网络参数;Q(s
i
,a
i
|θ
Q...
【专利技术属性】
技术研发人员:张海涛,邹家喻,孙思卿,丁佳宁,梁诗亚,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。