【技术实现步骤摘要】
基于免疫深度强化学习的移动机器人自主导航方法
[0001]本专利技术属于移动机器人领域,涉及动态、复杂且无环境地图信息的室内场景下的移动机器人自主导航算法。具体是结合移动机器人运动学分析、信息熵理论以及免疫优化算法对DDPG算法改进的一种自主导航方法(KAI
‑
DDPG,DDPG algorithm based on immune optimization and kinematics analysis)。
技术介绍
[0002]随着科技的进步和社会的发展,移动机器人作为提高人们生活质量的载体,在医疗、军事、物流、航天等行业的应用日益广泛。导航技术作为移动机器人的基础能力,有着巨大的发展前景。大量成熟的经典导航技术能够很好地运用于静态的、简单的、已知的环境中。但如今,移动机器人被应用于各个领域中,经常会面临复杂的、动态的、陌生的环境,此时,传统的基于地图的导航方法就很难满足相关要求。为此,无地图自主导航方法应运而生。
[0003]在众多无地图自主导航方法中,深度强化学习因为同时具备深度学习的强大表征能力以及强化学习的强大决策能力,使得智能体拥有了更强的适应性,进而能够更好地处理复杂系统的感知和决策问题。近几年,大量国内外学者将深度强化学习算法应用于移动机器人无地图自主导航中,取得了一定的效果。
[0004]在众多深度强化学习算法中,DDPG算法能够稳定且高效地处理连续的控制任务,许多研究人员也将其用来解决移动机器人的导航问题,并通过大量的文章和实验证明可知,DDPG算法具有较好的导航 ...
【技术保护点】
【技术特征摘要】
1.基于免疫深度强化学习的移动机器人自主导航方法,其特征在于,包括如下步骤:步骤一:对移动机器人进行运动学建模分析,并在获得的运动参数的基础上,提出朝向角奖赏因子、安全性能奖赏因子、线速度奖赏因子、障碍物动态奖赏因子和目标点动态奖赏因子,进一步将以上五个奖赏因子引入到深度确定性策略梯度(DDPG)算法的奖赏函数中,以使得奖赏函数的设计更加合理,达到优化移动机器人运动轨迹的目的;步骤二:在步骤一的基础上,考虑到朝向角奖赏因子、安全性能奖赏因子和线速度奖赏因子对导航策略的影响程度不同,为了使这三个奖赏因子的值更合理,引入信息熵的相关理论,对各奖赏因子的影响系数进行调整,以使得奖赏函数能适应各种不同的环境,达到增强移动机器人泛化性的目的;步骤三:在步骤一与步骤二的基础上,考虑到DDPG的“软更新”和“经验回放”机制会使得DDPG算法的训练时间变长,且其对优秀经验样本的利用效率不高的问题,进一步运用免疫算法对DDPG经验缓存池中经验组的奖赏值进行优化,以达到加快算法学习训练速度的目的。2.如权利要求1所述的基于免疫深度强化学习的移动机器人自主导航方法,其特征在于,步骤一中各奖赏因子的推导过程以及奖赏函数的最终表达式具体描述如下:朝向角奖赏因子用于判定移动机器人是否朝着目标点运动,定义为:其中,r
orientation
表示朝向角奖赏因子,θ
orientation
表示移动机器人朝向角的大小;线速度奖赏因子用于判定移动机器人的运动速度,定义为:r
velocity
=v
current
,其中,r
velocity
表示线速度奖赏因子,r
current
表示移动机器人线速度的大小;安全性能奖赏因子用于判定移动机器人的运动轨迹是否安全,定义为:r
safe
=d
obstacle
‑
r
s
,其中,r
safe
表示安全性能奖赏因子,d
obstacle
表示移动机器人几何中心与障碍物的距离,r
s
表示移动机器人的安全半径;障碍物动态奖赏因子r
collide
用来衡量移动机器人是否与障碍物发生碰撞的情况,其值可根据具体情况动态设定;目标点动态奖赏因子r
goal
用来衡量移动机器人是否成功到达目标点的情况,其值可根据具体情况动态设定;深度确定性策略梯度(DDPG)算法的奖赏函数表示为:Re=σ(αr
orientation
+β(r
safe
+r
velocity
))+r
collide
+r
goal
,其中,σ为r
orientation
、r
safe
和r
velocity
在每一次完整导航任务中的缩放因子,其值可根据实验效果动态调整,以避免r
collide
和r
goal
在一些特定环境下,对奖赏函数的值影响过大,α表示r
orientation
的影响系数、β表示r
safe
和r
velocity
的影响系数。3.如权利要求1所述的基于免疫深度强化学习的移动机器人自主导航方法,其特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。