基于免疫深度强化学习的移动机器人自主导航方法技术

技术编号:30076930 阅读:24 留言:0更新日期:2021-09-18 08:32
本发明专利技术提出了基于免疫深度强化学习的移动机器人自主导航方法,该方法基于深度确定性策略梯度(DDPG)算法,并结合移动机器人的运动学分析、信息熵理论以及免疫优化理论来实现移动机器人的自主导航。首先通过Gazebo仿真平台搭建仿真实验环境,然后将移动机器人通过传感器获得的机器人周围环境的特征信息,将其输入到KAI

【技术实现步骤摘要】
基于免疫深度强化学习的移动机器人自主导航方法


[0001]本专利技术属于移动机器人领域,涉及动态、复杂且无环境地图信息的室内场景下的移动机器人自主导航算法。具体是结合移动机器人运动学分析、信息熵理论以及免疫优化算法对DDPG算法改进的一种自主导航方法(KAI

DDPG,DDPG algorithm based on immune optimization and kinematics analysis)。

技术介绍

[0002]随着科技的进步和社会的发展,移动机器人作为提高人们生活质量的载体,在医疗、军事、物流、航天等行业的应用日益广泛。导航技术作为移动机器人的基础能力,有着巨大的发展前景。大量成熟的经典导航技术能够很好地运用于静态的、简单的、已知的环境中。但如今,移动机器人被应用于各个领域中,经常会面临复杂的、动态的、陌生的环境,此时,传统的基于地图的导航方法就很难满足相关要求。为此,无地图自主导航方法应运而生。
[0003]在众多无地图自主导航方法中,深度强化学习因为同时具备深度学习的强大表征能力以及强化学习的强大决策能力,使得智能体拥有了更强的适应性,进而能够更好地处理复杂系统的感知和决策问题。近几年,大量国内外学者将深度强化学习算法应用于移动机器人无地图自主导航中,取得了一定的效果。
[0004]在众多深度强化学习算法中,DDPG算法能够稳定且高效地处理连续的控制任务,许多研究人员也将其用来解决移动机器人的导航问题,并通过大量的文章和实验证明可知,DDPG算法具有较好的导航效果。本专利技术在DDPG算法的基础上,提出了一种结合移动机器人的运动学分析、信息熵理论以及免疫优化的移动机器人自主导航方法(KAI

DDPG),取得了更好的导航效果。
[0005]KAI

DDPG算法避免了传统的基于地图的导航方法的建图过程,节约了大量的时间成本以及人力成本,并且相较于基于地图的导航方法来说,KAI

DDPG算法还拥有较强的适应现实中多变的动态环境和大型环境的能力。

技术实现思路

[0006]本专利技术提出了一种基于DDPG算法,并结合移动机器人的运动学分析、信息熵理论以及免疫优化的移动机器人实时、在线自主导航方法(KAI

DDPG)。相较于DDPG算法,KAI

DDPG算法具备更好的环境适应能力以及更高的学习训练效率,并且能够使得移动机器人获得更优秀的导航路径,具有一定的实际应用价值。
[0007]第一方面,本专利技术将DDPG算法应用于移动机器人自主导航时,由于其奖赏函数的设计没有结合移动机器人的运动学分析,进而会导致移动机器人的运动轨迹漂移、甚至陷入局部最优等问题,首先对移动机器人进行了运动学建模分析,并在此基础上结合了相关运动参数,提出了朝向角奖赏因子、线速度奖赏因子和安全性能奖赏因子,进一步将以上三个奖赏因子引入到了DDPG的奖赏函数中,此外,还引入多目标性能指标,将路径规划问题转
化为一个多目标优化问题,把朝向角、线速度和安全度作为评价指标,以达到优化移动机器人运动轨迹的目的。
[0008]第二方面,本专利技术在将朝向角奖赏因子、线速度奖赏因子和安全性能奖赏因子引入到DDPG的奖赏函数中的情况下,考虑到各奖赏因子对导航策略的影响程度不同,为了使这三个奖赏因子的值更合理,引入信息熵的相关理论,对各奖赏因子的影响系数进行调整,以使得奖赏函数能适应各种不同的环境,达到增强移动机器人泛化性的目的。
[0009]第三方面,本专利技术在结合移动机器人的运动学分析和信息熵理论对DDPG的奖赏函数进行改进的基础上,考虑到DDPG的“软更新”和“经验回放”机制会使得DDPG算法的训练时间变长,且其对优秀经验样本的利用效率不高的问题,进一步运用免疫算法对DDPG经验缓存池中经验组的奖赏值进行优化,以达到加快算法学习训练速度的目的。
[0010]本专利技术基于DDPG算法,并结合移动机器人的运动学分析、信息熵理论以及免疫优化,提出了KAI

DDPG算法,并在Gazebo仿真平台下搭建的简单、动态和复杂三种场景中,对KAI

DDPG算法进行网络模型的训练,进一步对训练好的模型进行测试,以验证KAI

DDPG算法的导航性能。
[0011]本专利技术通过将Gazebo仿真环境下训练好的网络模型导入真实移动机器人,并进一步测试真实移动机器人在模仿仿真环境而搭建的真实简单、动态和复杂环境下的导航性能,以验证本专利技术所提算法的有效性,进一步证明KAI

DDPG算法具有一定的实际应用价值。
附图说明
[0012]构成本专利技术创造的一部分的附图用来提供对本专利技术创造的进一步理解,本专利技术创造的示意性实施例及其说明用于解释本专利技术创造,并不构成对本专利技术创造的不当限定。在附图中:
[0013]图1为本专利技术创造实施例所述的深度强化学习基本架构示意图;
[0014]图2为本专利技术创造实施例所述的DDPG算法流程示意图;
[0015]图3为本专利技术创造实施例所述的基于DDPG算法的自主导航框架图;
[0016]图4为本专利技术创造实施例所述的移动机器人运动特性图;
[0017]图5为本专利技术创造实施例所述的移动机器人运动学模型Simulink仿真图;
[0018]图6为本专利技术创造实施例所述的KAI

DDPG算法框架图;
[0019]图7为本专利技术创造实施例所述的简单仿真场景下基于各导航算法的移动机器人运动轨迹图;
[0020]图8为本专利技术创造实施例所述的简单仿真场景下随迭代步数变化的DDPG和KA

DDPG的导航成功率曲线图;
[0021]图9为本专利技术创造实施例所述的简单仿真场景下随迭代步数变化的KA

DDPG和KAI

DDPG的平均奖赏值曲线图;
[0022]图10为本专利技术创造实施例所述的动态仿真场景下基于KA

DDPG算法的移动机器人运动轨迹图;
[0023]图11为本专利技术创造实施例所述的复杂仿真场景下基于各导航算法的移动机器人运动轨迹图;
[0024]图12为本专利技术创造实施例所述的复杂仿真场景下随迭代步数变化的DDPG和KA

DDPG的导航成功率曲线图;
[0025]图13为本专利技术创造实施例所述的复杂仿真场景下随迭代步数变化的KA

DDPG和KAI

DDPG的平均奖赏值曲线图;
[0026]图14为本专利技术创造实施例所述的简单真实场景下基于KAI

DDPG算法的移动机器人运动轨迹图;
[0027]图15为本专利技术创造实施例所述的动态真实场景下基于KAI

DDPG算法的移动机器人运动轨迹图;
[0028]图16为本专利技术创造本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于免疫深度强化学习的移动机器人自主导航方法,其特征在于,包括如下步骤:步骤一:对移动机器人进行运动学建模分析,并在获得的运动参数的基础上,提出朝向角奖赏因子、安全性能奖赏因子、线速度奖赏因子、障碍物动态奖赏因子和目标点动态奖赏因子,进一步将以上五个奖赏因子引入到深度确定性策略梯度(DDPG)算法的奖赏函数中,以使得奖赏函数的设计更加合理,达到优化移动机器人运动轨迹的目的;步骤二:在步骤一的基础上,考虑到朝向角奖赏因子、安全性能奖赏因子和线速度奖赏因子对导航策略的影响程度不同,为了使这三个奖赏因子的值更合理,引入信息熵的相关理论,对各奖赏因子的影响系数进行调整,以使得奖赏函数能适应各种不同的环境,达到增强移动机器人泛化性的目的;步骤三:在步骤一与步骤二的基础上,考虑到DDPG的“软更新”和“经验回放”机制会使得DDPG算法的训练时间变长,且其对优秀经验样本的利用效率不高的问题,进一步运用免疫算法对DDPG经验缓存池中经验组的奖赏值进行优化,以达到加快算法学习训练速度的目的。2.如权利要求1所述的基于免疫深度强化学习的移动机器人自主导航方法,其特征在于,步骤一中各奖赏因子的推导过程以及奖赏函数的最终表达式具体描述如下:朝向角奖赏因子用于判定移动机器人是否朝着目标点运动,定义为:其中,r
orientation
表示朝向角奖赏因子,θ
orientation
表示移动机器人朝向角的大小;线速度奖赏因子用于判定移动机器人的运动速度,定义为:r
velocity
=v
current
,其中,r
velocity
表示线速度奖赏因子,r
current
表示移动机器人线速度的大小;安全性能奖赏因子用于判定移动机器人的运动轨迹是否安全,定义为:r
safe
=d
obstacle

r
s
,其中,r
safe
表示安全性能奖赏因子,d
obstacle
表示移动机器人几何中心与障碍物的距离,r
s
表示移动机器人的安全半径;障碍物动态奖赏因子r
collide
用来衡量移动机器人是否与障碍物发生碰撞的情况,其值可根据具体情况动态设定;目标点动态奖赏因子r
goal
用来衡量移动机器人是否成功到达目标点的情况,其值可根据具体情况动态设定;深度确定性策略梯度(DDPG)算法的奖赏函数表示为:Re=σ(αr
orientation
+β(r
safe
+r
velocity
))+r
collide
+r
goal
,其中,σ为r
orientation
、r
safe
和r
velocity
在每一次完整导航任务中的缩放因子,其值可根据实验效果动态调整,以避免r
collide
和r
goal
在一些特定环境下,对奖赏函数的值影响过大,α表示r
orientation
的影响系数、β表示r
safe
和r
velocity
的影响系数。3.如权利要求1所述的基于免疫深度强化学习的移动机器人自主导航方法,其特征...

【专利技术属性】
技术研发人员:陈光柱严成良李杨
申请(专利权)人:成都理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1