当前位置: 首页 > 专利查询>大连大学专利>正文

一种模糊控制与强化学习结合的移动机器人路径规划算法制造技术

技术编号:36929335 阅读:28 留言:0更新日期:2023-03-22 18:52
一种模糊逻辑与强化学习结合的移动机器人路径规划算法,属于机器人深度学习技术领域,模糊控制和直接控制器为DuelingDQN提供了大量的正样本,提高了DuelingDQN的训练速度,在多控制器的模式下,移动机器人避免了在训练初期做大量无意义的动作,并且避免了随之产生的大量负样本淹没了正样本的情况;训练结束后,DuelingDQN与改进模糊控制相结合的模型不会出现DuelingDQN模型抖动前进的情况。DuelingDQN与改进模糊控制相结合的模型在目标位置或移动机器人位置改变以及在场景与训练场景不同的情况下,模型具有很好的表现,说明了该方法在路径规划中的有效性。此外,实验证明了,DuelingDQN与改进模糊控制相结合的模型要比Dueling DQN模型的收敛速度快,稳定性强,路径质量好。路径质量好。路径质量好。

【技术实现步骤摘要】
一种模糊控制与强化学习结合的移动机器人路径规划算法


[0001]本专利技术属于机器人深度学习
,具体涉及一种模糊控制与强化学习结合的移动机器人路径规划算法。

技术介绍

[0002]路径规划通常分为全局路径规划和局部路径规划,全局路径规划是在已知全局地图信息的情况下,通过智能算法寻找一条无碰撞的可行路径,如人工蜂群算法,蚁群算法,概率路线图(PRM)等。人工蜂群算法通过各个个体的局部寻优行为,最终在群体中使全局最优值突现出来,有着较快的收敛速度。蚁群算法是一种启发式全局优化算法。PRM是基于可用空间和占用空间的地图内可能路径的网络图,通过评价指标,如距离,时间等来找到最优路径。局部规划是指移动机器人根据传感器所获得的信息对环境进行感知并找到一条无碰撞的路径,局部规划算法有人工势场法(APF),动态窗口法(DWA)等。人工势场法将移动机器人视为环境中的一个点,该点被目标引力和障碍物阻力的合力推动,从而找到一条安全路径。动态窗口法对某一时刻的速度与角速度采样,并推测出一段时间后移动机器人可能的运动轨迹,再对运动轨迹做出评价,执行评价最高的轨迹。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模糊控制与强化学习结合的移动机器人路径规划算法,其特征在于,通过模糊控制和Dueling DQN共同控制智能体的路径,在深度强化学习模型中,加入模糊控制器和直接控制器,所述两个控制器根据传感器的不同情况做出反应;所述智能体是一辆四轮驱动的小车,依靠左右轮的差速实现转向,同时配有5个激光传感器,每个传感器的检测距离最远为5m;训练开始后,环境将状态空间信息传递给模型,调度中心通过不同的阈值来划分状态空间信息,将其分为三种情况,每一种情况由一个控制器控制,简单情况由直接控制器控制,复杂情况由Dueling DQN控制,危险情况由模糊控制器控制;将所述三种情况产生的经验数据放入经验池中,在每次的训练中,通过模糊控制器和直接控制器减少智能体的碰撞,获取正样本;所述正样本是主线事件所对应的样本,以避免了在复杂环境下通过随机方式探索到主线事件的概率变得极小;Dueling DQN在训练初期获取若干正样本数量以提高收敛速度;在训练过程中,奖励函数引导移动机器人高效完成任务,路径规划的奖励函数是稀疏奖励,将稀疏奖励变为密集奖励,根据对任务的分析,将负反馈塑形奖励作为奖励函数。2.根据权利要求1所述的模糊控制与强化学习结合的移动机器人路径规划算法,其特征在于,在状态空间分析移动机器人的运动模型中,通过目标与移动机器人正向夹角让移动机器人找到正确的方向,通过目标与移动机器人的距离确定程度,通过传感器数据保证移动机器人躲避障碍物,所以状态空间具有7个特征:s={se1,se2,se3,se4,se5,θ
angle
,dis}
ꢀꢀꢀꢀ
(13)其中,se
i
,i=1,2,3,4,5,表示传感器数据,θ
angle
表示目标与移动机器人正向的夹角,dis表示移动机器人和目标两者之间的距离。3.根据权利要求1所述的模糊控制与强化学习结合的移动机器人路径规划算法,其特征在于,所述模糊控制器负责处理危险情况,当中间传感器的数据达到警戒阈值,移动机器人就由模糊控制器控制,其数据元组由中间三个传感器以及目标与移动机器人正向夹角所组成,即{se1,se2,se3,θ
angle
},当模糊控制获得该数据元组时,首先将数据预处理,即将se2‑
se3的值x传入模糊化模块,模糊化模块根据传入数据值的大小,将其分为不同的阶段,当数据值范围在

β≤x≤β时,将使用公式(1)计算隶属度,其中,θ
max
表示目标与移动机器人正向的夹角允许的最大偏差角度,β表示智能体在当前运动模型下的最大变向能力,α表示靠近最大变向能力的程度,θ表示当前时刻下目标与移动机器人正向的夹角。当数据值x在(

∞,

β)∪(β,+∞)范围时,将同过如下公式计算隶属度:最后得到三个隶属度值,其中第一个隶属度值代表向左转的倾向程度,第二个隶属度值代表向右转的倾向程度,第三个隶属度值代表由Dueling DQN控制器决定的倾向程度,然后将隶属度组传入解模糊模块,根据最大隶属度原则,选择隶属度最大的动作,并向移动机
器人发送动作指令。4.根据权利要求1所述的模糊控制与强化学习结合的移动机器人路径规划算法,其特征在于,所述直接控制器负责处理简单情况,即当周围没有障碍物和侧面将要发生碰撞的情况,根据接收到的数据元组,当传感器值se4或者se5小于警戒阈值时,直接控制器将向小车发送躲避指令,当传感器数值处于安全阈值内时,直接控制器将控制小车以最短路径向目标行驶。5.根据权利要求1所述的模糊控制与强化学习结合的移动机器人路径规划算法,其特征在于,所述深度强化学习通过与环境交互得到奖励值,直到一次迭代结束得到一个总奖励值,在一次迭代中,选择不同动作得到...

【专利技术属性】
技术研发人员:刘春玲郭楷文裴萌韶骆远翔程惠李想
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1