【技术实现步骤摘要】
基于强化学习优化的机器人路径引导方法、设备及介质
[0001]本专利技术涉及机器人路径规划领域,特别涉及一种基于强化学习优化的机器人路径引导方法、装置、设备及介质。
技术介绍
[0002]路径规划是机器人应用的重要环节,也是机器人控制算法的重点和难点之一。路径规划的目标是为机器人规划由起始点至目标点的一系列包含时间信息的点集合。DMP(Dynamic Movement Primitives,动态运动原语)是一种专门用于路径规划的优秀算法,它可以少示教轨迹中学习运动知识,模拟末端在二阶动态系统的影响下,运动值目标点的过程。此外,DMP允许加入人工势场功能,以对已知形态和位置的障碍物进行躲避。
[0003]现有的DMP算法虽然可以加入人工势场躲避障碍物,但避障与轨迹学习是相互冲突的,若避障参数设置过大,则难以维持原有轨迹的形状,若专注贴合原有轨迹,则难以避开障碍物,算法的不确定性大幅提升。
技术实现思路
[0004]有鉴于此,本专利技术实施例中提供一种基于强化学习优化的机器人路径引导方法、装置、计算机设备
【技术保护点】
【技术特征摘要】
1.一种基于强化学习优化的机器人路径引导方法,其特征在于,包括:预先建立机器人的DMP轨迹规划和避障模型,所述DMP轨迹规划和避障模型的控制方程为:其中,K,D分别为二阶系统的刚度和弹性矩阵,x
g
是目标点,x0是起始点,f(t)是一组非线性的基函数且取值为高斯基函数,θ为参数向量;基于PI2算法对所述建立DMP轨迹规划和避障的模型的控制方程进行优化得到DMP轨迹规划和避障模型的目标控制方程:其中,DMP算法的控制律由两部分组成,第一部分为一个二阶动态系统和轨迹学习器,其控制目标是用一组非线性基函数拟合机器人的运动轨迹,实现轨迹规划功能,其关键参数是非线性函数的参数向量θ;第二部分为加速排斥项,其目标是控制路径点远离障碍物,其关键参数是强度因子λ,R是旋转矩阵,β和λ是两个常数,λ是势场强度因子且决定二维空间或者三维空间内排斥加速项的强度,所述PI2算法的公式为:间或者三维空间内排斥加速项的强度,所述PI2算法的公式为:是终端奖励,积分项是单步奖励,用于计算每个步骤中的决策对最终代价函数的影响;初始化DMP轨迹规划和避障的模型相关参数,随机生成K条动态运动DMP轨迹,根据代价函数确定每条轨迹的概率,将每条轨迹的概率与对应的噪声的乘积求和计算加速排斥项的增量,计算代价函数,并代价函数在收敛至预设阈值完成机器人路径引导。2.根据权利要求1所述的基于强化学习优化的机器人路径引导方法,其特征在于,所述基于PI2算法对所述建立DMP轨迹规划和避障的模型的控制方程进行优化得到DMP轨迹规划和避障模型的目标控制方程,包括:为了躲避已有障碍物,加入一个加速排斥项:所述DMP轨迹规划和避障模型的控制方程就被写作如下公式(3):通过简化最优控制的随机HJB方程,并将λR
‑1=∑
ε
代入式中,可以得出公式(5)通过对HJB方程的偏微分形式求解后依次得出(6)、(7)、(8);通过对HJB方程的偏微分形式求解后依次得出(6)、(7)、(8);
得出所述PI2算法的更新迭代公式为:所述DMP轨迹规划和避障模型的目标控制方程改写为公式(10):所述DMP轨迹规划和避障模型的相应任务设计成本函数为公式(11)3.根据权利要求2所述的基于强化学习优化的机器人路径引导方法,其特征在于,所述初始化DMP轨迹规划和避障的模型相关参数,随机生成K条动态运动DMP轨迹,根据代价函数确定每条轨迹的概率,将每条轨迹的概率与对应的噪声的乘积求和计算加速排斥项的增量,计算代价函数J,并代价函数J在收敛至预设阈值完成机器人路径引导,包括:S1、初始化算法相关参数,初始排斥项场强因子λ0、DMP初始轨迹学习参数向量θ0、常数β、终端奖励顺势奖励项噪声∑
θ
、噪声∑
λ
、高斯基函数每次更新的迭代步K,进入S2;S2、根据公式(10)以已有轨迹学习参数θ来随机生成K条轨...
【专利技术属性】
技术研发人员:李昂,盛展翊,李东月,霍琦,朱明超,徐振邦,
申请(专利权)人:中国科学院长春光学精密机械与物理研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。