一种基于模仿学习的机器人避障轨迹规划方法及机器人技术

技术编号:25744179 阅读:28 留言:0更新日期:2020-09-25 20:56
本发明专利技术涉及机器人运动规划领域,公开了一种基于模仿学习的机器人避障轨迹规划方法及机器人。该方法包括构建训练数据集,建立预测路径点的神经网络,训练神经网络,生成避障轨迹。本发明专利技术能够以学习示教轨迹的方式,达到在未获知完整障碍物信息的情形下,对机器人的避障轨迹进行规划的目的。

【技术实现步骤摘要】
一种基于模仿学习的机器人避障轨迹规划方法及机器人
本专利技术涉及机器人运动轨迹规划领域,具体地,涉及一种基于模仿学习的机器人避障轨迹规划方法及机器人。
技术介绍
通常而言,人们希望机器人能够完成一些人类日常操作,如拾物、倒水、开门等。在进行这些操作的过程中,机器人需要具备避开障碍物到达目标位置的能力。为了实现这一目标,对机器人的运动规划方法进行研究是必要的。一般来说,人类的生活环境复杂多变,传统的规划方法要求已知完整的障碍物信息,因而无法满足需求。近年来,随着计算机科学技术的发展,机器学习方法在各个领域均得到了广泛的应用。其中,强化学习赋予了机器人一定的自主学习能力,所以受到了研究人员的密切关注。然而,强化学习方法通常需要进行大量的试错,这在机器人领域是难以实现的。
技术实现思路
本专利技术的目的是提供一种基于模仿学习的机器人避障轨迹规划方法及机器人,提出了基于深度学习和模仿学习的规划策略,以其能在提升泛化性的同时,让机器人更有效地学习人类的行为。为了实现上述目的,在一方面,本专利技术提供了一种基于模仿学习的机器人避障轨迹规划方法,其应用于由机器人、障碍物、目标点的任务场景中,所述方法包括:构建训练数据集;构建用于预测路径点的神经网络;以负对数似然函数作为输出项的损失函数,利用所述训练数据集对所述神经网络进行训练,并保存网络参数;利用训练好的所述神经网络逐个预测路径点以得到完整的路径,对路径进行路径参数化从而生成避障轨迹。优选地,所述构建训练数据集包括:通过人工示教或传统规划方法在所述任务场景中获取所述机器人避障运动轨迹以及障碍物的相关信息并作为所述训练数据集。优选地,所述构建用于预测路径点的神经网络包括:确定所述神经网络的输入、输出和主体结构;确定所述输出层的激活函数,所述激活函数的混合系数项、均值项和方差项的损失函数分别为softmax、linear以及softplus;提升网络性能及训练稳定性。优选地,所述确定所述神经网络的输入、输出和主体结构包括:主体结构是以Nd个全连接层和Mc个长短时记忆网络层为隐层,以两个基于高斯混合模型的混合密度网络层作为输出层,其中,为第Mc个长短时记忆网络层;Nd≥0,Mc≥1;以当前时刻机器人的位形、目标点的位姿以及障碍物的信息相关作为所述神经网络的输入;以目标位形作为一个混合密度网络层的输出,以下一时刻机器人的位形作为另一个混合密度网络层的输出。优选地,还包括神经网络对输入信息的加工过程:将当前时刻机器人的位形、目标点的位姿以及障碍物的相关信息分别传递给三组N1个全连接层,相应的N1个全连接层对所接收到数据进行处理,得到相应的三个特征向量并串联为一个特征向量集合V1;将所述特征向量集合V1传递给N2个全连接层进行处理后,得到特征向量集合V2;将所述特征向量集合V2分别输入到两组长短时记忆网络层,得到特征向量并分别输入到两个所述混合密度网络层中。优选地,所述提升网络性能及训练稳定性包括:获取所述长短时记忆网络层的层数Mc,若Mc≥2,则引入跳跃连接,即将第一个长短时记忆网络层LSTM1的输入同时作为下一长短时记忆网络层的输出,并且将Mc个长短时记忆网络的输出串联起来作为时序层的总输出;对所有所述隐层使用Dropout方法进行处理;设置输出处理层以应对数值下溢问题:式(1)中,K为混合概率模型的分量数目,αk表示第k个高斯分量的混合系数,表示第k个高斯分量的方差,eπ、eσ分别为αk和上设置的最小值。优选地,所述损失函数的总损失为:Ltotal=αinv*Linv+αnxt*Lnxt(2)式(2)中Linv、Lnxt分别表示针对目标位形和下一时刻期望位形计算得出的损失项,αinv、αnxt则分别为这些损失项所对应的加权系数。优选地,所述生成避障轨迹包括:设置时刻t=0,路径点集合随机采样次数v=0,获取机器人初始位形信息,记为qinit,并设置当前位形qt=qinit;判断当前轨迹规划次数是否小于指定次数,若当前轨迹规划次数小于指定次数,则判断当前已规划的路径点数量是否小于或等于指定的最大值,若当前轨迹规划次数大于指定的最大值,则结束规划,并声明轨迹规划失败;若当前已规划的路径点数量小于或等于指定的最大值,则以当前时刻所述机器人的位形qt、所述目标点的位姿ptarg以及所述障碍物的相关信息oinfo作为t时刻的输入,利用所述神经网络输出对应的高斯混合模型,所述高斯混合模型的参数包括混合系数αt、均值μt以及方差σ2t:[αt,μt,σ2t]=f(qt,ptarg,oinfo)(3)式(3)中,f为训练好的所述神经网络;基于当前的随机采样次数v,利用所述高斯混合模型获取所述机器人下一时刻的期望位形qt+1;通过运动学正解计算t+1时刻的位形qt+1对应的位姿pt+1,并且检测pt+1与ptarg之间的距离是否小于指定阈值r;若pt+1与ptarg之间的距离小于指定阈值r,则中止路径点预测,将集合W中的路径点按序组成路径,并判断路径是否满足要求,若满足要求,则对所述路径进行参数化,进而得到所述避障轨迹,同时,声明轨迹规划成功;若不满足要求,设置t=0,v=v+V,并重新判断当前轨迹规划次数是否小于指定次数,其中V为预先指定的多次规划时随机采样次数的增量;若pt+1与ptarg之间的距离大于或等于指定阈值r,则设置t+1→t,重新判断当前已规划的路径点数量是否小于或等于指定的最大值;若当前已规划的路径点数量大于指定的最大值,将集合W中的路径点按序组成路径,并判断路径是否满足要求,若满足要求,则对所述路径进行参数化,进而得到所述避障轨迹,同时,声明轨迹规划成功;若不满足要求,设置t=0,v=v+V,并重新判断当前轨迹规划次数是否小于指定次数,其中V为预先指定的多次规划时随机采样次数的增量。优选的,所述获取机器人下一时刻的期望位形qt+1包括:获取混合系数向量αt各分量中的最大值αmax;设置阈值αth=C*αmax,其中C为指定的因子,0≤C≤1;将所有混合系数大于αth的高斯分量添加到备选集合Z中;在所述集合Z中选择均值与qt之间具有最小改变量的高斯分量G;检测t是否小于随机采样次数v,若t小于随机采样次数v,则从所述高斯分量G中随机采样得到qt+1,若t大于或等于随机采样次数v直接以G的均值作为qt+1。在另一方面,专利技术提供了一种机器人,包括控制器,所述控制器用于执行上述任意一种基于模仿学习的机器人避障轨迹规划方法。本专利技术采用了深度学习和模仿学习,充分结合了深度学习在特征表示方面的优势以及模仿学习在机器人仿人操作问题上的有效性,直接以学习的方式让机器人学会避障操作。这种方法借助深度神经网络的泛化能力对未知环境进行泛化,从而降低了算法对场景完本文档来自技高网...

【技术保护点】
1.一种基于模仿学习的机器人避障轨迹规划方法,其应用于由机器人、障碍物、目标点的任务场景中,其特征在于,所述方法包括:/n构建训练数据集;/n构建用于预测路径点的神经网络;/n以负对数似然函数作为输出项的损失函数,利用所述训练数据集对所述神经网络进行训练,并保存网络参数;/n利用训练好的所述神经网络逐个预测路径点以得到完整的路径,对路径进行路径参数化从而生成避障轨迹。/n

【技术特征摘要】
1.一种基于模仿学习的机器人避障轨迹规划方法,其应用于由机器人、障碍物、目标点的任务场景中,其特征在于,所述方法包括:
构建训练数据集;
构建用于预测路径点的神经网络;
以负对数似然函数作为输出项的损失函数,利用所述训练数据集对所述神经网络进行训练,并保存网络参数;
利用训练好的所述神经网络逐个预测路径点以得到完整的路径,对路径进行路径参数化从而生成避障轨迹。


2.根据权利要求1所述的基于模仿学习的机器人避障轨迹规划方法,其特征在于,所述构建训练数据集包括:
通过人工示教或传统规划方法在所述任务场景中获取所述机器人避障运动轨迹以及障碍物的相关信息并作为所述训练数据集。


3.根据权利要求1所述的基于模仿学习的机器人避障轨迹规划方法,其特征在于,所述构建用于预测路径点的神经网络包括:
确定所述神经网络的输入、输出和主体结构;
确定所述输出层的激活函数,所述激活函数的混合系数项、均值项和方差项的损失函数分别为softmax、linear以及softplus;
提升网络性能及训练稳定性。


4.根据权利要求3所述的基于模仿学习的机器人避障轨迹规划方法,其特征在于,所述确定所述神经网络的输入、输出和主体结构包括:
主体结构是以Nd个全连接层和Mc个长短时记忆网络层为隐层,以两个基于高斯混合模型的混合密度网络层作为输出层,其中,为第Mc个长短时记忆网络层;Nd≥0,Mc≥1;
以当前时刻机器人的位形、目标点的位姿以及障碍物的信息相关作为所述神经网络的输入;
以目标位形作为一个混合密度网络层的输出,以下一时刻机器人的位形作为另一个混合密度网络层的输出。


5.根据权利要求4所述的基于模仿学习的机器人避障轨迹规划方法,其特征在于,还包括所述神经网络对输入信息的加工过程:
将当前时刻机器人的位形、目标点的位姿以及障碍物的相关信息分别传递给三组N1个全连接层,相应的N1个全连接层对所接收到数据进行处理,得到相应的三个特征向量并串联为一个特征向量集合V1;
将所述特征向量集合V1传递给N2个全连接层进行处理后,得到特征向量集合V2;
将所述特征向量集合V2分别输入到两组长短时记忆网络层,得到特征向量并分别输入到两个所述混合密度网络层中。


6.根据权利要求3所述的基于模仿学习的机器人避障轨迹规划方法,其特征在于,所述提升网络性能及训练稳定性包括:
获取所述长短时记忆网络层的层数Mc,若Mc≥2,则引入跳跃连接,即将第一个长短时记忆网络层的输入同时作为下一长短时记忆网络层的输出,并且将Mc个长短时记忆网络的输出串联起来作为时序层的总输出;
对所有所述隐层使用Dropout方法进行处理;
设置输出处理层以应对数值下溢问题:



式(1)中,K为混合概率模型的分量数目,αk表示第k个高斯分量的混合系数,表示第k个高斯分量的方差,eπ、eσ分别为αk和上设置的最小值。


7.根据权利要求1所述的基于模仿学习的机器人避障轨迹规划方法,其特征在于,所述损失函数的总损失为:
Ltotal...

【专利技术属性】
技术研发人员:董翔宇葛维黄杰朱俊谢佳杨波汪太平李永熙刘鑫巢夏晨语张飞石玮佳尚伟伟
申请(专利权)人:国网安徽省电力有限公司检修分公司国网安徽省电力有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1