一种基于模仿学习的机器人避障轨迹规划方法及机器人技术

技术编号：25744179 阅读：28 留言：0更新日期：2020-09-25 20:56

本发明专利技术涉及机器人运动规划领域，公开了一种基于模仿学习的机器人避障轨迹规划方法及机器人。该方法包括构建训练数据集，建立预测路径点的神经网络，训练神经网络，生成避障轨迹。本发明专利技术能够以学习示教轨迹的方式，达到在未获知完整障碍物信息的情形下，对机器人的避障轨迹进行规划的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模仿学习的机器人避障轨迹规划方法及机器人
本专利技术涉及机器人运动轨迹规划领域，具体地，涉及一种基于模仿学习的机器人避障轨迹规划方法及机器人。
技术介绍
通常而言，人们希望机器人能够完成一些人类日常操作，如拾物、倒水、开门等。在进行这些操作的过程中，机器人需要具备避开障碍物到达目标位置的能力。为了实现这一目标，对机器人的运动规划方法进行研究是必要的。一般来说，人类的生活环境复杂多变，传统的规划方法要求已知完整的障碍物信息，因而无法满足需求。近年来，随着计算机科学技术的发展，机器学习方法在各个领域均得到了广泛的应用。其中，强化学习赋予了机器人一定的自主学习能力，所以受到了研究人员的密切关注。然而，强化学习方法通常需要进行大量的试错，这在机器人领域是难以实现的。
技术实现思路
本专利技术的目的是提供一种基于模仿学习的机器人避障轨迹规划方法及机器人，提出了基于深度学习和模仿学习的规划策略，以其能在提升泛化性的同时，让机器人更有效地学习人类的行为。为了实现上述目的，在一方面，本专利技术提供了一种基于模仿学习的机器人避障轨迹规划方法，其应用于由机器人、障碍物、目标点的任务场景中，所述方法包括：构建训练数据集；构建用于预测路径点的神经网络；以负对数似然函数作为输出项的损失函数，利用所述训练数据集对所述神经网络进行训练，并保存网络参数；利用训练好的所述神经网络逐个预测路径点以得到完整的路径，对路径进行路径参数化从而生成避障轨迹。优选地，所述构建训练...

【技术保护点】
1.一种基于模仿学习的机器人避障轨迹规划方法，其应用于由机器人、障碍物、目标点的任务场景中，其特征在于，所述方法包括：/n构建训练数据集；/n构建用于预测路径点的神经网络；/n以负对数似然函数作为输出项的损失函数，利用所述训练数据集对所述神经网络进行训练，并保存网络参数；/n利用训练好的所述神经网络逐个预测路径点以得到完整的路径，对路径进行路径参数化从而生成避障轨迹。/n

【技术特征摘要】
1.一种基于模仿学习的机器人避障轨迹规划方法，其应用于由机器人、障碍物、目标点的任务场景中，其特征在于，所述方法包括：
构建训练数据集；
构建用于预测路径点的神经网络；
以负对数似然函数作为输出项的损失函数，利用所述训练数据集对所述神经网络进行训练，并保存网络参数；
利用训练好的所述神经网络逐个预测路径点以得到完整的路径，对路径进行路径参数化从而生成避障轨迹。

2.根据权利要求1所述的基于模仿学习的机器人避障轨迹规划方法，其特征在于，所述构建训练数据集包括：
通过人工示教或传统规划方法在所述任务场景中获取所述机器人避障运动轨迹以及障碍物的相关信息并作为所述训练数据集。

3.根据权利要求1所述的基于模仿学习的机器人避障轨迹规划方法，其特征在于，所述构建用于预测路径点的神经网络包括：
确定所述神经网络的输入、输出和主体结构；
确定所述输出层的激活函数，所述激活函数的混合系数项、均值项和方差项的损失函数分别为softmax、linear以及softplus；
提升网络性能及训练稳定性。

4.根据权利要求3所述的基于模仿学习的机器人避障轨迹规划方法，其特征在于，所述确定所述神经网络的输入、输出和主体结构包括：
主体结构是以Nd个全连接层和Mc个长短时记忆网络层为隐层，以两个基于高斯混合模型的混合密度网络层作为输出层，其中，为第Mc个长短时记忆网络层；Nd≥0，Mc≥1；
以当前时刻机器人的位形、目标点的位姿以及障碍物的信息相关作为所述神经网络的输入；
以目标位形作为一个混合密度网络层的输出，以下一时刻机器人的位形作为另一个混合密度网络层的输出。

5.根据权利要求4所述的基于模仿学习的机器人避障轨迹规划方法，其特征在于，还包括所述神经网络对输入信息的加工过程：
将当前时刻机器人的位形、目标点的位姿以及障碍物的相关信息分别传递给三组N1个全连接层，相应的N1个全连接层对所接收到数据进行处理，得到相应的三个特征向量并串联为一个特征向量集合V1；
将所述特征向量集合V1传递给N2个全连接层进行处理后，得到特征向量集合V2；
将所述特征向量集合V2分别输入到两组长短时记忆网络层，得到特征向量并分别输入到两个所述混合密度网络层中。

6.根据权利要求3所述的基于模仿学习的机器人避障轨迹规划方法，其特征在于，所述提升网络性能及训练稳定性包括：
获取所述长短时记忆网络层的层数Mc，若Mc≥2，则引入跳跃连接，即将第一个长短时记忆网络层的输入同时作为下一长短时记忆网络层的输出，并且将Mc个长短时记忆网络的输出串联起来作为时序层的总输出；
对所有所述隐层使用Dropout方法进行处理；
设置输出处理层以应对数值下溢问题：

式(1)中，K为混合概率模型的分量数目，αk表示第k个高斯分量的混合系数，表示第k个高斯分量的方差，eπ、eσ分别为αk和上设置的最小值。

7.根据权利要求1所述的基于模仿学习的机器人避障轨迹规划方法，其特征在于，所述损失函数的总损失为：
Ltotal...

【专利技术属性】
技术研发人员：董翔宇，葛维，黄杰，朱俊，谢佳，杨波，汪太平，李永熙，刘鑫，巢夏晨语，张飞，石玮佳，尚伟伟，
申请(专利权)人：国网安徽省电力有限公司检修分公司，国网安徽省电力有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人