基于蒙特卡洛树搜索算法的机器人状态规划方法技术

技术编号:25689234 阅读:35 留言:0更新日期:2020-09-18 21:01
本发明专利技术提供了一种基于蒙特卡洛树搜索算法的机器人状态规划方法,该方法包括获取机器人的初始状态和目标状态;以所述初始状态为起始节点,采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态;根据所述起始节点到所述目标节点的所有节点确定所述机器人的状态序列。本发明专利技术的技术方案,对运动过程整体状态进行规划,生成状态序列,能够避免分周期规划带来的前后耦合影响,提高了六足机器人在复杂地形中的通行能力。

【技术实现步骤摘要】
基于蒙特卡洛树搜索算法的机器人状态规划方法
本专利技术涉及机器人控制
,具体而言,涉及一种基于蒙特卡洛树搜索算法的机器人状态规划方法。
技术介绍
由于轮式机器人需要在连续的地面上才能运动,而足式机器人可以在离散的落足点地形中选择落足点进行运动,因此在面对复杂的野外环境时,足式机器人具有更好的通行能力。在众多足式机器人中,六足机器人凭借其强大的环境适应能力和较高的容错性脱颖而出,因其能够在一些危险的环境中,执行各种高难度的任务,而被广泛应用于工业、航天、军事和抢险救灾等领域,具有广阔的发展前景。足式机器人从一个位置运动到另一个位置时,运动过程中的每一个位置都对应足式机器人的一个状态,状态包括足式机器人的当前位置信息、位姿和落足点等,运动过程中包括多个离散的状态。现有的机器人状态规划方法,在规划六足机器人的状态时,通常仅规划当前运动周期内六足机器人的下一状态,在六足机器人完成当前运动周期,运动到下一状态后,再规划下一运动周期的目标状态,但是六足机器人的状态规划过程是一个马尔科夫过程,前面的状态规划结果会对后续的状态规划决策产生一定的影响,前后规划结果的耦合结果会影响六足机器人在复杂地形中的通行能力。
技术实现思路
本专利技术解决的问题是如何处理状态间的耦合关系,减少六足机器人在前面运动周期中的状态对后续状态规划的影响,提高六足机器人通过复杂地形的能力。为解决上述问题,本专利技术提供一种基于蒙特卡洛树搜索算法(MonteCarloTreeSearch,MCTS)的机器人状态规划方法,具体包括基于MCTS的机器人状态规划方法、装置及存储介质。第一方面,本专利技术提供了一种基于蒙特卡洛树搜索算法的机器人状态规划方法,包括:获取机器人的初始状态和目标状态。以所述初始状态为起始节点,采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态。根据所述起始节点到所述目标节点的所有节点确定所述机器人的状态序列。第二方面,本专利技术提供了一种基于蒙特卡洛树搜索算法的机器人状态规划装置,包括:获取模块,用于获取机器人的初始状态和目标状态。处理模块,用于以所述初始状态为起始节点,采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态。输出模块,用于根据所述起始节点到所述目标节点的所有节点确定所述机器人的状态序列。第三方面,本专利技术提供了一种基于蒙特卡洛树搜索算法的机器人状态规划装置,包括存储器和处理器。所述存储器,用于存储计算机程序。所述处理器,用于当执行所述计算机程序时,实现如上所述的基于蒙特卡洛树搜索算法的机器人状态规划方法。第四方面,本专利技术提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的基于蒙特卡洛树搜索算法的机器人状态规划方法。第五方面,本专利技术提供了一种六足机器人,包括机体和如权利要求13所述的基于蒙特卡洛树搜索算法的机器人状态规划装置,所述机器人状态规划装置与所述机体通信连接。本专利技术的基于蒙特卡洛树搜索算法的机器人状态规划方法的有益效果是:将预设的初始状态视为蒙特卡洛树的起始节点,采用蒙特卡洛树搜索算法构建和扩展蒙特卡洛树,使得蒙特卡洛树的节点不断逼近预设的目标状态,当节点到达目标状态时,遍历目标状态到初始状态的所有节点,按照初始状态到目标状态的顺序将所有节点依次排列,就可得到六足机器人从初始状态到目标状态的状态序列。本申请的技术方案中,采用蒙特卡洛树搜索算法对运动过程整体状态进行规划,生成整个运动过程的状态序列,能够避免分周期规划带来的前后耦合影响,降低了六足机器人在前面运动周期中的运动对后续运动的影响,提高了六足机器人在复杂地形中的通行能力。附图说明图1为本专利技术实施例的六足机器人的结构示意图;图2为本专利技术实施例的支撑多边形和放缩的支撑多边形的示意图;图3为本专利技术实施例的一种基于蒙特卡洛树搜索算法的机器人状态规划方法的流程示意图;图4为本专利技术实施例的状态Φ0的状态空间示意图;图5为本专利技术实施例的一种扩展蒙特卡洛树的流程示意图;图6为本专利技术另一实施例的扩展蒙特卡洛树至标定深度的示意图;图7为本专利技术另一实施例的扩展蒙特卡洛树的流程示意图;图8为本专利技术另一实施例的分值指标示意图;图9为本专利技术另一实施例的局部目标距离示意图;图10为本专利技术实施例的一种离散落足点地形示意图;图11为本专利技术实施例的六足机器人通过图10所示地形的仿真示意图;图12为本专利技术实施例的一种六足机器人的腿部支撑状态相序图;图13为本专利技术实施例的一种中间无落足点地形示意图;图14为本专利技术实施例的六足机器人通过图13所示地形的仿真示意图;图15为本专利技术实施例的一种连续壕沟地形示意图;图16为本专利技术实施例的六足机器人通过图15所示地形的仿真示意图;图17为本专利技术实施例的一种基于蒙特卡洛树搜索算法的机器人状态规划装置。具体实施方式为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。在本专利技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。本申请的实施例中以六足机器人为例详细说明本申请的基于蒙特卡洛树搜索算法(MonteCarloTreeSearch,MCTS)的机器人状态规划方法,具体涉及基于MCTS的机器人状态规划方法、装置及存储介质。首先对六足机器人的状态等信息进行详细说明,如图1所示,图1(a)为六足机器人的结构示意图,图1(b)为六足机器人结构的俯视示意图。六足机器人状态表示为蒙特卡洛树的每一个节点对应六足机器人的一个状态,其中表示六足机器人的机体坐标系到世界坐标系的旋转矩阵,表示机器人的机体在世界坐标下的绝对位置,cF表示机器人从当前状态转移到下一状态的支撑状态向量,tF表示六足机器人从当前状态转移到下一状态的腿部状态向量,表示在世界坐标系下六足机器人的任一摆动腿i在下一状态的落足点位置,所有摆动腿的落足点位置组成摆动腿落足点向量六足机器人在运动过程中要保持静态稳定,保持静态稳定的条件包括:六足机器人的支撑腿的数量大于或等于三,且机体重心在支撑多边形内,且能够满足标定的稳定裕度。具体而言,支撑多边形为支撑腿足端连线所组成的多边形,稳定裕度表示机体重心在支撑多边形的投影与支撑多边形任意一条边的距离,六足机器人满足标定的稳定裕度即稳定裕度大于预设的阈值,令该阈值为BM0,该阈值的典型取值为0.1m。静态稳定裕度:SM表示六足机器人的静态稳定裕度。静态稳定裕本文档来自技高网...

【技术保护点】
1.一种基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,包括:/n获取机器人的初始状态和目标状态;/n以所述初始状态为起始节点,采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态;/n根据所述起始节点到所述目标节点的所有节点确定所述机器人的状态序列。/n

【技术特征摘要】
1.一种基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,包括:
获取机器人的初始状态和目标状态;
以所述初始状态为起始节点,采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态;
根据所述起始节点到所述目标节点的所有节点确定所述机器人的状态序列。


2.根据权利要求1所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,所述采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态包括:
步骤211,以所述起始节点为根节点,在已建立的当前蒙特卡洛树中从所述根节点开始向下递归选择子节点,直至到达叶子节点;
步骤212,确定所述叶子节点对应的状态是否为所述目标状态,若是,则转至步骤216;若否,则转至步骤213;
步骤213,在所述叶子节点后随机创建一个扩展节点;
步骤214,从所述扩展节点开始循环进行状态仿真,直至仿真得到的状态满足预设的第一终止条件;
步骤215,根据仿真结果回溯更新所述扩展节点到所述根节点的所有节点,并返回步骤211;
步骤216,令所述叶子节点为所述目标节点,遍历所述目标节点到所述起始节点的所有节点。


3.根据权利要求2所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,每个节点都对应有被访问的总次数和仿真成功参数两个参数,所述步骤211包括:
对于所述蒙特卡洛树中的任一节点,根据上限置信区间算法分别确定所述节点的各个子节点的分值,所述上限置信区间算法由第一公式表示,所述第一公式为:



其中,Φj为所述蒙特卡洛树中的任一节点,Φj'为节点Φj的一个子节点,UCB为子节点Φj'的所述分值,Nvisit(Φj)为节点Φj的所述被访问的总次数,Nvisit(Φj')为子节点Φj'的所述被访问的总次数,Nsuccess(Φj')为子节点Φj'的所述仿真成功参数,C为平衡系数;
从所述根节点开始,循环选择所述分值最大的子节点,直至到达所述叶子节点。


4.根据权利要求3所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,每个节点分别对应有一个子节点集合,所述子节点集合包括多个子节点,所述步骤214包括:
根据所述扩展节点循环迭代随机仿真算法,直至仿真得到的仿真状态满足所述第一终止条件,所述随机仿真算法包括在当前节点的所述子节点集合中随机确定所述当前节点的子节点;
其中,每个所述仿真状态分别对应有仿真距离和所述机器人的移动步长,所述仿真距离为所述仿真状态到所述扩展节点之间的所有状态的数量。


5.根据权利要求3所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,所述机器人的状态包括所述机器人的旋转矩阵、机体位置、支撑状态向量、腿部状态向量和摆动腿落足点向量,所述步骤214包括:
步骤2141,获取所述机器人当前的所述机体位置、设备信息和地面落足点信息,并建立所述机器人的机体坐标系,确定所述机体坐标系到世界坐标系的所述旋转矩阵;
步骤2142,根据所述设备信息确定所述机器人在下一运动周期中的支撑状态和移动步长,所述支撑状态包括支撑腿组合和摆动腿组合,所述摆动腿组合包括零个或至少一个摆动腿,根据所述支撑腿组合和所述摆动腿组合确定所述机器人的所述支撑状态向量;
步骤2143,结合所述移动步长和所述设备信息分别确定所述机器人的机体重心轨迹和各个所述摆动腿的落足区域;
步骤2144,根据所述地面落足点信息确定各个所述摆动腿在对应的所述落足区域中的目标落足点,根据所述设备信息和各个所述摆动腿的所述目标落足点确定所述腿部状态向量、所述摆动腿落足点向量和各个所述摆动腿的足端轨迹;
步骤2145,根据所述旋转矩阵、所述机体位置、所述支撑状态向量、所述腿部状态向量和所述摆动腿落足点向量确定所述机器人的当前状态;并根据所述机体重心轨迹和所述足端轨迹控制所述机器人运动至下一位置,返回步骤2141,从所述扩展节点开始进行多次迭代,直至迭代得到的所述机器人的状态满足所述第一终止条件,令迭代得到的状态到所述扩展节点之间的所有状态的数量为仿真距离。


6.根据权利要求4或5所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,所述第一终止条件包括连续多个生成的状态对应的所述移动步长为0,所述仿真距离大于预设的仿真视野和生成的状态到达所述目标状态中的至少一项。


7.根据权利要求6所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,所述步骤215包括:
比对所述仿真距离和预设的所述仿真视野,当所述仿真距离大于或等于所述仿真视野时,回溯更新所述扩展节点到所述根节点的所有节点的所述被访问的总次数和所述仿真成功参数;
当所述仿真距离小于所述仿真视野时,回溯更新所述扩展节点到所述根节点的所有节点...

【专利技术属性】
技术研发人员:高海波丁亮徐鹏刘岩王志恺邓宗全刘振
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1