【技术实现步骤摘要】
基于蒙特卡洛树搜索算法的机器人状态规划方法
本专利技术涉及机器人控制
,具体而言,涉及一种基于蒙特卡洛树搜索算法的机器人状态规划方法。
技术介绍
由于轮式机器人需要在连续的地面上才能运动,而足式机器人可以在离散的落足点地形中选择落足点进行运动,因此在面对复杂的野外环境时,足式机器人具有更好的通行能力。在众多足式机器人中,六足机器人凭借其强大的环境适应能力和较高的容错性脱颖而出,因其能够在一些危险的环境中,执行各种高难度的任务,而被广泛应用于工业、航天、军事和抢险救灾等领域,具有广阔的发展前景。足式机器人从一个位置运动到另一个位置时,运动过程中的每一个位置都对应足式机器人的一个状态,状态包括足式机器人的当前位置信息、位姿和落足点等,运动过程中包括多个离散的状态。现有的机器人状态规划方法,在规划六足机器人的状态时,通常仅规划当前运动周期内六足机器人的下一状态,在六足机器人完成当前运动周期,运动到下一状态后,再规划下一运动周期的目标状态,但是六足机器人的状态规划过程是一个马尔科夫过程,前面的状态规划结果会对后续的状态规划决策产生一定的影响,前后规划结果的耦合结果会影响六足机器人在复杂地形中的通行能力。
技术实现思路
本专利技术解决的问题是如何处理状态间的耦合关系,减少六足机器人在前面运动周期中的状态对后续状态规划的影响,提高六足机器人通过复杂地形的能力。为解决上述问题,本专利技术提供一种基于蒙特卡洛树搜索算法(MonteCarloTreeSearch,MCTS)的机器人状态规划方法 ...
【技术保护点】
1.一种基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,包括:/n获取机器人的初始状态和目标状态;/n以所述初始状态为起始节点,采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态;/n根据所述起始节点到所述目标节点的所有节点确定所述机器人的状态序列。/n
【技术特征摘要】
1.一种基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,包括:
获取机器人的初始状态和目标状态;
以所述初始状态为起始节点,采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态;
根据所述起始节点到所述目标节点的所有节点确定所述机器人的状态序列。
2.根据权利要求1所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,所述采用蒙特卡洛树搜索算法扩展蒙特卡洛树,直至生成的目标节点到达所述目标状态包括:
步骤211,以所述起始节点为根节点,在已建立的当前蒙特卡洛树中从所述根节点开始向下递归选择子节点,直至到达叶子节点;
步骤212,确定所述叶子节点对应的状态是否为所述目标状态,若是,则转至步骤216;若否,则转至步骤213;
步骤213,在所述叶子节点后随机创建一个扩展节点;
步骤214,从所述扩展节点开始循环进行状态仿真,直至仿真得到的状态满足预设的第一终止条件;
步骤215,根据仿真结果回溯更新所述扩展节点到所述根节点的所有节点,并返回步骤211;
步骤216,令所述叶子节点为所述目标节点,遍历所述目标节点到所述起始节点的所有节点。
3.根据权利要求2所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,每个节点都对应有被访问的总次数和仿真成功参数两个参数,所述步骤211包括:
对于所述蒙特卡洛树中的任一节点,根据上限置信区间算法分别确定所述节点的各个子节点的分值,所述上限置信区间算法由第一公式表示,所述第一公式为:
其中,Φj为所述蒙特卡洛树中的任一节点,Φj'为节点Φj的一个子节点,UCB为子节点Φj'的所述分值,Nvisit(Φj)为节点Φj的所述被访问的总次数,Nvisit(Φj')为子节点Φj'的所述被访问的总次数,Nsuccess(Φj')为子节点Φj'的所述仿真成功参数,C为平衡系数;
从所述根节点开始,循环选择所述分值最大的子节点,直至到达所述叶子节点。
4.根据权利要求3所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,每个节点分别对应有一个子节点集合,所述子节点集合包括多个子节点,所述步骤214包括:
根据所述扩展节点循环迭代随机仿真算法,直至仿真得到的仿真状态满足所述第一终止条件,所述随机仿真算法包括在当前节点的所述子节点集合中随机确定所述当前节点的子节点;
其中,每个所述仿真状态分别对应有仿真距离和所述机器人的移动步长,所述仿真距离为所述仿真状态到所述扩展节点之间的所有状态的数量。
5.根据权利要求3所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,所述机器人的状态包括所述机器人的旋转矩阵、机体位置、支撑状态向量、腿部状态向量和摆动腿落足点向量,所述步骤214包括:
步骤2141,获取所述机器人当前的所述机体位置、设备信息和地面落足点信息,并建立所述机器人的机体坐标系,确定所述机体坐标系到世界坐标系的所述旋转矩阵;
步骤2142,根据所述设备信息确定所述机器人在下一运动周期中的支撑状态和移动步长,所述支撑状态包括支撑腿组合和摆动腿组合,所述摆动腿组合包括零个或至少一个摆动腿,根据所述支撑腿组合和所述摆动腿组合确定所述机器人的所述支撑状态向量;
步骤2143,结合所述移动步长和所述设备信息分别确定所述机器人的机体重心轨迹和各个所述摆动腿的落足区域;
步骤2144,根据所述地面落足点信息确定各个所述摆动腿在对应的所述落足区域中的目标落足点,根据所述设备信息和各个所述摆动腿的所述目标落足点确定所述腿部状态向量、所述摆动腿落足点向量和各个所述摆动腿的足端轨迹;
步骤2145,根据所述旋转矩阵、所述机体位置、所述支撑状态向量、所述腿部状态向量和所述摆动腿落足点向量确定所述机器人的当前状态;并根据所述机体重心轨迹和所述足端轨迹控制所述机器人运动至下一位置,返回步骤2141,从所述扩展节点开始进行多次迭代,直至迭代得到的所述机器人的状态满足所述第一终止条件,令迭代得到的状态到所述扩展节点之间的所有状态的数量为仿真距离。
6.根据权利要求4或5所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,所述第一终止条件包括连续多个生成的状态对应的所述移动步长为0,所述仿真距离大于预设的仿真视野和生成的状态到达所述目标状态中的至少一项。
7.根据权利要求6所述的基于蒙特卡洛树搜索算法的机器人状态规划方法,其特征在于,所述步骤215包括:
比对所述仿真距离和预设的所述仿真视野,当所述仿真距离大于或等于所述仿真视野时,回溯更新所述扩展节点到所述根节点的所有节点的所述被访问的总次数和所述仿真成功参数;
当所述仿真距离小于所述仿真视野时,回溯更新所述扩展节点到所述根节点的所有节点...
【专利技术属性】
技术研发人员:高海波,丁亮,徐鹏,刘岩,王志恺,邓宗全,刘振,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。