System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器人运动控制,更具体地说,本专利技术涉及一种足式机器人动作空间受约束条件下的运动控制方法。
技术介绍
1、足式机器人天然地具备跨越复杂地形环境的潜在能力,具有广阔的应用前景。然而,足式机器人控制自由度高、系统非线性强的特点使得设计安全、鲁棒的运动控制器极为困难。近年来,基于强化学习算法的学习型控制器以其处理非凸非线性问题的强大能力,被广泛应用于足式机器人运动控制之中,取得了一定的效果。然而,这类控制器无法保证对足式机器人中普遍存在的动作约束的强满足,这无疑增大了足式机器人运动控制过程中的安全风险。
2、足式机器人动作输出通常存在约束,如果控制器违背该约束会造成系统失稳和运动性能的下降。一些学习型控制器设计方法也考虑了输出动作约束,但这些算法把约束建模成概率期望的形式,它们能够实现在概率层面收敛到满足约束的可行区域内,而无法保证在任意时刻对约束的强满足,因此当应用于足式机器人运动控制场景中时,依旧存在不小的安全风险。
3、鉴于此,本专利技术提出一种足式机器人动作空间受约束条件下的运动控制方法以解决上述问题。
技术实现思路
1、为了克服现有技术的上述缺陷,本专利技术的实施例提供一种足式机器人动作空间受约束条件下的运动控制方法,可以实现对输出动作约束的任意时刻的强满足,提高了足式机器人运动控制的安全性和鲁棒性,更加实用。
2、根据本专利技术的一个方面,一种足式机器人动作空间受约束条件下的运动控制方法,包括以下步骤:
3、s1
4、s2、构建约束对应的对偶动作空间;并构建对偶动作空间到机器人实际动作空间的映射关系;
5、s3、根据对偶动作空间,构建对应的基于迪利克雷分布的策略网络模型,保证网络任意输出对约束的强满足;
6、s4、构建在对偶动作空间内的迪利克雷分布策略迭代算法,使用该算法在仿真环境中训练策略网络,得到满足输出约束和任务要求的机器人运动控制器;
7、s5、将基于迪利克雷分布的策略网络控制器迁移至真机环境中,最终实现机器人实机安全部署。
8、在一个优选的实施方式中,步骤s1中构建约束模型具体包括有:
9、构建足式机器人状态空间和动作空间模型,基于足式机器人本体特性和地形环境参数构建动作空间下的输出边界约束和摩擦锥约束;
10、通过局部线性化方法将动作空间下的输出边界约束和摩擦锥约束转化为与状态量相关的一阶线性表述;
11、构造满足上述约束的可行解凸集,使用双表示法计算得到可行凸集的顶点表示。
12、在一个优选的实施方式中,步骤s2中构建约束对应的对偶动作空间具体包括有:
13、利用凸集的拓扑性质,构造对应的受约束的权重空间,权重空间与原动作空间具有对偶关系;
14、对偶动作空间定义为:当可行动作凸集顶点确定时,满足凸集性质的顶点权重组合是对偶动作空间,它是可行动作集合对应的一个特殊的概率单纯形;
15、对偶动作空间到原可行动作集合形成满射关系,任意满足约束的动作可以用对偶动作空间内的点表示。
16、在一个优选的实施方式中,步骤s3中构建基于迪利克雷分布的策略网络具体包括有:
17、构建全连接神经网络模型,作为策略网络的主体结构;使用softp l us函数作为最后输出层的激活函数;
18、构建满足迪利克雷分布的策略网络输出层,使策略网络输出始终落在对偶动作空间对应的概率单纯形内。
19、在一个优选的实施方式中,步骤s4中对偶动作空间内的迪利克雷分布策略迭代算法具体包括有:
20、基于零空间投影算法得到从对偶动作空间到原动作空间的投影矩阵的零空间;
21、构建基于随机梯度下降算法的正则化优化目标函数,使策略网络输出尽可能落在投影矩阵零空间的正交空间内;
22、利用上述正则化优化目标函数,结合策略梯度算法,对策略网络进行迭代式更新。
23、在一个优选的实施方式中,步骤s5中将迪利克雷分布策略网络迁移到真机环境具体包括有:
24、采用域随机化方法在随机参数仿真环境中进行课程学习式训练;
25、采集真实环境轨迹数据,使用无梯度优化算法对策略梯度算法、策略网络和仿真器参数进行微调,重复该过程直至控制器在真机环境下收敛。
26、根据本专利技术的另一个方面,提供了一种电子设备包括:包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;
27、所述处理器通过调用所述存储器中存储的计算机程序,执行上述所述的一种足式机器人动作空间受约束条件下的运动控制方法。
28、根据本专利技术的又一个方面,提供了一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行上述所述的一种足式机器人动作空间受约束条件下的运动控制方法。
29、本专利技术一种足式机器人动作空间受约束条件下的运动控制方法的技术效果和优点:
30、本专利技术实现对足式机器人任意一阶线性输出约束的强满足,能够得到在任意时刻下都满足输出动作约束的足式机器人学习型运动控制器,能够很好兼容广泛使用的强化学习算法,适用于足式机器人中普遍存在的输出动作约束形式,弥补了学习型控制器安全性差的缺陷,为学习型控制器在足式机器人真实场景应用提供了技术支持和安全保证,具有较强的实用性。
本文档来自技高网...【技术保护点】
1.一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,包括:
2.根据权利要求1所述的一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,步骤S1中构建约束模型具体包括有:
3.根据权利要求2所述的一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,步骤S2中构建约束对应的对偶动作空间具体包括有:
4.根据权利要求3所述的一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,步骤S3中构建基于迪利克雷分布的策略网络具体包括有:
5.根据权利要求4所述的一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,步骤S4中对偶动作空间内的迪利克雷分布策略迭代算法具体包括有:
6.根据权利要求5所述的一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,步骤S5中将迪利克雷分布策略网络迁移到真机环境具体包括有:
7.一种电子设备,其特征在于,包括:包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;
8.一种计算机可读存储介质,其
...【技术特征摘要】
1.一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,包括:
2.根据权利要求1所述的一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,步骤s1中构建约束模型具体包括有:
3.根据权利要求2所述的一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,步骤s2中构建约束对应的对偶动作空间具体包括有:
4.根据权利要求3所述的一种足式机器人动作空间受约束条件下的运动控制方法,其特征在于,步骤s3中构建基于迪利克雷分布的策略网络具体包括有:
5.根据权利要求4所述的一种足式机器人动作空间受约...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。