System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器人,尤其涉及一种用于单腿机器人的跳跃控制模型构建方法。
技术介绍
1、随着机器人在各领域的应用愈来愈普遍,在机器人的工业应用中,通常预先定义机器人的运动轨迹,或者预先设定某种任务环境,让机器人按照计划重复执行即可。在这种控制模式下,机器人无法面对任务环境的变化或者突如其来的扰动,更重要的是,机器人的运动轨迹没有隐含人的操作习惯。机器人的模仿学习正是解决这些问题的重要方法。
2、模仿学习是机器学习中一种重要的技术,其目标是通过观察和模仿专家的行为来学习某个任务或解决某个问题。相比于传统的基于规则或奖励的学习方法,模仿学习可以从专家的示范中直接学习到高质量的行为策略。
3、但是,模仿学习方法都默认专家的策略是最优的,认为数据是从高质量的专家手中获取的,但是实际情况中会存在专家数据不全,专家经验参差不齐等问题,导致高质量的专家数据较难获取。在模仿学习的过程中,如果专家数据的质量存在多样性且不清楚质量的分布情况,同时也没有额外信息可以评估和筛选不同质量的专家数据时,模仿学习变得十分困难。因此,如何让多质量专家模仿学习训练趋于向较高质量的专家轨迹逼近,更好控制机器人的动作,是迫切需要解决的问题。
技术实现思路
1、鉴于上述的分析,本专利技术实施例旨在提供一种用于单腿机器人的跳跃控制模型构建方法,用以解决现有因较难获取高质量专家数据而导致单腿机器人跳跃不稳定的问题。
2、本专利技术实施例提供了一种用于单腿机器人的跳跃控制模型构建方法,包括以
3、加载单腿机器人模型后,初始化机器人仿真环境;
4、基于机器人仿真环境,通过训练强化学习模型得到多个专家策略;通过专家策略与机器人仿真环境交互,采样多个专家轨迹;
5、构建一个生成器和与专家策略相同数量的判别器;在训练过程中通过生成器与机器人仿真环境交互,采样模仿者轨迹;利用模仿者轨迹分别与每个专家轨迹训练一个判别器,根据各判别器输出的判别值计算奖励值,根据模仿者轨迹和奖励值采用ppo算法训练生成器;
6、根据训练好的生成器得到跳跃控制模型。
7、基于上述方法的进一步改进,机器人仿真环境通过搭建mujoco物理引擎和引入gym库而得到;单腿机器人模型是一个xml格式的文件,用于定义单腿机器人的组成和连接关系,其中,单腿机器人由身体、大腿、小腿和足部组成,身体和大腿通过大腿关节连接,大腿和小腿通过小腿关节连接,小腿和足部通过足关节连接。
8、基于上述方法的进一步改进,初始化机器人仿真环境,包括:基于单腿机器人的跳跃场景,定义状态空间、动作空间和奖励函数;当仿真环境重置时初始化单腿机器人的状态空间。
9、基于上述方法的进一步改进,状态空间包括:机器人身体最高点的高度、身体的角度、大腿关节的角度、小腿关节的角度、足关节的角度、身体x坐标的速度、身体z坐标的速度、身体的角速度、大腿关节的角速度、小腿关节的角速度、足关节的角速度;所述动作空间包括:大腿关节、小腿关节和足关节的扭矩。
10、基于上述方法的进一步改进,通过专家策略与机器人仿真环境交互,采样多个专家轨迹是基于同一任务,分别利用专家策略与机器人仿真环境进行交互,将每次交互传入的状态空间和输出的动作空间作为一个状态动作对,经相同次数交互后,将得到的状态动作对序列作为与专家策略对应的专家轨迹;模仿者轨迹是生成器与机器人仿真环境交互多次产生的状态动作对序列。
11、基于上述方法的进一步改进,利用模仿者轨迹分别与每个专家轨迹训练一个判别器,是将模仿者轨迹中的状态动作对分别与每个专家轨迹中的状态动作对拼接后传入一个判别器中,各判别器输出两个状态动作对的判别值;根据两个状态动作对的判别值计算出对应的判别器的梯度更新判别器参数。
12、基于上述方法的进一步改进,根据各判别器输出的判别值计算奖励值,包括:
13、根据各判别器输出的判别值被判别器判别为正确的概率,分别计算出各判别器的专家准确率和模仿者准确率,并两者之和作为各判别器的准确率;
14、将各判别器的准确率占所有判别器准确率之和的比率作为各判别器的专家可靠度系数,根据各判别器的专家可靠度系数和各判别器中模仿者轨迹对应的判别值计算奖励值。
15、基于上述方法的进一步改进,各判别器输出的判别值被判别器判别为正确,包括:
16、对专家轨迹中的状态动作对,当判别器输出的判别值大于等于0.5时,认为被判别器判别为正确;对模仿者轨迹中的状态动作对,当判别器输出的判别值小于0.5时,认为被判别器判别为正确。
17、基于上述方法的进一步改进,根据各判别器的专家可靠度系数和各判别器中模仿者轨迹对应的判别值,通过以下公式计算出奖励值:
18、
19、其中,ri表示第i轮训练过程中的奖励值;n表示专家轨迹的数量,表示第i轮训练过程中第j个专家轨迹对应的判别器的专家可靠度系数;表示第i轮训练过程中模仿者轨迹中的状态动作对(s,a)输入至第j个专家轨迹对应的判别器输出的判别值;s表示轨迹中的状态空间,a表示轨迹中的动作空间。
20、基于上述方法的进一步改进,奖励函数包括:稳定性奖励、跳跃性奖励和动作性奖励;其中,稳定性奖励是根据交互次数给予的正奖励;跳跃性奖励是通过判断机器人跳跃方向是前进或后退而给予的正奖励或负奖励;动作性奖励是对动作空间中各维度动作的平方和给予指定比例的负奖励。
21、与现有技术相比,本专利技术至少可实现如下有益效果之一:
22、1、基于仿真平台获取多质量专家轨迹,贴近实际应用场景,将机器人模仿轨迹同时与不同质量的专家轨迹输入不同的判别器中,中和高质量专家数据和低质量专家数据,让多质量专家模仿学习训练趋于向较高质量的专家轨迹逼近,使得学习效果更好,增强模型的鲁棒性;
23、2、根据不同判别器的准确率计算不同专家数据的可靠度系数,以此作为权值去除不同轨迹的噪声影响,提高单腿机器人跳跃的稳定性。
24、本专利技术中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
本文档来自技高网...【技术保护点】
1.一种用于单腿机器人的跳跃控制模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述机器人仿真环境通过搭建MuJoCo物理引擎和引入Gym库而得到;所述单腿机器人模型是一个XML格式的文件,用于定义单腿机器人的组成和连接关系,其中,单腿机器人由身体、大腿、小腿和足部组成,所述身体和所述大腿通过大腿关节连接,所述大腿和所述小腿通过小腿关节连接,所述小腿和所述足部通过足关节连接。
3.根据权利要求2所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述初始化机器人仿真环境,包括:基于单腿机器人的跳跃场景,定义状态空间、动作空间和奖励函数;当仿真环境重置时初始化单腿机器人的状态空间。
4.根据权利要求3所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述状态空间包括:机器人身体最高点的高度、身体的角度、大腿关节的角度、小腿关节的角度、足关节的角度、身体x坐标的速度、身体z坐标的速度、身体的角速度、大腿关节的角速度、小腿关节的角速度、足关节的角速度;所述动作空间包括:大腿
5.根据权利要求1所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述通过专家策略与机器人仿真环境交互,采样多个专家轨迹是基于同一任务,分别利用专家策略与机器人仿真环境进行交互,将每次交互传入的状态空间和输出的动作空间作为一个状态动作对,经相同次数交互后,将得到的状态动作对序列作为与专家策略对应的专家轨迹;所述模仿者轨迹是生成器与机器人仿真环境交互多次产生的状态动作对序列。
6.根据权利要求5所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述利用模仿者轨迹分别与每个专家轨迹训练一个判别器,是将模仿者轨迹中的状态动作对分别与每个专家轨迹中的状态动作对拼接后传入一个判别器中,各判别器输出两个状态动作对的判别值;根据所述两个状态动作对的判别值计算出对应的判别器的梯度更新判别器参数。
7.根据权利要求6所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述根据各判别器输出的判别值计算奖励值,包括:
8.根据权利要求7所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述各判别器输出的判别值被判别器判别为正确,包括:
9.根据权利要求7所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述根据各判别器的专家可靠度系数和各判别器中模仿者轨迹对应的判别值,通过以下公式计算出奖励值:
10.根据权利要求3所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述奖励函数包括:稳定性奖励、跳跃性奖励和动作性奖励;其中,稳定性奖励是根据交互次数给予的正奖励;跳跃性奖励是通过判断机器人跳跃方向是前进或后退而给予的正奖励或负奖励;动作性奖励是对动作空间中各维度动作的平方和给予指定比例的负奖励。
...【技术特征摘要】
1.一种用于单腿机器人的跳跃控制模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述机器人仿真环境通过搭建mujoco物理引擎和引入gym库而得到;所述单腿机器人模型是一个xml格式的文件,用于定义单腿机器人的组成和连接关系,其中,单腿机器人由身体、大腿、小腿和足部组成,所述身体和所述大腿通过大腿关节连接,所述大腿和所述小腿通过小腿关节连接,所述小腿和所述足部通过足关节连接。
3.根据权利要求2所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述初始化机器人仿真环境,包括:基于单腿机器人的跳跃场景,定义状态空间、动作空间和奖励函数;当仿真环境重置时初始化单腿机器人的状态空间。
4.根据权利要求3所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述状态空间包括:机器人身体最高点的高度、身体的角度、大腿关节的角度、小腿关节的角度、足关节的角度、身体x坐标的速度、身体z坐标的速度、身体的角速度、大腿关节的角速度、小腿关节的角速度、足关节的角速度;所述动作空间包括:大腿关节、小腿关节和足关节的扭矩。
5.根据权利要求1所述的用于单腿机器人的跳跃控制模型构建方法,其特征在于,所述通过专家策略与机器人仿真环境交互,采样多个专家轨迹是基于同一任务,分别利用专家策略与机器人仿真环境进行交互,将每次交互传入的状态空间和输出的动作空间...
【专利技术属性】
技术研发人员:王博,何晓,肖登敏,王志文,田思佳,陈梦楠,
申请(专利权)人:中船智海创新研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。