当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于深度强化学习的四足机器人越障控制方法技术

技术编号:39439013 阅读:18 留言:0更新日期:2023-11-19 16:22
本发明专利技术公开了一种基于深度强化学习的四足机器人越障控制方法,涉及机器人学和深度强化学习控制技术领域,包括搭建仿真环境,建立四足机器人模型,确定机器人各项参数;利用运动重定向技术,将动捕到的数据映射到A1机器人上,强化学习训练;搭建深度强化学习框架;在仿真环境中部署跳跃控制器完成越障动作。本发明专利技术提出的基于深度强化学习的四足机器人越障控制方法具有更好的适应性,更强的灵活性,泛化性和鲁棒性。性和鲁棒性。性和鲁棒性。

【技术实现步骤摘要】
一种基于深度强化学习的四足机器人越障控制方法


[0001]本专利技术涉及机器人学和深度强化学习控制
,特别是一种基于深度强化学习的四足机器人越障控制方法。

技术介绍

[0002]四足机器人因其稳定性和越障能力优越,已广泛应用于探索、救援、运输等领域。传统的方法主要依赖于基于规则的控制方法、基于模型的控制方法和基于优化的控制方法。这些方法主要依赖预设的运动规划和控制策略,在处理复杂、变化的环境中往往效果不佳。现主要包含三种控制方法:基于规则的控制方法:这种方法主要依赖预设的运动规划和控制策略,如中心重心控制、零动量点控制等,在处理简单、稳定的环境中效果较好。但是在处理复杂、变化的环境中,预设的规则往往无法覆盖所有的环境和情况,当遇到未遇见的情况时,机器人的表现往往会下降。此外,规则的设计和调整通常需要大量的人工工作和专业知识。基于模型的控制方法:这种方法首先建立机器人的运动学或运动学模型,然后根据模型设计控制策略。例如,基于逆动力学控制方法,基于逆运动学的控制方法等。然而,这种方法的效果往往依赖于模型的准确性,在实际应用中,由于各种因素(如摩擦、未建模的动态等),模型往往无法完全准确。此外,对于复杂的机器人系统,建立准确的模型可能非常困难。基于优化的控制方法:这种方法将控制问题转化为优化问题,通过求解优化问题来得到控制策略。例如,基于模型预测控制(Model Predictive Control,MPC)的方法,基于优化的轨迹规划方法等。但是,这种方法通常需要大量的计算资源,优化问题的设计(如目标函数和约束的选择)可能需要大量的人工工作和专业知识。

技术实现思路

[0003]鉴于上述和/或现有的四足机器人控制中存在的问题,提出了本专利技术。
[0004]因此,本专利技术所要解决的问题在于如何提供一种含有较强的灵活性,更强的泛化性和对抗外界干扰的鲁棒性的四足机器人的越障控制方法。
[0005]为解决上述技术问题,本专利技术提供如下技术方案:
[0006]第一方面,本专利技术实施例提供了一种基于深度强化学习的四足机器人越障控制方法,其包括建立四足机器人模型,确定机器人各项参数;利用运动重定向技术,将动捕到的数据映射到A1机器人上,强化学习训练;搭建深度强化学习框架,训练完成跳跃控制器;在仿真环境中部署跳跃控制器完成越障动作。
[0007]作为本专利技术所述基于深度强化学习的四足机器人越障控制方法的一种优选方案,其中:所述利用运动重定向技术,将动捕到的数据映射到A1机器人上,强化学习训练的具体过程包括:对采集到的动捕数据进行清洗,通过滤波去除存在的异常值和噪音;根据A1机器人的各关节长度信息和采集到的动捕数据获取的每个关节长度信息,通过A1机器人关节长度与动捕到的关节长度的比值计算缩放比例,将动作的关节长度缩放至与目标机器人相配;关键点选择;根据选择的关键点在数据中进行关键点提取;通过关键点提取,从动捕数
据中获取目标位置和姿态,通过逆运动学计算出使得四足机器人足端到达目标位置和姿态的关节角度。
[0008]作为本专利技术所述基于深度强化学习的四足机器人越障控制方法的一种优选方案,其中:所述逆运动学的求解结果如下:
[0009][0010][0011][0012]其中l1、l2和l3分别为髋关节、大腿关节和小腿关节长度,p
x
,p
y
,p
z
为足端在髋关节坐标系下的坐标,m,x,n,k均为过程变量,r为基准坐标系。
[0013]作为本专利技术所述基于深度强化学习的四足机器人越障控制方法的一种优选方案,其中:所述搭建深度强化学习框架具体步骤为:根据环境决定状态空间S,用于决策和学习,并作为强化学习算法的输入决定下一动作,计算奖励函数,更新算法的策略;根据强化学习算法决定决策动作,用于控制机器人;奖励函数为强化学习算法提供学习方向,函数强化学习算法通过最大化累计奖励来学习最优策略;构建PPO强化学习算法深度神经网络结构;所述深度神经网络结构包括状态价值网络结构和策略网络结构;基于ppo算法进行控制器训练。
[0014]作为本专利技术所述基于深度强化学习的四足机器人越障控制方法的一种优选方案,其中:所述状态空间S描述为8维向量空间包括:
[0015]S=[H
body
,θ,v,ang,pos,point,H
jump
,s
jump
][0016]其中,H
body
为机器人基础高度,θ为机器人在局部坐标系中的角速度,v为基础线速度,ang为基础角速度,pos为关节位置,point为关键点,H
jump
为跳跃高度,s
jump
为跳跃信号。
[0017]作为本专利技术所述基于深度强化学习的四足机器人越障控制方法的一种优选方案,其中:所述奖励函数包括:目标高度奖励:r
hight
=5;线速度跟踪奖励:r
line
=5;角速度跟踪奖励:r
angle
=5;跳跃奖励:r
jump
=5;提前终止负奖励:r
termination


5;超出关节限位的负奖励:r
limit
=5。
[0018]作为本专利技术所述基于深度强化学习的四足机器人越障控制方法的一种优选方案,其中:所述在仿真环境中部署跳跃控制器完成越障动作的过程包括:将训练好跳跃控制器部署到仿真环境中A1机器人身上,调整参数速度v=1.78m/s,控制四足机器人完成越障动作;使用isaacgym仿真环境,在仿真环境中设置障碍物的长为1m,宽为0.25m,高为0.55m。
[0019]第二方面,本专利技术为进一步解决现有的四足机器人控制中存在的问题,实施例提供了一种基于深度强化学习的四足机器人越障控制系统,包括:采集模块,用于搭建仿真环境,建立四足机器人模型,确定机器人各项参数;跳跃控制器训练模块,用于利用运动重定向技术,将动捕到的数据映射到A1机器人上,并搭建深度强化学习框架,完成对跳跃控制器的训练;所述跳跃控制器训练的具体过程包括对采集到的动捕数据进行清洗,通过滤波去除存在的异常值和噪音;根据A1机器人的各关节长度信息和采集到的动捕数据获取的每个关节长度信息,通过A1机器人关节长度与动捕到的关节长度的比值计算缩放比例,将动作
的关节长度缩放至与目标机器人相配;关键点选择;根据选择的关键点在数据中进行关键点提取;通过关键点提取,从动捕数据中获取目标位置和姿态,通过逆运动学计算出使得四足机器人足端到达目标位置和姿态的关节角度;所述逆运动学的求解结果如下:
[0020][0021][0022][0023]其中l1、l2和l3分别为髋关节、大腿关节和小腿关节长度,p
x
,p
y
和p
z
为足端在髋关节坐标系下的坐标,m,x,n,k均为过程变量,r为基准坐标系;所述搭建深度强化学习框架具体步骤为:根据环本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的四足机器人越障控制方法,其特征在于:包括:建立四足机器人模型,确定机器人各项参数;利用运动重定向技术,将动捕到的数据映射到A1机器人上,强化学习训练;搭建深度强化学习框架,训练完成跳跃控制器;部署跳跃控制器完成越障动作。2.如权利要求1所述的基于深度强化学习的四足机器人越障控制方法,其特征在于:所述利用运动重定向技术,将动捕到的数据映射到A1机器人上,强化学习训练的具体过程包括:对采集到的动捕数据进行清洗,通过滤波去除存在的异常值和噪音;根据A1机器人的各关节长度信息和采集到的动捕数据获取的每个关节长度信息,通过A1机器人关节长度与动捕到的关节长度的比值计算缩放比例,将动作的关节长度缩放至与目标机器人相配;关键点选择;根据选择的关键点在数据中进行关键点提取;通过关键点提取,从动捕数据中获取目标位置和姿态,通过逆运动学计算出使得四足机器人足端到达目标位置和姿态的关节角度。3.如权利要求2所述的基于深度强化学习的四足机器人越障控制方法,其特征在于:所述逆运动学的求解结果如下:述逆运动学的求解结果如下:述逆运动学的求解结果如下:其中l1、l2和l3分别为髋关节、大腿关节和小腿关节长度,p
x
,p
y
和p
z
为足端在髋关节坐标系下的坐标,m,x,n,k均为过程变量,r为基准坐标系。4.所述如权利要求3所述的基于深度强化学习的四足机器人越障控制方法,其特征在于:所述搭建深度强化学习框架具体步骤为:根据环境决定状态空间S,用于决策和学习,并作为强化学习算法的输入决定下一动作,计算奖励函数,更新算法的策略;根据强化学习算法决定决策动作,用于控制机器人;奖励函数为强化学习算法提供学习方向,函数强化学习算法通过最大化累计奖励来学习最优策略;构建PPO强化学习算法深度神经网络结构;所述深度神经网络结构包括状态价值网络结构和策略网络结构;基于ppo算法进行控制器训练。5.如权利要求4所述的基于深度强化学习的四足机器人越障控制方法,其特征在于:所述状态空间S描述为8维向量空间包括:
S=[H
body
,θ,v,ang,pos,point,H
jump
,s
jump
]其中,H
body
为机器人基础高度,θ为机器人在局部坐标系中的角速度,v为基础线速度,ang为基础角速度,pos为关节位置,point为关键点,H
jump
为跳跃高度,s
jump
为跳跃信号。6.如权利要求5所述的基于深度强化学习的四足机器人越障控制方法,其特征在于:所述奖励函数包括:目标高度奖励:r
hight
=5;线速度跟踪奖励:r
line
=5;角速度跟踪奖励:r
angle
=5;跳跃奖励:r
jump
=5;提前终止负奖励:r
termination


5;超出关节限位的负奖励:r
limit
=5。7....

【专利技术属性】
技术研发人员:宋智功韩江
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1