【技术实现步骤摘要】
一种基于深度强化学习算法的机械臂控制方法及系统
[0001]本专利技术涉及机械臂控制
,尤其涉及一种基于深度强化学习算法的机械臂控制方法及系统
。
技术介绍
[0002]随着人类航天活动的逐年增加,太空垃圾
、
失效航天器等需要捕获
、
修复或清理的空间非合作目标日益增多;捕获空间非合作目标的方法包括刚性方案和绳网
、
飞爪等柔性方案,刚性捕获方案主要是机械臂末端安装抓捕装置,可以通过控制机械臂精准抓捕目标,使得服务星与目标星对接非常稳固,且空间机械臂因其具有质量轻
、
灵活性高
、
操控性强等优势,在空间非合作目标的捕获任务中具有广泛的应用前景;
[0003]非合作目标具有运动轨迹不确定
、
容易逃逸等特点,是抓捕过程中的难点
。
在机械臂控制中,传统控制方法例如
PID
控制
、
计算力矩控制等,存在以下缺点,一是模型依赖性,传统控制方法通常依赖于精确的系统 ...
【技术保护点】
【技术特征摘要】
1.
一种基于深度强化学习算法的机械臂控制方法,其特征在于,包括以下步骤:获取六轴机械臂的感知数据;基于强化学习
DDPG
算法,设置经验回放池
、
智能体噪声探索和奖励函数,对感知数据进行交互优化训练,得到优化后的强化学习
DDPG
算法;将优化后的强化学习
DDPG
算法部署至六轴机械臂进行运动指导
。2.
根据权利要求1所述一种基于深度强化学习算法的机械臂控制方法,其特征在于,所述获取六轴机械臂的感知数据这一步骤,其具体包括:设置控制六轴机械臂的各个关节的力矩输入端口和转角及角速度敏感器,定义智能体的状态为六轴机械臂末端六个关节角
、
关节角速度
、
与目标分别在
x,y,z
方向上的距离误差和速度误差
、
当前各关节控制力矩
。3.
根据权利要求2所述一种基于深度强化学习算法的机械臂控制方法,其特征在于,所述强化学习
DDPG
算法包括主网络与目标网路,其中:所述主网络包括
Actor
网络和
Critic
网络,所述目标网路包括
Target Actor
网络和
Target Critic
网络;所述
Actor
网络为动作网络,以智能体的状态
s
为输入,输出确定性动作机械臂的六自由度控制力矩;所述
Critic
网络为评价网络,用于计算
Q
值,通过
Q
值评价
Actor
网络给出的动作的价值;所述
Target Actor
网络和所述
Target Critic
网络用于初始化
Actor
网络的网络参数和
Critic
网络的网络参数,并初始化
Target Actor
网络的网络参数和
Target Critic
网络的网络参数
。4.
根据权利要求3所述一种基于深度强化学习算法的机械臂控制方法,其特征在于,所述设置经验回放池这一步骤,其具体包括:智能体将得到的经验数据
(s
t
,a
t
,r
t
,s
t+1
,done)
存放在经验回放池中,更新主网络参数与目标网路参数时按照批量采样,其中
s
t
表示
t
时刻智能体状态,
a
t
表示
t
时刻智能体采取的动作,
r
t
表示
t
时刻采取动作后获得的奖励,
s
t+1
表示智能体采取动作后
t+1
时刻所到达的状态,
done
表示回合任务是否已经完成
。5.
根据权利要求4所述一种基于深度强化学习算法的机械臂控制方法,其特征在于,所述智能体噪声探索这一步骤,其具体包括:对所述
Actor
网络输出的动作进行加入噪声处理,在
Actor
网络更新时在记忆库中抽取样本的过程中,计算样本当前状态下动作
a
’
和更新前
Actor
网络输出动作
a
之间的均方误差
d
,与设定的误差阈值
d
th
进行比较,并根据比较结果对高斯噪声的标准差
s
做出调整更新,所述样本表示经验回放池中的数据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。