基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统技术方案

技术编号:33378431 阅读:24 留言:0更新日期:2022-05-11 22:46
本发明专利技术公开一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,步骤包括:S1.在智能体与环境交互过程中使用第一控制策略采集样本,构造基函数;S2.在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集样本,使用基函数构造样本特征并放入经验池;S3.由Critic模块从经验池中采样,使用最小二乘软贝尔曼残差更新Critic的权值系数并计算软状态动作值函数;Actor模块通过最小化软状态动作值函数的玻尔兹曼分布的KL散度,更新Actor的权值系数,获得最终的控制策略;S4.按照获得的控制策略控制智能体的机械臂抓取。本发明专利技术具有实现方法简单、控制效率及精度高等优点。优点。优点。

【技术实现步骤摘要】
基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统


[0001]本专利技术涉及智能体控制
,尤其涉及一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统。

技术介绍

[0002]如机器人等智能体对提高工业生产效率、降低生产成本以及改善人类生活质量发挥着重要的作用,其中,采用多关节机器人手臂、面向精准操控的机器人抓取系统,可被应用于更多的复杂交互场景,如家居服务、排爆救援、航空航天等领域。面向机械臂抓取的规划与控制目前通常是采用基于模型的规划控制方法和数据驱动的智能规划控制方法两类,其中基于模型的机器人规划与控制方法的优势在于能够在建立精确模型的条件下获得良好的控制性能,但是需要依赖于对机器人系统进行精确的动力学建模,因而难以处理复杂任务。另一类基于数据驱动的智能规划控制方法,以强化学习为代表,可以在不知道精确动力学模型的情况下,自动学习对复杂任务的求解。
[0003]强化学习方法是将序贯决策优化问题建模为马尔可夫决策过程,其核心在于通过智能体与环境交互,实现模型不确定情况下的自适应优化控制,对于提升机器人系统本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,其特征在于,步骤包括:S1.基函数学习:在智能体与环境交互过程中使用第一控制策略采集状态与对应的动作的样本数据,所述状态为机械臂夹爪位姿和抓取目标位姿之间的偏差量,所述动作为机械臂各关节角度增量,构成初始状态-动作对样本集,根据所述初始状态-动作对样本集构造基函数,所述第一控制策略为随机策略或基于先验知识的控制策略;S2.样本采集:在智能体与环境交互过程中通过Actor模块生成的第二控制策略采集状态与对应的动作的样本数据,得到状态-动作对,使用所述基函数构造所述状态-动作对的样本特征并放入经验池;S3.强化学习:由Critic模块从所述经验池中采样,使用最小二乘软贝尔曼残差更新所述Critic模块的权值系数并计算软状态动作值函数;所述Actor模块通过最小化策略分布、所述软状态动作值函数的玻尔兹曼分布的KL散度,更新所述Actor模块的权值系数,最终获得一个近似最优的最终的控制策略;S4.抓取控制:按照步骤S3最终获得的所述控制策略控制智能体的机械臂抓取。2.根据权利要求1所述的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,其特征在于,所述步骤S1中,通过在样本空间利用近似线性相关(Approximately Linear Dependency,ALD)的核稀疏化方法构造所述基函数,步骤包括:S11.将所述状态-动作样本对使用核函数投影到高维空间;S12.获取所述高维空间中样本之间的线性相关性;S13.选出线性无关的目标子样本作为核词典;S14.利用高斯函数构造样本点所对应的基函数。3.根据权利要求2所述的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,其特征在于,所述核词典为Ω
sub
={(s1,a1),(s2,a2),

(s
l
,a
l
)},所述步骤S14中样本点构造(s,a)∈Ω
sub
所对应的基函数为:其中,{(s,a)}为状态-动作样本对,l为基函数的维数,为高斯函数且σ为核函数的宽度。4.根据权利要求1所述的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法,其特征在于,所述步骤S2中,通过使用所述基函数将所述状态-动作对映射至样本特征空间,并根据智能体机械臂抓取前后坐标以及末端夹爪的坐标计算状态对应的奖励,将样本特征以及对应的奖励一同存入经验池,计算所述奖励的奖励函数具体为:其中,r(s)为状态s下的奖励,b
s
、g
s
、y
s
分别为状态s下抓取对象三维坐标、智能体末端夹爪的三维坐标以及抓取后放置目标点的坐标,c1、c2以及c3分别为抓取权重系数、放置权重系数以及避障权重系数,d(
·
)表示三维空间中两点之间的欧式距离。5.根据权利要求1所述的基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方
法,其特征在于,所述步骤S3中,所述Critic模块具体以核特征基函数为输入,采用线性结构逼近所述软状态动作值函数,基于最小化软贝尔曼残差,根据软贝尔曼残差不动点公式,在样本集中抽取一批次样本对所述Critic模块中参数权值进行...

【专利技术属性】
技术研发人员:徐昕兰奕星唐韬任君凯伍瑞卓方强曾宇骏施逸飞
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1