当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于深度强化学习的机器人视觉伺服运动控制方法技术

技术编号:39434148 阅读:12 留言:0更新日期:2023-11-19 16:17
本发明专利技术公开了一种基于深度强化学习的机器人视觉伺服运动控制方法。包括以下步骤:首先,确定机器人的视觉伺服装配定位任务以及对应的优化目标和约束条件;接着,构建基于深度强化学习的混合视觉伺服控制器;然后,在虚拟环境中对混合视觉伺服控制器进行训练,获得训练完成的混合视觉伺服控制器,再部署到真实环境中,进而控制机器人执行实际装配定位任务。本发明专利技术利用虚拟孪生环境和深度强化学习来执行混合视觉伺服控制器的离线训练,能够保证训练过程的安全性,避免真实机器人的不必要损耗,训练后的控制器能够直接部署到真实作业场景中,实现在保证机器人视觉伺服任务稳定性的同时,提高机器人的运动性能,具有较好的工程实用价值。实用价值。实用价值。

【技术实现步骤摘要】
一种基于深度强化学习的机器人视觉伺服运动控制方法


[0001]本专利技术属于工业机器人运动控制领域的一种机器人伺服运动控制方法,特别是一种面向工业机器人视觉伺服装配定位过程的运动规划与控制方法


技术介绍

[0002]机器人装配定位是自主装配作业中的一个重要环节,它将待装配零件移动到适当的位置与参考零件进行定位

在规划机器人装配定位任务时,通常是根据参考零件在作业场景中的位姿数据确定机器人运动路径点和相应的运动指令

然而,实际应用中参考零件的位置可能与规划时发生偏离,由此导致机器人按照示教程序到达装配定位点位置后出现无法完成后续装配的情况

为了弥补上述不足,研究人员开始采用视觉伺服控制技术来实现机器人的动态装配定位,并在部分应用案例中取得了良好的效果

[0003]在视觉伺服控制技术的辅助下,机器人拥有了更高的自主能力并能够胜任更为灵活的装配任务

但是视觉伺服过程中存在的一系列约束可能会影响作业任务的稳定性和收敛性

总体而言,视觉伺服中的约束分为两大类:图像
/
相机约束和机器人
/
物理约束

图像
/
相机约束主要由视觉系统的局限性导致的,包括相机视野约束

图像雅克比奇异等

而机器人
/
物理约束产生于机器人和物理空间中,包括机器人关节约束

运动学动力学约束

防碰撞约束等

为了提高视觉伺服的稳定性,不少研究人员引入路径规划方法来改善视觉伺服作业过程,使得机器人能够应对各类约束并达到预期的作业性能

这些方法大致可以划分为以下几类:
1)
基于图像空间的路径规划,
2)
基于全局的路径规划,
3)
基于优化的路径规划

这几类针对视觉伺服的路径规划方法分别从不同的切入点解决了视觉伺服中的约束问题,提高了视觉伺服作业过程的鲁棒性

然而,这些方法仍然难以处理任务较为复杂且考虑约束较多时的情形,而且这些方法也很少考虑机器人作业过程中的运动学和动力学性能

[0004]近些年,强化学习逐渐兴起并被应用到机器人应用领域中实现一些复杂任务,如机器人自主抓取

路径跟踪以及轴孔精密装配等等

同时,研究人员也开始尝试将强化学习应用于视觉伺服中

相比于基于规划的方法依赖于模型分析,基于学习的方法则是通过与环境的交互试错自动探索出一个优化的机器人运动策略

目前,大部分文献采用
Q
学习进行机器人视觉伺服的运动规划,如相机视野约束控制

伺服增益自适应调节等等

然而,
Q
学习只能处理离散空间下的问题,无法适用于状态空间或动作空间是连续高维的情况,因此利用
Q
学习进行视觉伺服运动规划仍具有一定的局限性


技术实现思路

[0005]本专利技术为了解决机器人视觉伺服装配定位中的运动规划问题,设计了一个基于深度强化学习的混合视觉伺服
(Deep Reinforcement Learning

based Hybrid Visual Servoing,DRL

HVS)
控制器,并通过在虚拟环境中离线训练的方式实现视觉伺服的运动规划与控制

[0006]本专利技术的技术方案如下:
[0007](1)
确定机器人的视觉伺服装配定位任务以及对应的优化目标和约束条件;
[0008](2)
根据视觉伺服装配定位任务以及对应的优化目标和约束条件,构建基于深度强化学习的混合视觉伺服控制器;
[0009](3)
在虚拟环境中对基于深度强化学习的混合视觉伺服控制器进行训练,获得训练完成的混合视觉伺服控制器;
[0010](4)
将训练完成的混合视觉伺服控制器部署到真实环境中,进而控制机器人执行实际装配定位任务

[0011]所述
(1)
中,视觉伺服装配定位任务具体为:
[0012]确定机器人的起始位置和期望位置,在实现优化目标和满足约束条件的前提下,利用视觉伺服驱动机器人实现从起始位置到期望位置的装配定位,其中驱动机器人的控制过程的公式如下:
[0013][0014]v
c

[v
x
,v
y
,v
z
,
ω
x
,
ω
y
,
ω
z
]T
[0015]e

f

f
*
[0016]其中,
v
c
表示相机坐标系下相机的六自由度运动速度,
v
x
,v
y
,v
z
分别表示相机在相机坐标系的
x,y,z
轴中的速度分量,
ω
x
,
ω
y
,
ω
z
分别表示相机在相机坐标系的
x,y,z
轴中的角速度分量,
T
表示矩阵转置,
λ
为伺服增益,满足
λ
∈[0,1],为特征雅克比矩阵的伪逆矩阵的估计值,
e
表示视觉特征误差,
f

f
*
分别表示相机位于当前位置和期望位置下从图像中提取的视觉特征

[0017]所述
(1)
中,优化目标为在满足约束条件下顺利完成装配定位任务,并且机器人的运动性能达到最优

[0018]所述
(1)
中,约束条件包括相机视野约束

机器人关节约束和机器人速度约束,其中相机视野约束具体为目标物体不能离开相机的视野,机器人关节约束具体为机器人在运动过程中各关节角度不能超过其限位,机器人速度约束具体为机器人末端的速度不能超过预设上限

[0019]所述
(2)
具体为:
[0020]根据视觉伺服装配定位任务以及对应的优化目标和约束条件,构建混合视觉伺服模型,基于混合视觉伺服模型,对
DDPG
智能体进行融合处理后,获得面向混合视觉伺服的深度强化学习模型,用于调节混合视觉伺服模型的参数,由混合视觉伺服模型和深度强化学习模型组成基于深度强化学习的混合视觉伺服控制器

[0021]所述混合视觉伺服模型的公式如下:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的机器人视觉伺服运动控制方法,其特征在于,包括以下步骤:
(1)
确定机器人的视觉伺服装配定位任务以及对应的优化目标和约束条件;
(2)
根据视觉伺服装配定位任务以及对应的优化目标和约束条件,构建基于深度强化学习的混合视觉伺服控制器;
(3)
在虚拟环境中对基于深度强化学习的混合视觉伺服控制器进行训练,获得训练完成的混合视觉伺服控制器;
(4)
将训练完成的混合视觉伺服控制器部署到真实环境中,进而控制机器人执行实际装配定位任务
。2.
根据权利要求1所述的一种基于深度强化学习的机器人视觉伺服运动控制方法,其特征在于,所述
(1)
中,视觉伺服装配定位任务具体为:确定机器人的起始位置和期望位置,在实现优化目标和满足约束条件的前提下,利用视觉伺服驱动机器人实现从起始位置到期望位置的装配定位,其中驱动机器人的控制过程的公式如下:
v
c

[v
x
,v
y
,v
z
,
ω
x
,
ω
y
,
ω
z
]
T
e

f

f
*
其中,
v
c
表示相机坐标系下相机的六自由度运动速度,
v
x
,v
y
,v
z
分别表示相机在相机坐标系的
x,y,z
轴中的速度分量,
ω
x
,
ω
y
,
ω
z
分别表示相机在相机坐标系的
x,y,z
轴中的角速度分量,
T
表示矩阵转置,
λ
为伺服增益,满足
λ
∈[0,1]
,为特征雅克比矩阵的伪逆矩阵的估计值,
e
表示视觉特征误差,
f

f
*
分别表示相机位于当前位置和期望位置下从图像中提取的视觉特征
。3.
根据权利要求1所述的一种基于深度强化学习的机器人视觉伺服运动控制方法,其特征在于,所述
(1)
中,优化目标为在满足约束条件下顺利完成装配定位任务,并且机器人的运动性能达到最优
。4.
根据权利要求1所述的一种基于深度强化学习的机器人视觉伺服运动控制方法,其特征在于,所述
(1)
中,约束条件包括相机视野约束

机器人关节约束和机器人速度约束,其中相机视野约束具体为目标物体不能离开相机的视野,机器人关节约束具体为机器人在运动过程中各关节角度不能超过其限位,机器人速度约束具体为机器人末端的速度不能超过预设上限
。5.
根据权利要求1所述的一种基于深度强化学习的机器人视觉伺服运动控制方法,其特征在于,所述
(2)
具体为:根据视觉伺服装配定位任务以及对应的优化目标和约束条件,构建混合视觉伺服模型,基于混合视觉伺服模型,对
DDPG
智能体进行融合处理后,获得面向混合视觉伺服的深度强化学习模型,用于调节混合视觉伺服模型的参数,由混合视觉伺服模型和深度强化学习模型组成基于深度强化学习的混合视觉伺服控制器
。6.
根据权利要求5所述的一种基于深度强化学习的机器人视觉伺服运动控制方法,其特征在于,所述混合视觉伺服模型的公式如下:
e
H

[e
3D
,e
2D
]
T
其中,
v

c
(t)
表示修正后的相机运动速度,
v
c
(t)
表示混合视觉伺服模型得到的原始相机运动速度,
v
c
(0)
表示混合视觉伺服模型在启动时刻得到的相机运动速度,
e
H
为混合误差矩阵,
e
3D
表示
PBVS
方法中的视觉误差;
e
2D
表示
IBVS
方法中的视觉误差,表示混合特征雅克比矩阵
L
H
的估计值,
λ
为伺服增益,
H
表示权重矩阵,表示加权后的混合特征雅克比矩阵的估计值,
n

IBVS
方法中
2...

【专利技术属性】
技术研发人员:刘达新王科刘振宇谭建荣
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1