一种基于深度强化学习的机器人视觉伺服运动控制方法技术

技术编号：39434148 阅读：12 留言：0更新日期：2023-11-19 16:17

本发明专利技术公开了一种基于深度强化学习的机器人视觉伺服运动控制方法。包括以下步骤：首先，确定机器人的视觉伺服装配定位任务以及对应的优化目标和约束条件；接着，构建基于深度强化学习的混合视觉伺服控制器；然后，在虚拟环境中对混合视觉伺服控制器进行训练，获得训练完成的混合视觉伺服控制器，再部署到真实环境中，进而控制机器人执行实际装配定位任务。本发明专利技术利用虚拟孪生环境和深度强化学习来执行混合视觉伺服控制器的离线训练，能够保证训练过程的安全性，避免真实机器人的不必要损耗，训练后的控制器能够直接部署到真实作业场景中，实现在保证机器人视觉伺服任务稳定性的同时，提高机器人的运动性能，具有较好的工程实用价值。实用价值。实用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的机器人视觉伺服运动控制方法

[0001]本专利技术属于工业机器人运动控制领域的一种机器人伺服运动控制方法，特别是一种面向工业机器人视觉伺服装配定位过程的运动规划与控制方法
。

技术介绍

[0002]机器人装配定位是自主装配作业中的一个重要环节，它将待装配零件移动到适当的位置与参考零件进行定位
。
在规划机器人装配定位任务时，通常是根据参考零件在作业场景中的位姿数据确定机器人运动路径点和相应的运动指令
。
然而，实际应用中参考零件的位置可能与规划时发生偏离，由此导致机器人按照示教程序到达装配定位点位置后出现无法完成后续装配的情况
。
为了弥补上述不足，研究人员开始采用视觉伺服控制技术来实现机器人的动态装配定位，并在部分应用案例中取得了良好的效果
。
[0003]在视觉伺服控制技术的辅助下，机器人拥有了更高的自主能力并能够胜任更为灵活的装配任务
。
但是视觉伺服过程中存在的一系列约束可能会影响作业任务的稳定性和收敛性
。
总体而言，视觉伺服中的约束分为两大类：图像
/
相机约束和机器人
/
物理约束
。
图像
/
相机约束主要由视觉系统的局限性导致的，包括相机视野约束
、
图像雅克比奇异等
。
而机器人
/
物理约束产生于机器人和物理空间中，包括机器人关节约束
、
运动学...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的机器人视觉伺服运动控制方法，其特征在于，包括以下步骤：
(1)
确定机器人的视觉伺服装配定位任务以及对应的优化目标和约束条件；
(2)
根据视觉伺服装配定位任务以及对应的优化目标和约束条件，构建基于深度强化学习的混合视觉伺服控制器；
(3)
在虚拟环境中对基于深度强化学习的混合视觉伺服控制器进行训练，获得训练完成的混合视觉伺服控制器；
(4)
将训练完成的混合视觉伺服控制器部署到真实环境中，进而控制机器人执行实际装配定位任务
。2.
根据权利要求1所述的一种基于深度强化学习的机器人视觉伺服运动控制方法，其特征在于，所述
(1)
中，视觉伺服装配定位任务具体为：确定机器人的起始位置和期望位置，在实现优化目标和满足约束条件的前提下，利用视觉伺服驱动机器人实现从起始位置到期望位置的装配定位，其中驱动机器人的控制过程的公式如下：
v
c
＝
[v
x
,v
y
,v
z
,
ω
x
,
ω
y
,
ω
z
]
T
e
＝
f
‑
f
*
其中，
v
c
表示相机坐标系下相机的六自由度运动速度，
v
x
,v
y
,v
z
分别表示相机在相机坐标系的
x,y,z
轴中的速度分量，
ω
x
,
ω
y
,
ω
z
分别表示相机在相机坐标系的
x,y,z
轴中的角速度分量，
T
表示矩阵转置，
λ
为伺服增益，满足
λ
∈[0,1]
，为特征雅克比矩阵的伪逆矩阵的估计值，
e
表示视觉特征误差，
f
和
f
*
分别表示相机位于当前位置和期望位置下从图像中提取的视觉特征
。3.
根据权利要求1所述的一种基于深度强化学习的机器人视觉伺服运动控制方法，其特征在于，所述
(1)
中，优化目标为在满足约束条件下顺利完成装配定位任务，并且机器人的运动性能达到最优
。4.
根据权利要求1所述的一种基于深度强化学习的机器人视觉伺服运动控制方法，其特征在于，所述
(1)
中，约束条件包括相机视野约束
、
机器人关节约束和机器人速度约束，其中相机视野约束具体为目标物体不能离开相机的视野，机器人关节约束具体为机器人在运动过程中各关节角度不能超过其限位，机器人速度约束具体为机器人末端的速度不能超过预设上限
。5.
根据权利要求1所述的一种基于深度强化学习的机器人视觉伺服运动控制方法，其特征在于，所述
(2)
具体为：根据视觉伺服装配定位任务以及对应的优化目标和约束条件，构建混合视觉伺服模型，基于混合视觉伺服模型，对
DDPG
智能体进行融合处理后，获得面向混合视觉伺服的深度强化学习模型，用于调节混合视觉伺服模型的参数，由混合视觉伺服模型和深度强化学习模型组成基于深度强化学习的混合视觉伺服控制器
。6.
根据权利要求5所述的一种基于深度强化学习的机器人视觉伺服运动控制方法，其特征在于，所述混合视觉伺服模型的公式如下：
e
H
＝
[e
3D
,e
2D
]
T
其中，
v
′
c
(t)
表示修正后的相机运动速度，
v
c
(t)
表示混合视觉伺服模型得到的原始相机运动速度，
v
c
(0)
表示混合视觉伺服模型在启动时刻得到的相机运动速度，
e
H
为混合误差矩阵，
e
3D
表示
PBVS
方法中的视觉误差；
e
2D
表示
IBVS
方法中的视觉误差，表示混合特征雅克比矩阵
L
H
的估计值，
λ
为伺服增益，
H
表示权重矩阵，表示加权后的混合特征雅克比矩阵的估计值，
n
为
IBVS
方法中
2...

【专利技术属性】
技术研发人员：刘达新，王科，刘振宇，谭建荣，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人