一种基于TD3的机械手臂6-DOF物体操纵训练方法及系统技术方案

技术编号:37140222 阅读:19 留言:0更新日期:2023-04-06 21:44
本发明专利技术涉及基于TD3的机械手臂6

【技术实现步骤摘要】
一种基于TD3的机械手臂6

DOF物体操纵训练方法及系统


[0001]本专利技术涉及一种协作机械手臂的物体操纵的模型训练系统,尤其是一种针对复杂环境下机械手臂六自由度操纵以及路径生成模型的训练系统。

技术介绍

[0002]工业4.0”的提出以后,现代制造业逐渐从大规模生产转向大规模定制,增加产品个性化,缩短产品生命周期。其中协作机器人因为其轻型、体积小其安全的特点,开始大规模应用于装配、拆解、轻量化加工(3C、汽车、包装等)、检测等任务,这些任务对机械手臂的灵活性和智能化程度提出了更高的要求,而机械手臂灵活地操纵物体是实现机器人智能化不可或缺的一环。
[0003]自主抓取要求机械手臂能够根据所处地环境自主选择抓取策略,为了实现这一目标,机械手臂需要与环境进行交互,根据交互中传感器采集到的信息进行决策并操纵物体,是一个涉及感知、规划和控制的挑战性问题。过去机械手臂物体应用大多数采用机器视觉的技术,在物体形状、大小相对固定、无明显遮挡的以及夹持器保持垂直工作平面的姿态进行物体操纵,且通常是对单视角下的图像信息提取特征来检测目标物体位置。
[0004]过去机械手臂操纵应用大多数集中精力于工业零件的搬运和分拣等,当操纵相对于形状更加复杂的物体,传统的机械手臂操纵方法显然无法满足要求,而神经网络模型学习的方法需要在实际环境中大量采集数据,成本很高。当面临复杂的操纵任务时,自上而下的操纵方式一定程度上限制了操纵的多样性,当碰到物体上方有遮挡物或者任务施加额外约束的情况,操纵对象几乎是不可能。<br/>[0005]传统的工业零件操纵通常采用利用手工设计的特征进行目标物体检测,这种几何驱动的方法面对物体形状较为复杂的家用物体效果不好。但是基于深度学习还是机器学习的策略,都需要人为地提供大量的数据或样本,扩展到新对象时既困难又耗时,灵活性有所欠缺。

技术实现思路

[0006]本专利技术的目的在于针对现有方法的不足,提出一种基于TD3的机械手臂6

DOF物体操纵训练方法及系统。
[0007]为解决上述技术问题,本专利技术采用如下技术方案:
[0008]基于TD3的机械手臂6

DOF物体操纵训练方法包括以下步骤:
[0009]步骤S1,建立机械手臂操纵任务的马尔可夫决策过程模型,确定操纵过程中的环境状态、动作以及回报;
[0010]步骤S2,机械手臂数据采集和预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理,并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S;
[0011]步骤S3,操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基
于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω,并估计预期回报;
[0012]步骤S4,路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成;
[0013]步骤S5,训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵,并在交互中储存得到的数据并更新网络,从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。
[0014]进一步地,步骤S1中利用马尔可夫决策过程对抓取过程进行建模,其步骤如下:
[0015]步骤1.1,利用目标抓取过程满足马尔可夫性,用下式来表示马尔可夫决策过程:
[0016]M=(S,A,P,R,γ)
[0017]式中,s代表环境中所有可能状态的集合,在此抓取模型中状态为相机采集三维点云和机器人末端姿态的融合数据;A表示智能体所有可能执行的动作集合,在此抓取模型中行为为执行器末端六个自由度的位姿X;P为状态转移概率,即状态s下采取行为A后到达状态s

的概率;在此抓取模型中用采取动作A后观测到的环境状态参数来表示s

;R为奖励,采用稀疏的奖励函数,状态s下执行抓取动作A后,如果抓取成功,则根据抓取姿态和稳定性给予一个奖励,如未完成抓取则奖励为0,γ为折扣因子,γ∈[0,1];
[0018]步骤1.2,机器人和环境会在一系列离散的时间步(t=0,1,2,3,...)中进行交互,用一条轨迹表示:
[0019]τ=(S0,A0,R0,s1,A1,R1,S2,A2,R2,

S
t
,A
t
,R
t
)
[0020]式中,S
t
,A
t
,R
t
分别代表t时刻下马尔可夫决策过程中的状态、动作和奖励;
[0021]步骤1.3,抓取强化学习的任务是找到一个控制策略μ;S

A,最大化期望抓取回报G
t

[0022][0023]利用动作值函数Q
μ
(s
t
,a
t
)来描述策略μ下抓取的预期回报:
[0024][0025]式中,Q
μ
(s
t
,a
t
)代表策略μ下的动作值函数,E
μ
[G
t
|S
t
=s
t
,A
t
=a
t
]表示状态s
t
下当采取动作a
t
时,在策略μ下预期回报G
t
的数学期望;
[0026]步骤1.4,为了找寻最优策略μ
*
,需要找到最优动作值函数Q
*
(s
t
,a
t
),然后对最优动作值函数求解获取最优策略μ
*
,用贝尔曼方程处理:
[0027][0028]式中,s
t+1
~P表示t+1时刻的观测量是从环境中观测到的,μ(s
t+1
)表示t+1时刻策略μ下状态s
t+1
映射的动作a
t+1
;r(s
t
,a
t
)为状态状态s
t
下当采取动作a
t
时的奖励,E(*)表示策略μ下预期回报G
t
的数学期望。
[0029]进一步地,所述环境中所有可能状态的集合s包括环境状态点云C、机器人末端位姿X和关节角以及夹持器的反馈信息d,其中n表示机器人第n个关节,θ
i
表示机器人第i个关节的角度。
[0030]进一步地,所述步骤S2中采用数据采集与预处理模块对多个深度相机采集的点云进行拼接、降噪和滤波处理并融合多传感器信息得到环境状态参数S,其步骤如下:
[0031]步骤2.1,根据相机厂家提供的相机内参数,获取相机C
i
的焦距(f
x
,f
y本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于TD3的机械手臂6

DOF物体操纵训练方法,其特征在于,包括以下步骤:步骤S1,建立机械手臂操纵任务的马尔可夫决策过程模型,确定操纵过程中的环境状态、动作以及回报;步骤S2,机械手臂数据采集和预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理,并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S;步骤S3,操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω,并估计预期回报;步骤S4,路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成;步骤S5,训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵,并在交互中储存得到的数据并更新网络,从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。2.根据权利要求书1所述的基于TD3的机械手臂6

DOF物体操纵训练方法,其特征在于,步骤S1中利用马尔可夫决策过程对抓取过程进行建模,其步骤如下:步骤1.1,利用目标抓取过程满足马尔可夫性,用下式来表示马尔可夫决策过程:M=(S,A,P,R,γ)式中,S代表环境中所有可能状态的集合,在此抓取模型中状态为相机采集三维点云和机器人末端姿态的融合数据;A表示智能体所有可能执行的动作集合,在此抓取模型中行为为执行器末端六个自由度的位姿X;P为状态转移概率,即状态s下采取行为A后到达状态s

的概率;在此抓取模型中用采取动作A后观测到的环境状态参数来表示s

;R为奖励,采用稀疏的奖励函数,状态s下执行抓取动作A后,如果抓取成功,则根据抓取姿态和稳定性给予一个奖励,如未完成抓取则奖励为0,γ为折扣因子,γ∈[0,1];步骤1.2,机器人和环境会在一系列离散的时间步(t=0,1,2,3,...)中进行交互,用一条轨迹表示:τ=(S0,A0,R0,S1,A1,R1,S2,A2,R2,

S
t
,A
t
,R
t
)式中,S
t
,A
t
,R
t
分别代表t时刻下马尔可夫决策过程中的状态、动作和奖励;步骤1.3,抓取强化学习的任务是找到一个控制策略μ;S

A,最大化期望抓取回报G
t
:利用动作值函数Q
μ
(s
t
,a
t
)来描述策略μ下抓取的预期回报:式中,Q
μ
(s
t
,a
t
)代表策略
μ
下的动作值函数,E
μ
[G
t
|S
t
=s
t
,A
t
=a
t
]表示状态s
t
下当采取动作a
t
时,在策略μ下预期回报G
t
的数学期望;步骤1.4,为了找寻最优策略μ
*
,需要找到最优动作值函数Q
*
(s
t
,a
t
),然后对最优动作值函数求解获取最优策略μ
*
,用贝尔曼方程处理:式中,s
t+1
~P表示t+1时刻的观测量是从环境中观测到的,μ(s
t+1
)表示t+1时刻策略μ下
状态s
t+1
映射的动作a
t+1
;r(s
t
,a
t
)为状态状态s
t
下当采取动作a
t
时的奖励,E(*)表示策略μ下预期回报G
t
的数学期望。3.根据权利要求书2所述的基于TD3的机械手臂6

DOF物体操纵训练方法,其特征在于,所述环境中所有可能状态的集合S包括环境状态点云C、机器人末端位姿X和关节角以及夹持器的反馈信息d,其中n表示机器人第n个关节,θ
i
表示机器人第i个关节的角度。4.根据权利要求书1所述的基于TD3的机械手臂6

DOF物体操纵训练方法,其特征在于,所述步骤S2中采用数据采集与预处理模块对多个深度相机采集的点云进行拼接、降噪和滤波处理并融合多传感器信息得到环境状态参数S,其步骤如下:步骤2.1,根据相机厂家提供的相机内参数,获取相机C
i
的焦距(f
x
,f
y
)和光心(C
x
,...

【专利技术属性】
技术研发人员:周勇贺辉腾李卫东胡楷雄
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1