用于机械臂抓取中基于可优化图像转化的策略学习方法技术

技术编号:37703763 阅读:8 留言:0更新日期:2023-06-01 23:51
本发明专利技术公开了一种用于机械臂抓取中基于可优化图像转化的策略学习方法,包括:设计任务环境,设定机械臂、目标物的参数,设置强化学习算法的超参数;搭建与任务环境一致的虚拟环境;操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,且和训练数据一起存于经验回放池;利用可优化图像转换确定表征学习下最优不变度量的计算方式;从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略。本发明专利技术能在保证策略可迁移的情况下,提升基于视觉感知的智能体的训练样本效率,从而提高视觉感知强化学习算法的学习效率和收敛速率。习效率和收敛速率。习效率和收敛速率。

【技术实现步骤摘要】
用于机械臂抓取中基于可优化图像转化的策略学习方法


[0001]本专利技术属于机器人控制
,特别是一种用于强化学习机械臂抓取控制中基于可优化图像转换的策略学习方法。

技术介绍

[0002]传统的机器人控制算法由于通常需要基于运动学和动力学方程对操纵对象进行建模,求解末端位姿与各个关节的角度值,缺乏对环境的自主学习和泛化能力,已经无法适应愈加复杂的工业应用场景。近年来,智能控制算法已经成为了机器人控制领域中的高度关注的方向,而强化学习作为人工智能领域的一个分支,已经成功应用在机器人控制中的很多方面,使机器人获得了传统算法所不能提供的自主学习能力。基于视觉感知的强化学习指智能体直接识别图像数据中的任务相关信息并采取动作,最大化获得的累加奖励,以此完成既定目标。因该方法无需专家设计的手工特征而备受关注,其应用领域广泛地包括自动驾驶、机械臂、无人机等模仿学习和强化学习场景,其中由于机械臂作为机器人的重要执行机构,针对机械臂的强化学习算法研究也得到了广泛的关注。
[0003]虽然强化学习有着自主学习的能力,并且已经在大量的游戏与博弈场景下展现出媲美人类的决策与控制能力,考虑到机械臂的操作模型较为复杂,动态环境多变,将强化学习应用在机械臂控制中仍存在亟需解决的问题。首先,直接通过视觉感知进行控制的过程中,智能体需要频繁与环境交互才能训练最优策略,导致样本效率低下,不利于应用在交互成本高的场景中;其次,在低成本的模拟环境中训练出最优策略并进行迁移的话,则会由于两种环境间数据分布的差异而导致训练出的策略在测试环境中可能是任意差的,这需要设计一种对环境无关信息鲁棒的可迁移强化学习算法,推进相关人工智能方法在现实世界中的应用。

技术实现思路

[0004]本专利技术的目的在于针对现有视觉感知强化学习机械臂控制方法中的端到端训练时样本效率低下的问题,提出了一种用于强化学习机械臂抓取控制中基于可优化图像转化的策略学习方法,能够在保证策略可迁移的情况下,提升基于视觉感知的智能体的训练样本效率,从而提高视觉感知强化学习算法的学习效率和收敛速率。
[0005]实现本专利技术目的的技术解决方案为:一种用于机械臂抓取中基于可优化图像转化的策略学习方法,所述方法包括以下步骤:
[0006]步骤1,设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数;
[0007]步骤2,使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境;
[0008]步骤3,智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池;
[0009]步骤4,利用可优化图像转换确定表征学习下最优不变度量的计算方式;
[0010]步骤5,从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略;
[0011]步骤6,将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。
[0012]进一步地,步骤2所述使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境,具体过程包括:
[0013]步骤2.1,根据实际使用的机械臂在solidwork平台上建立机械臂物理模型,并定义关节信息;
[0014]步骤2.2,使用ROS提供的solidworks转urdf的插件SW2URDF,将机械臂模型转换为Mujoco引擎所能编译识别的urdf文件;
[0015]步骤2.3,Mujoco通过生成xml文件来配置相关物理环境;
[0016]步骤2.4,在每小节交互开始时,对虚拟环境进行域随机化处理,即将环境中各个组件的纹理、颜色进行随机化,拓宽智能体训练集的分布。
[0017]进一步地,步骤3的具体过程包括:
[0018]步骤3.1,将物理环境中的机械臂的各个关节随机初始化;随机设置抓取物和任务目标的位置;并通过机械臂操作台上方的相机位获得操作台RGB图像作为状态观测值;
[0019]步骤3.2,使用可优化的图像转换对相机位获得的RGB图像进行处理,具体过程为:
[0020]环境返回的RGB图像尺寸为W1*H1,使用池化操作复制图像边缘的像素,使RGB图像尺寸扩大10%;
[0021]将RGB图像尺寸还原至W1*H1,并从图像转换参数中获得高斯分布的均值μ作为像素偏移因子加入到还原过程中所构造的坐标网格中,使RGB图像内的像素受图像转换参数控制,其中σ2为方差;此处环境返回的原始图像为o
t
,转换后的图像为o'
t

[0022]步骤3.3,机械臂根据转换后的当前状态观测值o'
t
和策略,输出动作并对其施加噪声得到a
t
,与环境交互后得到下一状态o
t+1
和奖励r
t
,奖励r
t
由目标物与任务目标的距离d和本轮交互所花费的总时间的代价函数c
t
组成;
[0023]步骤3.4,将(o
t
,a
t
,r
t
,o
t+1
)作为一组训练数据存放至经验回放池,用于后续强化学习算法的训练。
[0024]进一步地,步骤4所述利用可优化图像转换确定表征学习下最优不变度量的计算方式,具体过程包括:
[0025]步骤4.1,给定一个环境中的观测值x,假设经过转换后的观测值x'满足x'~p(
·
|e),其中,e表示经验回放池中的任意随机变量,p(
·
|e)表示一个基于e的概率分布;
[0026]对观测值x与x'二者的距离进行约束等价于平滑转换前后高维观测值的分布距离,具体由一个散度d(
·
||
·
)表示:
[0027][0028]式中,x与x'分别表示原始样本与增强样本,p表示概率分布,e表示动态转移多元组,e为动态转移多元组的整体分布,d
KL
表示KL散度,表示从经验回放池中采样而来的e的某一数学期望,p(x|e=e)与p(x'|e=e)分别表示e当中的原始样本与增强样本的分布;
[0029]步骤4.2,使用贝叶斯条件概率对步骤4.1散度表达式进行改写,表示为:
[0030][0031]式中,s表示智能体当前所处的客观真实状态;表示对于某一动态转移多元组e的数学期望;表示给定当前真实状态s的多元组e分布下的某一数学期望;p(x|e)和p(x'|e)分别表示基于某一动态转移多元组e的原始样本或增强样本的数据分布;p(s|x)与p(s|x')分别表示给定原始样本或增强样本当前状态为真实状态s的概率分布,该过程通过引入一个编码器f(
·
)实现;p(x)与p(x')分别表示原始样本或增强样本的真实先验分布;
[0032]步骤4.3,引入了一个额外的目标编码器其中表示前述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,所述方法包括以下步骤:步骤1,设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数;步骤2,使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境;步骤3,智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池;步骤4,利用可优化图像转换确定表征学习下最优不变度量的计算方式;步骤5,从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略;步骤6,将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。2.根据权利要求1所述的用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,步骤2所述使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境,具体过程包括:步骤2.1,根据实际使用的机械臂在solidwork平台上建立机械臂物理模型,并定义关节信息;步骤2.2,使用ROS提供的solidworks转urdf的插件SW2URDF,将机械臂模型转换为Mujoco引擎所能编译识别的urdf文件;步骤2.3,Mujoco通过生成xml文件来配置相关物理环境;步骤2.4,在每小节交互开始时,对虚拟环境进行域随机化处理,即将环境中各个组件的纹理、颜色进行随机化,拓宽智能体训练集的分布。3.根据权利要求1所述的用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,步骤3的具体过程包括:步骤3.1,将物理环境中的机械臂的各个关节随机初始化;随机设置抓取物和任务目标的位置;并通过机械臂操作台上方的相机位获得操作台RGB图像作为状态观测值;步骤3.2,使用可优化的图像转换对相机位获得的RGB图像进行处理,具体过程为:环境返回的RGB图像尺寸为W1*H1,使用池化操作复制图像边缘的像素,使RGB图像尺寸扩大10%;将RGB图像尺寸还原至W1*H1,并从图像转换参数中获得高斯分布的均值μ作为像素偏移因子加入到还原过程中所构造的坐标网格中,使RGB图像内的像素受图像转换参数控制,其中σ2为方差;此处环境返回的原始图像为o
t
,转换后的图像为o'
t
;步骤3.3,机械臂根据转换后的当前状态观测值o'
t
和策略,输出动作并对其施加噪声得到a
t
,与环境交互后得到下一状态o
t+1
和奖励r
t
,奖励r
t
由目标物与任务目标的距离d和本轮交互所花费的总时间的代价函数c
t
组成;在确保下一状态中机械臂各关节都处于合法角度的情况下控制机械臂运动至下一状态;步骤3.4,将(o
t
,a
t
,r
t
,o
t+1
)作为一组训练数据存放至经验回放池,用于后续强化学习算法的训练。4.根据权利要求3所述的用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,步骤4所述利用可优化图像转换确定表征学习下最优不变度量的计算方式,具体
过程包括:步骤4.1,给定一个环境中的观测值x,假设经过转换后的观测值x'满足x'~p(
·
|e),其中,e表示经验回放池中的任意随机变量,p(
·
|e)表示一个基于e的概率分布;对观测值x与x'二者的距离进行约束等价于平滑转换前后高维观测值的分布距离,具体由一个散度d(
·
||
·
)表示:式中,x与x'分别表示原始样本与增强样本,p表示概率分布,e表示动态转移多元组,e为动态转移多元组的整体分布,d
KL
表示KL散度,表示从经验回放池中采样而来的e的某一数学期望,p(x|e=e)与p(x'|e=e)分别表示e当中的原始样本与增强样本的分布;步骤4.2,使用贝叶斯条件概率对步骤4.1散度表达式进行改写,表示为:式中,s表示智能体当前所处的客观真实状态;表示对于某一动态转移多元组e的数学期望;表示给定当前真实状态s的多元组e分布下的某一数学期望;p(x|e)和p(x'|e)分别表示基于某一动态转移多元组e的原始样本或增强样本的数据分布;p(s|x)与p(s|x')分别表示给定原始样本或增强样本当前状态为真实状态s的概率分布,该过程通过引入一个编码器f(
·
)实现;p(x)与p(x')分别表示原始样本或增强样本的真实先验分布;步骤4.3,引入了一个额外的目标编码器其中表示前述的可优化图像转换,为对原始样本x进行图像转换后获得真实状态s的概率分布;步骤4.4,编码器f(x)和f

(x)间的距离d(f(x),f

(x

))由如下的三角不等式给出:d(f(x),f

(x

))≤d(f(x),f

(x))+d(f

(x),f

(x

))式中,d(f(x),f

(x))表示编码器的功能相似性;d(f

(x),f

(x

))表示使用β

相似约束图像变换操作;步骤4.5,引入自监督对比学习中的在线特征与动量特征的学习过程来约束步骤4.4不等式内的功能相似性;具体地:在保证两个编码器f(x)和f

(x)具有相同结构的前提下,在时间步骤t时基于在线编码器f
ψ
使用平均指数移动ψ
t
=(1

τ
m

t
‑1+τ
m
ψ更新动量编码器其中τ
m
∈[0,1]表示动量更新率,ψ表示在线编码器f
ψ
的参数,ψ
t
表示动量编码器在t时刻下的参数,ψ
t
‑1表示动量编码器在t

1时刻下的参数;同时还加入一个映射网络g:表示将编码器f编码得到的低维状态S映射到另一个低维空间在低维空间内最小化度量距离;通过上述对函数的凸性分析以及结构设计,最小化等价于最小化价于最小化和分别表示对样本x进行序列编码g
ψ
(f
ψ
(x))和(x))和表示动量映射网络,参数同样由ψ
t
给定;步骤4.6,引入了一种数据混合,即从学习的分布中采样多个增强样本,然后对
编码的潜在表征s

进行混合;具体地:假设f
ψ
与的收敛性假设成立,那么对于任意的输入与由图像变换生成的增强样本x

,优化前述的散度等价于最小化下述公式的上界:式中,ρ=L
f
(CL
g
+|||ψ
g
||),τ=1

τ
m
都为常数,L
g
和L
f

【专利技术属性】
技术研发人员:刘思聪周木春
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1