当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于深度强化学习的机械臂物品主动拾取方法技术

技术编号:22557665 阅读:27 留言:0更新日期:2019-11-16 01:19
本发明专利技术提出一种基于深度强化学习的机械臂物品主动拾取方法,属于人工智能和机器人应用领域。该方法首先搭建机器臂和物品拾取场景的仿真环境;搭建一个基于多个并行的U‑Net的深度Q学习网络N

An active pick-up method of mechanical arm based on deep reinforcement learning

The invention provides an active pick-up method of mechanical arm articles based on deep reinforcement learning, which belongs to the field of artificial intelligence and robot application. In this method, firstly, the simulation environment of robot arm and object picking scene is built, and a deep Q learning network N based on multiple parallel u \u2011 net is built

【技术实现步骤摘要】
一种基于深度强化学习的机械臂物品主动拾取方法
本专利技术属于机器人应用
,具体涉及一种基于深度强化学习的机械臂物品主动拾取方法。
技术介绍
鲁棒高效物品拾取作为机器人学的主要研究内容之一,随着电子商务飞速发展,广泛应用于仓储管理、无人商店和工业生产流水线中。而当前的物品拾取方法大多基于被动方式,利用摄像机拍摄当前物品堆放场景的静态图像,进行物品分割分类和位姿估计,但在实际应用中,物品拾取场景复杂,难以进行准确且高效的物品分割分类和位姿估计,往往出现物品相互遮挡、物品位姿逼近极限角度等不利于拾取的现象。但在机器人应用中,机械臂可以通过对拾取场景的主动改变,降低场景复杂性,提高拾取成功率和效率。MIT与Princeton的研究人员在2018年ICRA(国际机器人与自动化会议)上,发表题为RoboticPick-and-PlaceofNovelObjectsinClutterwithMulti-AffordanceGraspingandCross-DomainImageMatching(通过多置信图抓取和跨域图像匹配实现机器人在堆积场景下对陌生物品的拾放)的文章,该技术通过深度学习训练,提出SuctionAffordances网络(吸取位置置信值网络),输入拾取场景的彩色深度图像,输出像素级的SuctionAffordancesMap(吸取位置置信图),避免了复杂的物品分割与识别,直接得到备选拾取位置,但在复杂场景下,该网络容易输出错误值,导致拾取失败,已有方法无法有效地解决该问题。强化学习,又称为增强学习,主要包括两类方法:基于值和基于概率的方法。基于值的方法是通过对已有经验的学习,优化对不同状态下动作价值的估计函数,从而获得最优动作控制策略,被广泛应用于不确定问题里的策略搜索;深度学习,特别是卷积神经网络,在计算机领域已经取得了显著的成果,包括物体定位、物体识别以及图像语义分割等。
技术实现思路
本专利技术的目的是为克服已有技术的不足之处,提出一种基于深度强化学习的机械臂物品主动拾取方法。本专利技术具有机械臂智能地改变拾取场景的特点,能有效地降低拾取场景复杂度,同时避免低效的物品识别与分割算法,从而在复杂场景下显著提高机械臂拾取物品的成功率和效率。本专利技术提出一种基于深度强化学习的机械臂物品主动拾取方法,其特征在于,包括以下步骤:1)利用虚拟机器人实验平台V-REP搭建机械臂拾取的仿真环境;具体步骤如下:1-1)在V-REP内导入任意机械臂模型作为机械臂仿真,导入任意两指机械手模型作为机械手仿真;1-2)在V-REP内导入拾取物品模型作为拾取物品仿真;1-3)在V-REP内导入深度彩色相机模型作为深度彩色相机仿真;2)构建深度Q学习网络NQ,并在步骤1)中搭建的仿真环境对NQ进行训练,得到训练完毕的NQ;具体步骤如下:2-1)搭建深度Q学习网络NQ,其中NQ包括预测子网络NP和目标子网络NT,两个子网络结构相同,每个子网络均包含8个并行微型U-Net网络;2-2)初始化步骤2-1)建立的NQ网络并作为当前神经网络,设置存储库M容量上限D和取样数量B;2-3)令初始时刻t=1;2-4)在大小为Sm*Sn的范围内,随机初始化步骤1-3)的拾取物品模型的初始位置,构建一个拾取场景;2-5)利用步骤1-2)的深度彩色相机相机模型获取步骤2-4)构建的拾取场景的t时刻的深度彩色图像It;2-6)将It输入SuctionAffordances吸取位置置信值网络,输出t时刻吸取位置置信图SuctionAffordancesMapAfft,取Afft中最大值对应的像素坐标为xt:xt=argmax{x}(Afft)在It上选定xt周围128*128像素大小的图像I′t,I′t大小为128*128*4,对Afft进行与I′t同一区域的裁剪,得到128*128*1大小的局部suctionaffordancesmapAff′t,将I′t利用双三次插值方法在图像宽度和高度维度缩放至32*32*4的大小,得到I′ts,将I′ts作为t时刻的当前状态st;2-7)将当前状态st同时输入NQ中的预测子网络NP与目标子网络NT,两个子网络分别输出动作集{at}中各动作at的预测置信值和目标置信值2-8)机械臂模型根据当前状态st选择对应动作atc,动作选取准则如下:在[0,1]范围内产生一随机数α并进行判定:若α小于动作选取阈值∈,则机械臂模型在动作集{at}中随机选取一个动作作为atc进行执行;否则,机械臂模型根据预测子网络的输出选择置信值最大的动作作为atc进行执行,所述动作选取阈值∈在训练中随t时刻增加而减小,计算表达式如下:其中,∈start为动作选取阈值初始值,∈end为动作选取阈值终始值,tend为动作选取阈值衰减总步数;2-9)在仿真环境中利用机械臂模型和机械手模型,在t时刻执行动作atc,改变拾取环境,进入t+1时刻;2-10)在t+1时刻,重复步骤2-6),得到该时刻对应局部suctionaffordancesmapAff′t+1以及NQ在t+1时刻当前状态st+1;2-11)重复步骤2-7),得到动作集{at+1}中各动作at+1的预测置信值和目标置信值2-12)对裁剪后的图像Aff′t与Aff′t+1,计算φt=φ(Aff′t),φt+1=φ(Aff′t+1),定义奖励函数Rt(st,st+1)如下:如果φt+1>0.85,则t时刻结束状态变量Et=1;如果φt+1≤0.85,则t时刻结束状态变量Et=0;2-13)将一条状态动作记录{st,at,st+1,Rt(st,st+1),Et}放入存储库M中并对M进行判定:如果M中的记录数量小于取样数量B,则进入步骤2-15),对当前拾取场景结束状态变量Et进行判定;如果M中的记录数量大于等于取样数量B,则进入步骤2-14),利用M中的记录对当前神经网络进行训练;当M中的记录数到达容量上限D时,则最新增加的一条记录覆盖M中最早的一条记录;2-14)对当前神经网络进行训练,具体步骤如下:2-14-1)从存储库M中随机选取B条记录作为当前批次训练样本;2-14-2)根据Bellman贝尔曼方程计算每条记录i的训练目标值误差为:根据Huber胡伯函数定义网络损失函数如下:对当前批次所有训练样本的网络损失函数求和,计算当前神经网络的误差,作为优化目标值Jt:2-14-3)对Jt进行判定:若Jt趋向于设定值,且波动范围符合设定范围时,则认为NQ训练完成,得到训练完毕的网络记为进入步骤3);否则使用RMSProp前向均方根梯度下降算法优化器根据优化目标值Jt优化网络参数更新当前神经网络,然后进入步骤2-15)对当前拾取场景结束状态变量Et进行判定;2-15)令t=t+1,判定当前拾取场景本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的机械臂物品主动拾取方法,其特征在于,包括以下步骤:/n1)利用虚拟机器人实验平台V-REP搭建机械臂拾取的仿真环境;具体步骤如下:/n1-1)在V-REP内导入任意机械臂模型作为机械臂仿真,导入任意两指机械手模型作为机械手仿真;/n1-2)在V-REP内导入拾取物品模型作为拾取物品仿真;/n1-3)在V-REP内导入深度彩色相机模型作为深度彩色相机仿真;/n2)构建深度Q学习网络N

【技术特征摘要】
1.一种基于深度强化学习的机械臂物品主动拾取方法,其特征在于,包括以下步骤:
1)利用虚拟机器人实验平台V-REP搭建机械臂拾取的仿真环境;具体步骤如下:
1-1)在V-REP内导入任意机械臂模型作为机械臂仿真,导入任意两指机械手模型作为机械手仿真;
1-2)在V-REP内导入拾取物品模型作为拾取物品仿真;
1-3)在V-REP内导入深度彩色相机模型作为深度彩色相机仿真;
2)构建深度Q学习网络NQ,并在步骤1)中搭建的仿真环境对NQ进行训练,得到训练完毕的NQ;具体步骤如下:
2-1)搭建深度Q学习网络NQ,其中NQ包括预测子网络NP和目标子网络NT,两个子网络结构相同,每个子网络均包含8个并行微型U-Net网络;
2-2)初始化步骤2-1)建立的NQ网络并作为当前神经网络,设置存储库M容量上限D和取样数量B;
2-3)令初始时刻t=1;
2-4)在大小为Sm*Sn的范围内,随机初始化步骤1-3)的拾取物品模型的初始位置,构建一个拾取场景;
2-5)利用步骤1-2)的深度彩色相机相机模型获取步骤2-4)构建的拾取场景的t时刻的深度彩色图像It;
2-6)将It输入SuctionAffordances吸取位置置信值网络,输出t时刻吸取位置置信图SuctionAffordancesMapAfft,取Afft中最大值对应的像素坐标为xt:
xt=argmax{x}(Afft)
在It上选定xt周围128*128像素大小的图像I't,I't大小为128*128*4,对Afft进行与I't同一区域的裁剪,得到128*128*1大小的局部suctionaffordancesmapAff't,将I't利用双三次插值方法在图像宽度和高度维度缩放至32*32*4的大小,得到I'ts,将I'ts作为t时刻的当前状态st;
2-7)将当前状态st同时输入NQ中的预测子网络NP与目标子网络NT,两个子网络分别输出动作集{at}中各动作at的预测置信值和目标置信值
2-8)机械臂模型根据当前状态st选择对应动作atc,动作选取准则如下:
在[0,1]范围内产生一随机数α并进行判定:若α小于动作选取阈值∈,则机械臂模型在动作集{at}中随机选取一个动作作为atc进行执行;否则,机械臂模型根据预测子网络的输出选择置信值最大的动作作为atc进行执行,
所述动作选取阈值∈在训练中随t时刻增加而减小,计算表达式如下:



其中,∈start为动作选取阈值初始值,∈end为动作选取阈值终始值,tend为动作选取阈值衰减总步数;
2-9)在仿真环境中利用机械臂模型和机械手模型,在t时刻执行动作atc,改变拾取环境,进入t+1时刻;
2-10)在t+1时刻,重复步骤2-6),得到该时刻对应局部suctionaffordancesmapAff't+1以及NQ在t+1时刻当前状态st+1;
2-11)重复步骤2-7),得到动作集{at+1}中各动作at+1的预测置信值和目标置信值
2-12)对裁剪后的图像Aff't与Aff't+1,计算φt=φ(Aff't),φt+1=φ(Aff't+1),定义奖励函数Rt(st,st+1)如下:



如果φt+1>0.85,则t时刻结束状态变量Et=1;如果φt+1≤0.85,则t时刻结束状态变量Et=0;
2-13)将一条状态动作记录{st,at,st+1,Rt(st,st+1),Et}放入存储库M中并对M进行判定:
如果M中的记录数量小于取样数量B,则进入步骤2-15),对当前拾取场景结束状态变量Et进行判定;如果M中的记录数量大于等于取样数量B,则进入步骤2-14),利用M中的记录对当前神经网络进行训练;当M中的记录数到达容量上限D时,则最新增加的一条记录覆盖M中最早的...

【专利技术属性】
技术研发人员:刘华平方斌韦毅轩邓宇鸿陆恺郭晓峰郭迪孙富春
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1