The invention provides an active pick-up method of mechanical arm articles based on deep reinforcement learning, which belongs to the field of artificial intelligence and robot application. In this method, firstly, the simulation environment of robot arm and object picking scene is built, and a deep Q learning network N based on multiple parallel u \u2011 net is built
【技术实现步骤摘要】
一种基于深度强化学习的机械臂物品主动拾取方法
本专利技术属于机器人应用
,具体涉及一种基于深度强化学习的机械臂物品主动拾取方法。
技术介绍
鲁棒高效物品拾取作为机器人学的主要研究内容之一,随着电子商务飞速发展,广泛应用于仓储管理、无人商店和工业生产流水线中。而当前的物品拾取方法大多基于被动方式,利用摄像机拍摄当前物品堆放场景的静态图像,进行物品分割分类和位姿估计,但在实际应用中,物品拾取场景复杂,难以进行准确且高效的物品分割分类和位姿估计,往往出现物品相互遮挡、物品位姿逼近极限角度等不利于拾取的现象。但在机器人应用中,机械臂可以通过对拾取场景的主动改变,降低场景复杂性,提高拾取成功率和效率。MIT与Princeton的研究人员在2018年ICRA(国际机器人与自动化会议)上,发表题为RoboticPick-and-PlaceofNovelObjectsinClutterwithMulti-AffordanceGraspingandCross-DomainImageMatching(通过多置信图抓取和跨域图像匹配实现机器人在堆积场景下对陌生物品的拾放)的文章,该技术通过深度学习训练,提出SuctionAffordances网络(吸取位置置信值网络),输入拾取场景的彩色深度图像,输出像素级的SuctionAffordancesMap(吸取位置置信图),避免了复杂的物品分割与识别,直接得到备选拾取位置,但在复杂场景下,该网络容易输出错误值,导致拾取失败,已有方法无法有效地解决该问题。强化学习,又称为增 ...
【技术保护点】
1.一种基于深度强化学习的机械臂物品主动拾取方法,其特征在于,包括以下步骤:/n1)利用虚拟机器人实验平台V-REP搭建机械臂拾取的仿真环境;具体步骤如下:/n1-1)在V-REP内导入任意机械臂模型作为机械臂仿真,导入任意两指机械手模型作为机械手仿真;/n1-2)在V-REP内导入拾取物品模型作为拾取物品仿真;/n1-3)在V-REP内导入深度彩色相机模型作为深度彩色相机仿真;/n2)构建深度Q学习网络N
【技术特征摘要】
1.一种基于深度强化学习的机械臂物品主动拾取方法,其特征在于,包括以下步骤:
1)利用虚拟机器人实验平台V-REP搭建机械臂拾取的仿真环境;具体步骤如下:
1-1)在V-REP内导入任意机械臂模型作为机械臂仿真,导入任意两指机械手模型作为机械手仿真;
1-2)在V-REP内导入拾取物品模型作为拾取物品仿真;
1-3)在V-REP内导入深度彩色相机模型作为深度彩色相机仿真;
2)构建深度Q学习网络NQ,并在步骤1)中搭建的仿真环境对NQ进行训练,得到训练完毕的NQ;具体步骤如下:
2-1)搭建深度Q学习网络NQ,其中NQ包括预测子网络NP和目标子网络NT,两个子网络结构相同,每个子网络均包含8个并行微型U-Net网络;
2-2)初始化步骤2-1)建立的NQ网络并作为当前神经网络,设置存储库M容量上限D和取样数量B;
2-3)令初始时刻t=1;
2-4)在大小为Sm*Sn的范围内,随机初始化步骤1-3)的拾取物品模型的初始位置,构建一个拾取场景;
2-5)利用步骤1-2)的深度彩色相机相机模型获取步骤2-4)构建的拾取场景的t时刻的深度彩色图像It;
2-6)将It输入SuctionAffordances吸取位置置信值网络,输出t时刻吸取位置置信图SuctionAffordancesMapAfft,取Afft中最大值对应的像素坐标为xt:
xt=argmax{x}(Afft)
在It上选定xt周围128*128像素大小的图像I't,I't大小为128*128*4,对Afft进行与I't同一区域的裁剪,得到128*128*1大小的局部suctionaffordancesmapAff't,将I't利用双三次插值方法在图像宽度和高度维度缩放至32*32*4的大小,得到I'ts,将I'ts作为t时刻的当前状态st;
2-7)将当前状态st同时输入NQ中的预测子网络NP与目标子网络NT,两个子网络分别输出动作集{at}中各动作at的预测置信值和目标置信值
2-8)机械臂模型根据当前状态st选择对应动作atc,动作选取准则如下:
在[0,1]范围内产生一随机数α并进行判定:若α小于动作选取阈值∈,则机械臂模型在动作集{at}中随机选取一个动作作为atc进行执行;否则,机械臂模型根据预测子网络的输出选择置信值最大的动作作为atc进行执行,
所述动作选取阈值∈在训练中随t时刻增加而减小,计算表达式如下:
其中,∈start为动作选取阈值初始值,∈end为动作选取阈值终始值,tend为动作选取阈值衰减总步数;
2-9)在仿真环境中利用机械臂模型和机械手模型,在t时刻执行动作atc,改变拾取环境,进入t+1时刻;
2-10)在t+1时刻,重复步骤2-6),得到该时刻对应局部suctionaffordancesmapAff't+1以及NQ在t+1时刻当前状态st+1;
2-11)重复步骤2-7),得到动作集{at+1}中各动作at+1的预测置信值和目标置信值
2-12)对裁剪后的图像Aff't与Aff't+1,计算φt=φ(Aff't),φt+1=φ(Aff't+1),定义奖励函数Rt(st,st+1)如下:
如果φt+1>0.85,则t时刻结束状态变量Et=1;如果φt+1≤0.85,则t时刻结束状态变量Et=0;
2-13)将一条状态动作记录{st,at,st+1,Rt(st,st+1),Et}放入存储库M中并对M进行判定:
如果M中的记录数量小于取样数量B,则进入步骤2-15),对当前拾取场景结束状态变量Et进行判定;如果M中的记录数量大于等于取样数量B,则进入步骤2-14),利用M中的记录对当前神经网络进行训练;当M中的记录数到达容量上限D时,则最新增加的一条记录覆盖M中最早的...
【专利技术属性】
技术研发人员:刘华平,方斌,韦毅轩,邓宇鸿,陆恺,郭晓峰,郭迪,孙富春,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。