一种基于深度强化学习的机器人抓取多目标物的训练方法技术

技术编号:31591093 阅读:21 留言:0更新日期:2021-12-25 11:38
本发明专利技术提供的一种基于深度强化学习的机器人抓取多目标物的训练方法,包括:预先构建机械臂抓取目标群体的多个虚拟场景;建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据;建立第二类深度强化学习网络对多个样本数据进行特征学习,将其中的相同特征传递正相关反馈至内部网络结构中,并根据网络结构的输出生成最终的多目标抓取规则模型。本发明专利技术提供一种基于深度强化学习的机器人抓取多目标物的训练方法,能够输出适用于各种不同抓取环境的多目标抓取规则模型。不同抓取环境的多目标抓取规则模型。不同抓取环境的多目标抓取规则模型。

【技术实现步骤摘要】
一种基于深度强化学习的机器人抓取多目标物的训练方法


[0001]本专利技术涉及自动化控制领域,特别涉及一种基于深度强化学习的机器人抓取多目标物的训练方法。

技术介绍

[0002]随着机器人技术的发展,现有机器人抓取技术应用场景不断扩展,以抓取成功率为网络训练目标的强化学习方法无法有效满足不同应用场景对机器人进行抓取的多指标差异化需求。机器人抓取行为的高效多目标优化,对提高机器人定制化工作能力,扩展机器人的应用场景具有重要的现实意义。
[0003]深度强化学习算法有明显的智能性与鲁棒性,基于环境的反馈,通过不断与环境交互、试错,最终完成特定目的。在应用于机器人抓取场景时,可以发挥其算法优势。在机器人抓取过程中,存在多种抓取评价指标,在追求高抓取成功率的同时对机器人执行时间、执行功耗等多目标进行协同优化,有利于综合提高机器人的高效性与智能性。
[0004]现有的机器人抓取多目标物体的深度强化学习方法,大都是通过多次对某一个固定应用场景的多目标物体进行抓取训练,以适应对工业生产中按固定位置进行工件的顺序抓取,而对于多种随机摆放的方式不具有普遍的适用性,使得机器人的应用场景较为狭窄,每一个工位上的机器人都具有自己特定的抓取规则,而每设置一个工位上的抓取机器人都需要重新进行一次训练非常麻烦,因此需要一种基于深度强化学习的机器人抓取多目标物的训练方法,能够输出适用于各种不同抓取环境的多目标抓取规则模型。

技术实现思路

[0005]本专利技术提供一种基于深度强化学习的机器人抓取多目标物的训练方法,用以输出适用于各种不同抓取环境的多目标抓取规则模型。
[0006]本专利技术提供的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,包括:
[0007]步骤S1、预先构建机械臂抓取目标群体的多个虚拟场景;
[0008]步骤S2、建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据;
[0009]步骤S3、建立第二类深度强化学习网络对多个样本数据进行特征学习,将其中的相同特征传递正相关反馈至内部网络结构中,并根据网络结构的输出生成最终的多目标抓取规则模型。
[0010]优选的,所述预先构建机械臂抓取目标群体的多个虚拟场景包括:
[0011]步骤S100、获取机械臂的型号,并调取该型号机械臂的多项参数,其中,所述多项参数包括自由度数、最大工作半径、手臂最大中心高、手臂运动参数、手腕运动参数、手指夹持范围、定位精度;
[0012]步骤S101、建立空白虚拟场景,将该型号的机械臂对应预设的模型放置在所述空白虚拟场景中,并输入对应的多项参数;
[0013]步骤S102、通过三维扫描的方式将置物平台上目标群体的外形轮廓进行扫描,并将扫描所得的数据在虚拟场景中进行重现;
[0014]步骤S103、确定机械臂与置物平台之间的位置关系,根据所述位置关系将所述置物平台对应设置在所述空白虚拟场景中,构建出单个虚拟场景;
[0015]步骤S104、更改置物平台上目标群体的摆放状态,并重复步骤S101至步骤S103构建出多个虚拟场景。
[0016]优选的,所述确定机械臂与置物平台之间的位置关系包括:
[0017]步骤S1030、通过预设在所述机械臂上的摄像头对周围环境进行图像采集得到环境图像;
[0018]步骤S1031、通过特征匹配的方式确定所述置物平台在所述环境图像中的位置;
[0019]步骤S1032、根据置物平台在所述环境图像中的位置确定所述机械臂与所述置物平台之间的简单相对位置关系;
[0020]步骤S1033、基于所述简单相对位置关系驱动所述机械臂的末端到达所述置物平台上方,并通过摄像头向下拍摄所述置物平台的表面,得到表面图像;
[0021]步骤S1034、根据所述表面图像对机械臂的末端的位置进行细微调整,使得所拍摄的表面图像中置物平台的轮廓与预设的标准轮廓完全重合;
[0022]步骤S1035、记录此时机械臂的状态参数,并根据所述状态参数确定所述机械臂与所述置物平台之间的位置关系。
[0023]优选的,所述步骤S2由多台第一类计算机协同完成;其中,
[0024]每台第一类计算机各自构建出一个或多个虚拟场景,同时建立对应个数的第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据;
[0025]最终将得到的多个样本数据发送至同一台第二类计算机,并由所述第二类计算机执行步骤S3。
[0026]优选的,所述建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据包括:
[0027]建立由两个并行的DenseNet网络结构组成的第一类深度强化学习网络;
[0028]通过所述第一类深度强化学习网络重复执行预设次数的抓取某个虚拟场景中目标群体的抓取工作;其中,
[0029]在将所述目标群体中所有物体抓取完毕后,确定一次的抓取工作完成;
[0030]在每次抓取工作完成后,记录该次抓取工作中的过程数据,其中,所述过程数据包括每段手臂的位移数据、每个手腕的转动数据、每个手指的夹持力度及运动数据;
[0031]统计每次抓取工作中手臂位移总长度、手腕总转动角度、及手指的总运动幅度;其中,
[0032]以抓取工作中手臂位移总长度更短、手腕总转动角度更小及手指的总运动幅度更小作为工作效率更高的判断标准;
[0033]通过所述预设次数的抓取工作对所述第一类深度强化学习网络进行训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据。
[0034]优选的,所述两个并行的DenseNet网络结构,分别为Behavior网络和Target网络;
[0035]其中,Behavior网络输出的是预测估计的Q估计值,Target网络输出的是Q现实值;
[0036]通过Huber损失函数计算Behavior网络和Target网络在每次抓取时输出的Q值的误差,通过梯度下降法缩小该误差并更新Behavior网络的参数;
[0037]Target网络在预设时间内使用固定的参数值,每循环迭代预设次数后,Target网络的参数与Behavior网络同步一次。
[0038]优选的,包括:
[0039]在执行所述抓取任务执行过程中,采用真实物理引擎模拟目标群体中多个目标物体的运动状态;其中,
[0040]在对目标群体中多个目标物体的运动状态进行模拟之前,预先输入多个目标物体各自对应的材料参数。
[0041]优选的,在对现实的目标物体进行抓取的过程中,对机械臂的手指的抓力进行实时调整,调整步骤如下:
[0042]预先设定机械臂本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,包括:步骤S1、预先构建机械臂抓取目标群体的多个虚拟场景;步骤S2、建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据;步骤S3、建立第二类深度强化学习网络对多个样本数据进行特征学习,将其中的相同特征传递正相关反馈至内部网络结构中,并根据网络结构的输出生成最终的多目标抓取规则模型。2.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述预先构建机械臂抓取目标群体的多个虚拟场景包括:步骤S100、获取机械臂的型号,并调取该型号机械臂的多项参数,其中,所述多项参数包括自由度数、最大工作半径、手臂最大中心高、手臂运动参数、手腕运动参数、手指夹持范围、定位精度;步骤S101、建立空白虚拟场景,将该型号的机械臂对应预设的模型放置在所述空白虚拟场景中,并输入对应的多项参数;步骤S102、通过三维扫描的方式将置物平台上目标群体的外形轮廓进行扫描,并将扫描所得的数据在虚拟场景中进行重现;步骤S103、确定机械臂与置物平台之间的位置关系,根据所述位置关系将所述置物平台对应设置在所述空白虚拟场景中,构建出单个虚拟场景;步骤S104、更改置物平台上目标群体的摆放状态,并重复步骤S101至步骤S103构建出多个虚拟场景。3.根据权利要求2所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述确定机械臂与置物平台之间的位置关系包括:步骤S1030、通过预设在所述机械臂上的摄像头对周围环境进行图像采集得到环境图像;步骤S1031、通过特征匹配的方式确定所述置物平台在所述环境图像中的位置;步骤S1032、根据置物平台在所述环境图像中的位置确定所述机械臂与所述置物平台之间的简单相对位置关系;步骤S1033、基于所述简单相对位置关系驱动所述机械臂的末端到达所述置物平台上方,并通过摄像头向下拍摄所述置物平台的表面,得到表面图像;步骤S1034、根据所述表面图像对机械臂的末端的位置进行细微调整,使得所拍摄的表面图像中置物平台的轮廓与预设的标准轮廓完全重合;步骤S1035、记录此时机械臂的状态参数,并根据所述状态参数确定所述机械臂与所述置物平台之间的位置关系。4.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述步骤S2由多台第一类计算机协同完成;其中,每台第一类计算机各自构建出一个或多个虚拟场景,同时建立对应个数的第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据;
最终将得到的多个样本数据发送至同一台第二类计算机,并由所述第二类计算机执行所述步骤S3。5.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据包括:建立由两个并行的DenseNet网络结构组成的第一类深度强化学习网络;通过所述第一类深度强化学习网络重复执行预设次数的抓取某个虚拟场景中目标群体的抓取工作;其中,在将所述目标群体中所有物体抓取完毕后,确定一次的抓取工作完成;在每次抓取工作完成后,记录该次抓取工作中的过程数据,其中,所述过程数据包括每段手臂的位移数据、每个手腕的转动数据、每个手指的夹持力度及运动数据;统计每次抓取工作中手臂位移总长度、手腕总转动角度、及手指的总运动幅度;其中,以抓取工作中手臂位移总长度更短、手腕总转动角度更小及手指的总运动幅度更小作为工作效率更高的判断标准;通过所述预设次数的抓取工作对所述第一类深度强化学习网络进行训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据。6.根据权利要求5所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述两个并行的DenseNet网络结构,分别为Behavior网络和Target网络;其中,Behavi...

【专利技术属性】
技术研发人员:王三祥王欣王锋刘洪顺朱锦华杨万昌张成国
申请(专利权)人:江苏昱博自动化设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1