当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于改进CascadeR-CNN的多物体抓取预测方法技术

技术编号:36567636 阅读:18 留言:0更新日期:2023-02-04 17:24
本发明专利技术公开一种基于改进Cascade R

【技术实现步骤摘要】
一种基于改进Cascade R

CNN的多物体抓取预测方法


[0001]本专利技术属于图像检测和机器人抓取
,涉及一种基于改进Cascade R

CNN的多物体抓取预测方法。

技术介绍

[0002]对于机器人的平面抓取任务,首先需要计算的是给定物体的位姿。面对不同种类、形状和颜色的物体,需要对物体进行抓取标注,采用学习的方法让机器人模拟人抓取物体是一项重要的研究。康奈尔大学首先提出基于学习方式的抓取数据集(Cornell Grasp Dataset),采用五参数表达抓取位姿,对于图像中每一个物体标注旋转抓取框,在实际抓取实验中也取得良好的表现,该研究称为抓取检测。很多针对物体抓取的现有实现方案主要是针对单物体进行抓取,对多物体的抓取研究较少。因此,亟需一种多物体抓取方法,解决复杂环境下多物体的机器人抓取与分类问题,提高协作型机器人与环境的交互能力,完成精准抓取。

技术实现思路

[0003]为解决上述技术问题,本专利技术提供一种基于改进Cascade R

CNN的多物体抓取预测方法,能在多物体场景下实现对多物体的准确抓取检测。
[0004]本专利技术提供一种基于改进Cascade R

CNN的多物体抓取预测方法,包括:
[0005]步骤1:将摄像头固定在机械臂末端进行手眼标定和摄像头内参标定;
[0006]步骤2:通过摄像头拍摄包含多种物品的图像,构成原始图像数据集,为原始图像绘制抓取框并进行扩充处理,获得多目标抓取图像数据集;
[0007]步骤3:构建改进Cascade R

CNN网络,并利用多目标抓取图像数据集对网络进行训练;
[0008]步骤4:通过摄像头获取RGB图像,并输入到改进Cascade R

CNN网络中进而预测图像中每个物品的可行抓取框;
[0009]步骤5:机械臂根据预测的可行抓取框,确定物品位置并进行抓取。
[0010]在本专利技术的于多阶段神经网络的多物体抓取方法中,所述步骤1中的手眼标定具体为:
[0011]1)打印一个标定板,贴在平面上;
[0012]2)将机械臂移动到某个位姿,记录机械臂在当前位姿时末端的姿态;
[0013]3)使用机械臂上的相机,采集标定板在相机中的位姿,并记录;
[0014]4)将机械臂的位姿X和机械臂在位姿X时相机采集到标定板在相机中的位姿组成一组位姿信息;
[0015]5)重复2)、3)直到采集了17组以上位姿信息;
[0016]6)根据采集的多组位姿信息进行计算,获得关系转换矩阵。
[0017]在本专利技术的于多阶段神经网络的多物体抓取方法中,所述步骤1中的摄像头内参
标定具体为:
[0018]1)打印一张棋盘格并贴在一个平面上,作为标定物;
[0019]2)通过调整标定物或相机的方向,为标定物拍摄一些不同方向的照片;
[0020]3)从照片中提取棋盘格角点;
[0021]4)估算理想无畸变的情况下,五个内参和六个外参;
[0022]5)应用最小二乘法估算实际存在径向畸变下的畸变系数;
[0023]6)据径向畸变下的畸变系数,采用极大似然法,进行优化估算,得到相机的内参矩阵、径向畸变和切向畸变。
[0024]在本专利技术的于多阶段神经网络的多物体抓取方法中,所述步骤2包括:
[0025]步骤2.1:选取32类物品,将不同物品组合以不同姿态摆放,通过机械臂末端的摄像头拍摄原始图像,构成原始图像数据集;
[0026]步骤2.2:通过labmel软件为原始图像中的每个物品进行抓取框标注,使得每个图像具有抓取标签,包含抓取框的位置参数和角度分类;
[0027]步骤2.3:先将640
×
480的原始图像由中心向四周呈正方形裁剪,得到351
×
351的图像;
[0028]步骤2.4:然后向四周进行扩充75像素,采用opencv中的replicate模式,得到501
×
501图像;
[0029]步骤2.5:进行像素的沿水平方向和竖直方向的平移,再进行5次180
°
内随机角度的旋转,最后进行一次图像的resize,得到多张320
×
320的图像,进而获得相对于原始数据集100倍的扩充。
[0030]在本专利技术的于多阶段神经网络的多物体抓取方法中,所述步骤2.2中位置参数包括:抓取框的高度、宽度、质心坐标和抓取角度,所述抓取角度为抓取框高度方向与图像横轴的夹角;
[0031]所述角度分类为:在0
°
~180
°
内将各物品的抓取框与图像横轴方向的夹角分为18个类别。
[0032]在本专利技术的于多阶段神经网络的多物体抓取方法中,所述步骤3中的改进Cascade R

CNN网络包括:ResFPNet特征提取网络、区域建议网络和级联检测网络;所述ResFPNet特征提取网络用于对输入的RGB图像进行特征提,生成多尺度融合的特征图;多尺度融合的特征图输入到所述区域建议网络中生成候选抓取框;候选抓取框投影到多尺度融合特征图上输入到级联检测网络中;级联检测网络用于进行角度分类评估以及候选抓取框的预测,最终提取出最优检测抓取框。
[0033]在本专利技术的于多阶段神经网络的多物体抓取方法中,ResFPNet特征提取网络在ResNeXt网络的基础上增加了带有空洞卷积的空间金字塔池化模块,在进行特征融合过程中使用带有空洞卷积的空间金字塔池化模块对浅层特征图进行上采样,再与上采样前的深层特征图融合。
[0034]在本专利技术的于多阶段神经网络的多物体抓取方法中,所述级联检测网络包括三个检测器,每个支路的检测器中均包含:池化层、全连接层和卷积层,池化层用于将特征图处理为固定大小,全连接层用于进行角度分类预测,卷积层用于进行候选抓取框预测,前一检测器的卷积层输出的候选抓取框投影到多尺度融合特征图上再输入到后一检测器中进行
角度分类预测和候选抓取框预测。
[0035]在本专利技术的于多阶段神经网络的多物体抓取方法中,所述改进Cascade R

CNN网络中角度分类预测的损失函数是交叉熵,表示如下:
[0036][0037]其中,θ
i
表示的是角度分类标签值,表示的是角度分类预测值;
[0038]对于抓取框的位置预测的损失函数,采用平方误差表示如下:
[0039][0040]其中,x
i
,y
i
表示的是抓取框质心坐标标签值,表示的是抓取框质心坐标预测值;h
i
表示的是抓取框高度标签值,表示的是抓取框高度预测值;w
i
表示的是抓取框宽度标签值,表示的是抓取框宽度预测值。
[0041]本专利技术的一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进Cascade R

CNN的多物体抓取预测方法,其特征在于,包括:步骤1:将摄像头固定在机械臂末端进行手眼标定和摄像头内参标定;步骤2:通过摄像头拍摄包含多种物品的图像,构成原始图像数据集,为原始图像绘制抓取框并进行扩充处理,获得多目标抓取图像数据集;步骤3:构建改进Cascade R

CNN网络,并利用多目标抓取图像数据集对网络进行训练;步骤4:通过摄像头获取RGB图像,并输入到改进Cascade R

CNN网络中进而预测图像中每个物品的可行抓取框;步骤5:机械臂根据预测的可行抓取框,确定物品位置并进行抓取。2.如权利要求1所述的于多阶段神经网络的多物体抓取方法,其特征在于,所述步骤1中的手眼标定具体为:1)打印一个标定板,贴在平面上;2)将机械臂移动到某个位姿,记录机械臂在当前位姿时末端的姿态;3)使用机械臂上的相机,采集标定板在相机中的位姿,并记录;4)将机械臂的位姿X和机械臂在位姿X时相机采集到标定板在相机中的位姿组成一组位姿信息;5)重复2)、3)直到采集了17组以上位姿信息;6)根据采集的多组位姿信息进行计算,获得关系转换矩阵。3.如权利要求1所述的于多阶段神经网络的多物体抓取方法,其特征在于,所述步骤1中的摄像头内参标定具体为:1)打印一张棋盘格并贴在一个平面上,作为标定物;2)通过调整标定物或相机的方向,为标定物拍摄一些不同方向的照片;3)从照片中提取棋盘格角点;4)估算理想无畸变的情况下,五个内参和六个外参;5)应用最小二乘法估算实际存在径向畸变下的畸变系数;6)据径向畸变下的畸变系数,采用极大似然法,进行优化估算,得到相机的内参矩阵、径向畸变和切向畸变。4.如权利要求1所述的于多阶段神经网络的多物体抓取方法,其特征在于,所述步骤2包括:步骤2.1:选取32类物品,将不同物品组合以不同姿态摆放,通过机械臂末端的摄像头拍摄原始图像,构成原始图像数据集;步骤2.2:通过labmel软件为原始图像中的每个物品进行抓取框标注,使得每个图像具有抓取标签,包含抓取框的位置参数和角度分类;步骤2.3:先将640
×
480的原始图像由中心向四周呈正方形裁剪,得到351
×
351的图像;步骤2.4:然后向四周进行扩充75像素,采用opencv中的replicate模式,得到501
×
501图像;步骤2.5:进行像素的沿水平方向和竖直方向的平移,再进行5次180
°
内随机角度的旋转,最...

【专利技术属性】
技术研发人员:姜杨赵峰禹赵彬
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1