本发明专利技术属于计算机视觉技术领域,提供了一种面向机器人抓取的数据主动式选择方法,主要分为两个分支,物体抓取方式检测分支以及数据选择策略分支,包括数据特征提取模块、抓取方式检测模块和数据选择策略模块。本发明专利技术的核心内容为数据选择策略模块,该模块共享主干网络的特征提取层,并融合了三个不同大小感受野的特征,充分利用特征提取模块的同时,大大减少了需要添加的参数量。在主干的抓取方式检测网络模型训练过程中,数据选择策略模块可以进行同步的训练,从而形成端到端的模型。本发明专利技术利用了天然存在的标注、未标注标签,充分利用了已标注数据以及未标注数据,在已标注数据量较小时,仍然可以对网络进行更加充分的训练。
【技术实现步骤摘要】
一种面向机器人抓取的数据主动式选择方法
本专利技术属于计算机视觉
,尤其涉及基于深度学习、利用主动式学习减少数据标注成本的方法。
技术介绍
机器人抓取方式检测是一个具有重要应用意义的计算机视觉研究课题,它旨在给定一个场景的情况下,分析其中所包含物体的抓取方式,并选择最佳的抓取方式进行抓取。随着深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNNs)在计算机视觉领域的显著发展,其优秀的学习能力也被大量应用于机器人抓取方式检测研究。然而,相较于一般计算机视觉问题,例如目标检测、语义分割等,机器人抓取方式检测具有两个不可或缺的要求。一是该任务对于实时性的要求,若无法达到实时检测的效果,则该方法也毫无应用价值。二是该任务在陌生环境中所需的学习成本,不同环境中的物体多种多样,若要一个方法更好地应用于一个陌生环境中,那么需要重新获取数据、标注数据并训练以获得更令人满意的检测结果。当前的深度学习方法需要大量已标注的数据用作训练,然而这些已标注数据中存在人为无法判断的冗余,并且标注者也无法断定哪一份数据能够更好地提升深度学习网络的性能。主动式学习旨在利用策略从未标注数据中选择出最具有信息量的数据,提供给标注者进行标注,尽可能压缩需要标注的数据量,同时保证深度学习网络的训练效果,从而减少标注数据所需的成本。主动式学习的理念与机器人抓取方式检测的第二点要求十分契合,其为机器人抓取方式检测方法在陌生环境中的迁移提供了有效的保障。接下来详细介绍机器人抓取方式检测与主动式学习中的相关
技术介绍
。(1)机器人抓取方式检测基于分析法的抓取方式检测物体抓取方式检测的分析法主要利用物体的数学以及物理几何模型,结合动力学、运动学计算出当前物体的稳定抓取方式。然而,由于机械夹爪与物体之间的交互行为很难进行物体建模,所以这种检测方法在现实世界的应用中并没有取得良好的效果。基于经验法的抓取方式检测物体抓取方式检测的经验法着重于利用物体模型和基于经验的方法。其中,有一部分工作运用物体模型建立数据库,将已知物体与有效的抓取方式关联在一起。面对当前物体时,在数据库中查找类似的物体,从而获取抓取方式。这种方法相比于分析法在实际环境中有相对较好的应用效果,但是仍然欠缺对于未知物体的泛化能力。基于深度学习的抓取方式检测深度学习的方法已经被证实在视觉任务中有着巨大的作用,对于未知物体的抓取方式检测,基于深度学习的算法也取得了许多进展。主流的抓取方式表示形式为类似目标检测的矩形框,然而这个矩形框有一个旋转角参数,利用矩形框的中心点坐标、矩形框宽度以及矩形框旋转角就可以表示一个独特的抓取姿态。迄今为止的抓取方式检测算法中大部分都遵循一个通用的检测流程:从图像数据中检测出候选的抓取位置,利用卷积神经网络对每一个候选的抓取位置进行评估,最终选择评估值最高的抓取位置作为输出。其中具有代表性的是Chu等人提出的基于目标检测模型FastRCNN修改得到的物体抓取方式检测模型,这种方式的网络模型参数量大,实时性相对较低。Morrison等人提出了一种基于全卷积神经网络的像素级别的物体抓取方式检测模型,输出四张与原图大小相等的图像,分别为抓取值图、宽度图、旋转角的正弦图与余弦图。该模型参数量少,实时性高。基于深度学习的抓取方式检测在实际场景中效果良好,并且对未知物体的泛化能力强。即使基于深度学习的抓取方式检测方法已经取得了瞩目的进展,但是该方法仍受限于深度学习对数据的大量渴求问题,主要有两个方面:一是按照传统的方式进行训练,若没有充足的已标注数据,网络模型无法得到令人满意的精确性;二是当已有模型迁移到陌生物体检测问题上时,若要对陌生物体进行数据收集与标注,将耗费大量的人力。接下来介绍的主动式学习技术对数据标注问题提供了一种解决思路。(2)主动式学习策略主动式学习的核心为数据选择策略,该策略从未标注的数据集中选择出一部分数据,提供给标注者进行标注,并将标注好的数据加入到已标注的数据集中,利用这部分数据对网络进行训练。主动式学习的意图为利用标注一部分数据的方式来获得标注全部数据所能达到的网络模型训练效果。当前的主动式学习策略主要分为两个类别,一是基于模型的主动式学习策略,二是基于数据的主动式学习策略。基于模型的主动式学习策略基于模型的主动式学习策略主要利用深度学习网络模型产生的一些参数作为数据选择的标准。比较具有代表性的有Settles提出的不确定性策略,该策略利用分类网络模型输出的类别概率向量计算得出不确定性,不确定性更高的数据则被视为更有价值。该方法仅适用于分类问题,无法扩展到回归问题上。Yoo等人提出了利用深度学习网络模型训练过程中的损失函数值作为筛选数据标准的方法,损失函数值越大的数据信息量越多。该方法与网络模型的输出无关,所以可以应用在分类问题以及回归问题上。基于数据的主动式学习策略基于数据的主动式学习策略专注于数据的分布,希望从数据分布中得到最具有代表性的数据。其中具有代表性的有Ebert等人提出的图密度算法,该算法利用与每个数据相似的数据的数量以及相似度,计算出每个数据的图密度,图密度越高的数据则越具有代表性。该方法与网络模型完全无联系,所以可以应用于分类问题以及回归问题上。本专利技术中涉及的抓取方式检测方法是一个纯粹的回归问题,并且对实时性要求较高。以上提到的主动式学习策略均存在局限性,要么无法适用于回归问题,要么计算量过大,甚至大于抓取方式检测模型。
技术实现思路
本专利技术针对机器人抓取方式检测方法在陌生环境中的低成本快速迁移问题,设计一种面向机器人抓取的数据主动式选择方法,该方法能够从大量未标注数据中选择出最具有信息量的数据,仅需要对被选择的数据进行标注,并且不会降低网络训练的效果,从而大大减少数据标注所需的成本,并且该方法是端到端的,可以与网络同时进行训练。本专利技术的技术方案:一种面向机器人抓取的数据主动式选择方法,主要分为两个分支,物体抓取方式检测分支以及数据选择策略分支,整体结构可以表示为图1所示。其中具体包括以下三个模块:(1)数据特征提取模块本模块的结构为简单的卷积神经网络特征提取层,输入数据经过本模块处理后将称为特征数据,提供给其他模块利用。(1.1)模块输入:本模块的输入可以在RGB图像和深度图像间进行随意选择,一共有三种输入方案,单RGB图像、单深度图像以及RGB与深度图像结合输入,对应的输入通道数分别为3通道、1通道和4通道,输入图像的长宽均为300像素。下面以RGB与深度图像结合的4通道输入为例进行说明。(1.2)模块结构:为了网络的轻量性以及检测算法的实时性,本模块采用了Morrison等人使用的三层卷积神经网络结构。具体地,卷积核的大小分别为9×9,5×5和3×3。输出通道数分别为32,16和8。特征提取模块每一层都由卷积层,激活函数(ReLU)组成,整个过程表述如下公式:Out1=F(RGBD)(1)Out2=F(Out1)(本文档来自技高网...
【技术保护点】
1.一种面向机器人抓取的数据主动式选择方法,其特征在于,面向机器人抓取的数据主动式选择方法主要分为两个分支,物体抓取方式检测分支以及数据选择策略分支,具体包括以下三个模块:/n(1)数据特征提取模块/n数据特征提取模块为卷积神经网络特征提取层,输入数据经过数据特征提取模块处理后将称为特征数据,提供给其他模块利用;/n(1.1)模块输入:/n本模块的输入在RGB图像和深度图像间进行随意选择,一共有三种输入方案:单RGB图像、单深度图像以及RGB与深度图像结合,对应的输入通道数分别为3通道、1通道和4通道,输入图像的长宽均为300像素;/n(1.2)模块结构:/n本模块采用三层卷积神经网络结构,卷积核的大小分别为9×9,5×5和3×3;输出通道数分别为32,16和8;数据特征提取模块每一层都由卷积层和激活函数组成,整个过程表述如下公式:/nOut1=F(RGBD) (1)/nOut2=F(Out1) (2)/nOut3=F(Out2) (3)/n其中,RGBD表示RGB图像与深度图像结合的4通道输入数据,F代表卷积层与激活函数的组合,Out1、Out2与Out3分别代表三层输出的特征图;在输入图像的长宽均为300像素的情况下,Out1的大小为100像素×100像素,Out2的大小为50像素×50像素,Out3的大小为25像素×25像素;/n(2)抓取方式检测模块/n本模块利用数据特征提取模块得到的最终特征图进行反卷积操作,将特征图还原到原输入大小,即300像素×300像素,得到最终的结果,即抓取值图、宽度图以及旋转角的正弦图与余弦图;根据这四张图像,得到物体抓取表示方法的中心点、宽度以及旋转角;/n(2.1)模块输入:/n本模块的输入是公式(3)中得到的特征图Out3;/n(2.2)模块结构:/n抓取方式检测模块包含三个反卷积层以及四个单独的卷积层;三个反卷积层的卷积核大小分别设置为3×3、5×5和9×9,四个单独的卷积层卷积核大小为2×2;此外,在进行反卷积操作之后,每一层还包括ReLU激活函数,以实现更有效的表示,而四个单独的卷积层将直接输出结果;这个过程表述为:/nx=DF(Out3) (4)/np=P(x) (5)/nw=W(x) (6)/ns=S(x) (7)/nc=C(x) (8)/n其中,Out3为特征提取层的最终输出,DF为三层反卷积层以及对应的激活函数ReLU的组合,P、W、S和C分别代表四个单独的反卷积层,对应的p、w、s和c分别代表最终输出的抓取值图、宽度图以及旋转角的正弦图与余弦图;最终抓取方式的表示由下述公式得到:/n(i,j)=argmax(p) (9)/nwidth=w(i,j) (10)/nsinθ=s(i,j) (11)/ncosθ=c(i,j) (12)/n...
【技术特征摘要】
1.一种面向机器人抓取的数据主动式选择方法,其特征在于,面向机器人抓取的数据主动式选择方法主要分为两个分支,物体抓取方式检测分支以及数据选择策略分支,具体包括以下三个模块:
(1)数据特征提取模块
数据特征提取模块为卷积神经网络特征提取层,输入数据经过数据特征提取模块处理后将称为特征数据,提供给其他模块利用;
(1.1)模块输入:
本模块的输入在RGB图像和深度图像间进行随意选择,一共有三种输入方案:单RGB图像、单深度图像以及RGB与深度图像结合,对应的输入通道数分别为3通道、1通道和4通道,输入图像的长宽均为300像素;
(1.2)模块结构:
本模块采用三层卷积神经网络结构,卷积核的大小分别为9×9,5×5和3×3;输出通道数分别为32,16和8;数据特征提取模块每一层都由卷积层和激活函数组成,整个过程表述如下公式:
Out1=F(RGBD)(1)
Out2=F(Out1)(2)
Out3=F(Out2)(3)
其中,RGBD表示RGB图像与深度图像结合的4通道输入数据,F代表卷积层与激活函数的组合,Out1、Out2与Out3分别代表三层输出的特征图;在输入图像的长宽均为300像素的情况下,Out1的大小为100像素×100像素,Out2的大小为50像素×50像素,Out3的大小为25像素×25像素;
(2)抓取方式检测模块
本模块利用数据特征提取模块得到的最终特征图进行反卷积操作,将特征图还原到原输入大小,即300像素×300像素,得到最终的结果,即抓取值图、宽度图以及旋转角的正弦图与余弦图;根据这四张图像,得到物体抓取表示方法的中心点、宽度以及旋转角;
(2.1)模块输入:
本模块的输入是公式(3)中得到的特征图Out3;
(2.2)模块结构:
抓取方式检测模块包含三个反卷积层以及四个单独的卷积层;三个反卷积层的卷积核大小分别设置为3×3、5×5和9×9,四个单独的卷积层卷积核大小为2×2;此外,在进行反卷积操作之后,每一层还包括ReLU激活函数,以实现更有效的表示,而四个单独的卷积层将直接输出结果;这个过程表述为:
x=DF(Out3)(4)
p=P(x)(5)
【专利技术属性】
技术研发人员:叶贤丰,杨鑫,尹宝才,魏博言,林虎,杜振军,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。