本发明专利技术涉及一种借助人工神经网络(CNN)在有干扰的环境(14)中识别已定位的对象(10)的对象实例的方法,具有步骤:为了获得包含图像数据(x)、对象身份(c)和定向(q)的多个样本(s),记录至少一个对象(10)的多个图像(x);由样本生成训练集合(S
【技术实现步骤摘要】
【国外来华专利技术】识别对象实例和/或对象的定向的方法
本专利技术涉及一种在有干扰的环境中识别对象实例并且确定已经定位的对象的定向的方法。
技术介绍
对象实例识别和3D定向估计是计算机视觉(ComputerVision)领域众所周知的问题。在机器人技术和增强现实(AugmentedReality)中存在大量应用。当前的方法经常在干扰数据和掩蔽(Verdeckung)方面存在问题。此外,当前的方法对背景和照明变化很敏感。最常用的定向估计器对于每个对象使用单个分类器,使得复杂度随着对象的数量线性增加。然而,出于工业目的,期望与大量不同的对象一起工作的可伸缩的方法。可以在3D对象识别领域中找到对象实例识别中的最新的进展,其中,目的是从大型数据库中提取相似的对象。尤其是参考以下文件:[1]P.Wohlhart和V.Lepetit,“LearningDescriptorsforObjectRecognitionand3DPoseEstimation,”presentedattheProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2015,pp.3109-3118.[2]A.Singh,J.Sha,K.S.Narayan,T.Achim和P.Abbeel,“BigBIRD:Alarge-scale3Ddatabaseofobjectinstances,”in2014IEEEInternationalConferenceonRoboticsandAutomation(ICRA),2014,pp.509-516.[3]Z.Wu等人的,“3DShapeNets:ADeepRepresentationforVolumetricShapes,”presentedattheProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2015,pp.1912-1920.[4]D.Maturana和S.Scherer,“VoxNet:A3DConvolutionalNeuralNetworkforreal-timeobjectrecognition,”in2015IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS),2015,pp.922-928.[5]H.Su,S.Maji,E.Kalogerakis和E.Learned-Miller,“Multi-ViewConvolutionalNeuralNetworksfor3DShapeRecognition,”presentedattheProceedingsoftheIEEEInternationalConferenceonComputerVision,2015,pp.945-953.[6]R.Pless和R.Souvenir,“ASurveyofManifoldLearningforImages,”IPSJTrans.Comput.Vis.Appl.,vol.1,pp.83-94,2009.[7]R.Hadsell,S.Chopra和Y.LeCun,“DimensionalityReductionbyLearninganInvariantMapping,”in2006IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition(CVPR'06),2006,vol.2,pp.1735-1742.[8]J.Masci,M.M.Bronstein,A.M.Bronstein和J.Schmidhuber,“MultimodalSimilarity-PreservingHashing,”IEEETrans.PatternAnal.Mach.Intell.,vol.36,no.4,pp.824-830,Apr.2014.[9]E.Hoffer和N.Ailon,“DeepMetricLearningUsingTripletNetwork,”inSimilarity-BasedPatternRecognition,2015,pp.84-92.[10]H.Guo,J.Wang,Y.Gao,J.Li和H.Lu,“Multi-View3DObjectRetrievalWithDeepEmbeddingNetwork,”IEEETrans.ImageProcess.,vol.25,no.12,pp.5526-5537,Dec.2016.[11]StefanHinterstoisser,CedricCagniart,SlobodanIlic,PeterSturm,NassirNavab,PascalFua和VincentLepetit.Gradientresponsemapsforreal-timedetectionoftexturelessobjects.IEEETransactionsonPatternAnalysisandMachineIntelligence,34(5),2012.[12]KenPerlin.Noisehardware.Real-TimeShadingSIGGRAPHCourseNotes,2001.[13]HaoSu,CharlesRQi,YangyanLi和LeonidasJGuibas.Renderforcnn:Viewpointestimationinimagesusingcnnstrainedwithrendered3dmodelviews.InProceedingsoftheIEEEInternationalConferenceonComputerVision,2015.可免费使用的3D模型的数量的快速增长,催生了使得能够在大型3D对象数据库中进行搜索的方法。这些方法称为3D检索方法(英语:“3Dretrievalmethods”或者“3Dcontentretrievalmethods(3D内容检索方法)”),因为这些方法的目的是,搜索与3D查询对象相似的对象。这里提出的方法与3D检索方法紧密相关,并且可以视为是3D检索方法的代表。然而,在已知方法中,查询是从真实场景的情境中取出的,因此没有干扰数据和掩蔽。附加地,通常不需要确定对象的定向、姿势或者姿态,而这对于进一步的应用(例如机器人技术中的抓握)是重要的。最后,已知的3D检索标准的目的在于,仅确定对象类别,而不确定对象的实例(Instanz),由此应用局限于用于进行对象实例识别的数据组。由于这里提出的方法遵循“流形学习(manifoldlearning)”的不同的方法,因此同样将同时考虑该领域的大多数与此相关的工作。3D检索方法主要分为两类:基于模型和基于视图。基于模型的方法直接借助3D模型来工作,并且尝试通过不同类型的特征来表示这本文档来自技高网...
【技术保护点】
1.一种借助人工神经网络(CNN)在有干扰的环境(14)中识别对象实例并且确定已定位的对象(10)的定向的方法,具有步骤:/n-为了获得多个样本(s),记录至少一个对象(10)的多个图像(x),所述样本包含图像数据(x)、对象身份(c)和定向(q);/n-由所述样本生成训练集合(S
【技术特征摘要】
【国外来华专利技术】20170922 DE 102017216821.81.一种借助人工神经网络(CNN)在有干扰的环境(14)中识别对象实例并且确定已定位的对象(10)的定向的方法,具有步骤:
-为了获得多个样本(s),记录至少一个对象(10)的多个图像(x),所述样本包含图像数据(x)、对象身份(c)和定向(q);
-由所述样本生成训练集合(Strain)和模板集合(Sdb);
-借助所述训练集合(Strain)和损失函数(L),对所述人工神经网络(CNN)进行训练;
-通过借助所述人工神经网络分析所述模板集合(Sdb),来确定对象实例和/或对象(10)的定向,
其特征在于,
进行训练使用的损失函数(L)具有动态余量(m)。
2.根据权利要求1所述的方法,其特征在于,以如下方式由三个样本(si,sj,sk)形成三元组(38),即,第一样本(si)和第二样本(sj)来自相似的定向(q)下的相同的对象(10),其中,选择第三样本(sk),使得所述第三样本(sk)来自与所述第一样本(si)不同的对象(10),或者如果所述第三样本来自与所述第一样本(si)相同的对象(10),则所述第三样本具有与所述第一样本(si)不相似的定向(q)。
3.根据权利要求2所述的方法,其特征在于,损失函数(L)具有以下形式的三元组损失函数(Ltriplets):
其中,x表示相应的样本(si,sj,sk)的图像,f(x)表示所述人工神经网络的输出,并且m表示动态余量。
【专利技术属性】
技术研发人员:S伊利克,S扎哈洛夫,
申请(专利权)人:西门子股份公司,
类型:发明
国别省市:德国;DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。