一种基于复杂背景图像的三维模型跨域检索方法及系统技术方案

技术编号:25521849 阅读:63 留言:0更新日期:2020-09-04 17:12
本发明专利技术公开了一种基于复杂背景图像的三维模型跨域检索方法及系统,包括,构建适于三元组网络输入的数据集,并将三维模型用多视图进行表示,统一图像数据尺寸。设计跨域检索三元组深度网络,利用图像精确特征提取网络和三维模型分组视图特征提取网络完成对输入数据的有效特征提取,并构建特征联合嵌入空间,将不同域的特征映射到同一高维空间中,并且同类别数据特征距离较小,不同类别数据特征距离较大。最终采用欧氏距离在特征联合嵌入空间中度量图像与三维模型的相似性,完成跨域检索。本发明专利技术能够根据输入的单幅具有复杂背景信息的RGB图像,检索得到对应的三维模型。

【技术实现步骤摘要】
一种基于复杂背景图像的三维模型跨域检索方法及系统
本专利技术涉及计算机图形学和计算机视觉领域,特别是涉及一种基于复杂背景图像的三维模型跨域检索方法及系统。
技术介绍
信息时代的到来为计算机硬件的发展提供了强大的助力,各种媒体数据如音频、视频、图像、三维数据等呈井喷式增长。如今,三维模型被广泛应用于计算机图形学和计算机视觉等领域,如3D打印、计算机辅助设计、影视动画、医学诊断等。为了与众多应用涉及的庞大且不断增长的三维数据相适应,设计快速有效的三维模型检索方法成为了目前的热点问题。目前的检索工作大多属于基于实例的三维模型检索,这种方法需要提供一个待查询的三维模型,通过将三维模型用体素、点云、网格或者多视图的方法进行表示,提取特征描述符,并与三维模型库中的模型特征描述符进行相似度比较返回相似的三维模型。基于实例的三维模型检索属于同域检索问题,由于三维模型包含更多的特征信息,因此其准确率要更高一些。但是在现实生活中,用于查询的三维模型往往并不容易获取,相比之下,二维图像的获取在实际应用中较为方便,因此,基于单个二维图像检索三维模型具有重要的研究意义和使用价值。基于二维图像检索三维模型属于跨域检索问题,其输入可以是RGB图像、手绘草图和RGB-D图像,输出为与图像对应的三维模型。目前的相关研究可以分为传统的基于手工特征的模型检索方法和基于深度学习特征的模型检索方法。基于手工特征方法的思想是分别对图像和三维模型通过手工设计的方式获取其底层描述符,再通过计算距离等方式进行相似性度量。如基于特征袋模型的方法(BronsteinAM,BronsteinMM,GuibasLJ,etal.Shapegoogle:Geometricwordsandexpressionsforinvariantshaperetrieval[J].ACMTransactionsonGraphics,2011,30(1):1-20.),基于Gabor局部线性特征的方法(Eitzmathias,Richterronald,Boubekeurtamy,etal.Sketch-basedshaperetrieval[J].ACMTransactionsonGraphics,2012.)。但是这类方法在特征提取阶段较为困难,不适用于大规模数据集的情况。深度学习是机器学习的子领域,自2012年以卷积神经网络为代表的深度学习获得ImageNet竞赛的冠军,深度网络在计算机视觉领域引起了很大的关注。各种3D传感器的出现使得三维模型的获取变得越来越容易,如MicrosoftKinect、GoogleProjectTango等,目前已有许多大规模通用三维模型数据集,如ShapeNet、ModelNet等。相比于三维模型数据集,二维图像的数据集规模更大,种类更多,如ImageNet等。在丰富的数据支持下,将深度学习推广到三维数据处理成为目前的研究热点,利用深度学习解决模型跨域检索问题已取得了一些的成果,其思想是以深度神经网络为技术支撑,首先获取图像和三维模型的特征表示,然后构建跨域数据共享空间,对两个模态的数据特征描述符进行距离度量并比较完成检索过程。深度神经网络可以从大量数据中快速学习得到有效的特征表示,相比于传统的手工方法,利用深度学习的三维模型跨域检索方法适用力强,检索效果也有很大的提升。如王等人将孪生网络用于基于草图的三维模型检索(WangF,KangL,LiY,etal.Sketch-based3DshaperetrievalusingConvolutionalNeuralNetworks[C].ComputerVisionandPatternRecognition,2015:1875-1883.)。如代等人提出DCML方法,利用深度神经网络对草图和三维模型得到的特征使用判别性损失函数和相关性损失函数进行度量学习(DaiG,XieJ,ZhuF,etal.DeepCorrelatedMetricLearningforSketch-based3DShapeRetrieval.[C].//Thirty-FirstAAAIConferenceonArtificialIntelligence,2017,4002-4008.)。在此基础上,他们提出了DCHML方法,在神经网络的隐藏层加入损失训练提高检索性能(DaiG,XieJ,FangY,etal.DeepCorrelatedHolisticMetricLearningforSketch-Based3DShapeRetrieval[J].IEEETransactionsonImageProcessing,2018,27(7):3374-3386.)。如李等人利用预训练好的图像卷积神经网络过滤图像中的背景噪声,并提出跨域嵌套空间框架缩小图像与模型的特征差异(LiY,SuH,QiCR,etal.JointembeddingsofshapesandimagesviaCNNimagepurification[J].ACMTransactionsonGraphics(TOG),2015,34(6):1-12.)。但是已有工作大多是针对手绘草图作为输入来检索三维模型,而在实际生活中,人们接触更多的是真实环境下的图像,这类图像往往具有复杂的背景信息,包括光照、除检索对象以外的背景像素等。此类噪声信息与检索任务无关,其与有效信息掺杂在一起为跨域检索带来了新的挑战。因此,直接将草图与三维模型跨域检索方法应用于真实图像检索三维模型任务会由于真实图像的噪声信息导致检索精确度下降。卷积神经网络虽然可以过滤部分真实图像的噪声信息,但是其效果十分有限,因此设计针对于真实图像的噪声信息过滤的图像卷积神经网络并应用于图像与三维模型的跨域检索任务具有重要的意义。三维模型本身包含丰富的信息,目前研究的主流方法是用一组多角度投影视图表示三维模型,利用已有的发展较为成熟的图像深度网络即可完成对三维模型的特征提取,如苏等人提出的MVCNN方法(SuH,MajiS,KalogerakisE,etal.Multi-viewConvolutionalNeuralNetworksfor3DShapeRecognition[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.,2015:945-953.)。由于视图与图像相近,多视图方法可以在特征提取部分减小图像与三维模型的语义差异,因此具有良好的效果。如苏等人利用MVCNN获取三维模型的特征描述符,通过对齐图像与三维模型的特征分布完成跨域检索任务(SuY,LiY,NieW,etal.JointHeterogeneousFeatureLearningandDistributionAlignmentfor2DImage-Based3DObjectRetrieval[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2019:1-1.)。如吴等人将三维模型投影为多个视图进行表示,设计卷积神经网络模型联合分本文档来自技高网...

【技术保护点】
1.一种基于复杂背景图像的三维模型跨域检索方法,其特征在于,所述方法包括如下步骤:/n步骤1)构建原始数据集D,所述原始数据集包括若干不同的三维模型M与具有复杂背景的图像I,所述原始数据集D以三元组T=(I

【技术特征摘要】
1.一种基于复杂背景图像的三维模型跨域检索方法,其特征在于,所述方法包括如下步骤:
步骤1)构建原始数据集D,所述原始数据集包括若干不同的三维模型M与具有复杂背景的图像I,所述原始数据集D以三元组T=(IA,Mpos,Mneg)表示,其中IA表示作为Anchor的图像,Mpos表示与所述图像IA同类的正类三维模型,Mneg表示与所述图像IA异类的反类三维模型;
步骤2)对所述三元组T中的所述图像IA进行预处理得到处理后的图像I′A,对所述三元组T中的所述正类三维模型Mpos与所述反类三维模型Mneg分别进行投影处理得到所述正类三维模型投影视图组Vpos与所述反类三维模型投影视图组Vneg,再分别进行预处理得到处理后的正类三维模型投影视图组V′pos与反类三维模型投影视图组V′neg,得到处理后的三元组T′=(I′A,V′pos,V′neg)表示的标准数据集D′;
步骤3)针对所述处理后的三元组T′,构建跨域检索三元组深度网络模型N,所述跨域检索三元组深度网络包含3个分支网络,分别为1个图像精确特征提取网络NI与结构相同、权值共享的2个三维模型分组视图特征提取网络NM,其中所述图像精确特征提取网络NI的输入为所述处理后的三元组T′中的所述处理后的图像I′A,输出为图像特征向量所述三维模型分组视图特征提取网络NM的输入分别为所述处理后的三元组T′中的所述处理后的正类三维模型投影视图组V′pos与反类三维模型投影视图组V′neg,输出分别为正类三维模型特征向量与反类三维模型特征向量
所述图像精确特征提取网络为包含注意力块的AlexNet网络,所述网络包含5个卷积层和3个全连接层,所述注意力块位于每两个前后连接的卷积层之间,由1个通道注意力模块和1个空间注意力模块串联组成;
所述三维模型分组视图特征提取网络以AlexNet网络的卷积结构为基础网络并包含分组子网络,所述三维模型分组视图特征提取网络包含AlexNet网络的全部卷积层共5个,在最后1个所述卷积层后连接所述分组子网络,在最后1个所述卷积层输出视图特征向量后,所述分组子网络将所述视图特征向量融合为组级特征向量、再将所述组级特征向量融合为形状级特征向量、最后将所述形状级特征向量融合为所述三维模型特征向量并输出;
步骤4)对所述图像特征向量所述正类三维模型特征向量与所述反类三维模型特征向量进行正则化处理,得到所述正则化后的图像特征向量所述正类三维模型特征向量与所述反类三维模型特征向量定义所述跨域检索三元组深度网络模型N的损失函数L;
步骤5)使用所述处理后的三元组T′,迭代训练跨域检索三元组深度网络模型N的参数,直至所述损失函数L小于设定阈值停止训练,得到已训练的跨域检索三元组深度网络模型N′,完成所述图像IA与所述三维模型M的特征联合嵌入空间构建,所述已训练的跨域检索三元组深度网络模型N′包含3个已训练的分支网络,分别为一个已训练的图像精确特征提取网络N′I与两个已训练的三维模型分组视图特征提取网络N′M;
步骤6)执行检索任务时,给定查询图像q与目标三维模型集S,对所述查询数据q进行所述预处理得到处理后的查询图像q′,对所述目标三维数据集S中的每个目标三维模型Si进行所述投影处理得到所述三维模型投影视图组SVi,再进行所述预处理得到处理后的三维模型投影视图组SV′i,将所述处理后的查询图像q′输入已训练的图像精确特征提取网络N′I中,输出得到所述查询图像q对应的图像特征向量Fq,进行正则化处理后得到正则化后的图像特征向量F′q,将所述处理后的投影视图组SV′i输入已训练的三维模型分组视图特征提取网络N′M中,输出得到目标三维模型Si对应的三维模型特征向量进行正则化处理后得到正则化后的三维模型特征向量计算所述正则化后的图像特征向量F′q与所述正则化后的三维模型特征向量之间的距离D(q,Si),以所述距离D(q,Si)衡量所述查询图像q与每个所述目标三维模型Si之间的相似度并降序排序,选择若干排序靠前的目标三维模型Stop作为与所述查询图像q相似的检索结果并输出。


2.根据权利要求1所述的一种基于复杂背景图像的三维模...

【专利技术属性】
技术研发人员:李海生杜雨佳李勇姚春莲李楠
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1