一种面向自然场景的三维物体模型检索方法技术

技术编号:24210688 阅读:46 留言:0更新日期:2020-05-20 16:43
一种面向自然场景的三维物体模型检索方法,本发明专利技术属于图像处理技术领域。本发明专利技术为解决自然图像与多视角表达的三维模型存在的数据领域差异,实现自然图像对多视角三维物体的检索。技术要点:模型的多视角投影与渲染;构建跨领域检索网络;构建三元组立体损失训练数据;训练自然图像到多视角模型映射的网络;自然图像的模型检索。本发明专利技术所提出的面向自然场景的三维物体模型检索方法的检索正确率达到94.8%。该方法有效解决了自然图像检索三维物体模型问题,在增强现实和计算机辅助设计等领域,具有广泛的应用前景。

A 3D object model retrieval method for natural scenes

【技术实现步骤摘要】
一种面向自然场景的三维物体模型检索方法
本专利技术属于图像处理
,涉及一种面向自然场景的三维物体模型检索方法。
技术介绍
用自然场景中拍摄的图像检索对应的多视角表达的三维CAD模型,在增强现实、计算机辅助设计等应用中具有重要的价值。与给定CAD模型检索CAD模型的数据形式不同,自然图像与三维模型的数据有明显的区别,自然图像受复杂光照、多样化背景以及不可控图像退化等因素影响呈现出复杂多变的数据形态,三维模型则是在人工设定环境下创造的单一、纯净,极大程度上排除了不可控因素干扰的数据形式。针对自然图像对三维模型的检索,现有的方法试图将自然图像和对应模型的视角特征映射到同一嵌入空间中。但实质上只考虑了对齐两个数据域的边缘分布,忽略了很多其他重要信息,并且缺少大规模高质量的包含自然图像与CAD模型对应的三维数据集。因此,在训练数据有限的情况下,提出一种面向自然场景的三维物体模型检索方法,对于提高三维模型的检索性能是非常必要的。现有技术中,文献号为CN110070626A的专利文献提供了一种基于多视角分类的三维物体检索方法,包括:获取原始图像;对所述原始图像进行处理得到多视角图像;对所述多视角图像进行处理得到特征描述子;对所述特征描述子进行处理得到词汇树;将待检索图像在所述词汇树中检索得到所述原始图像的序列号。该文献采用多视角分类算法,得到全方位的三维物体在二维平面的多视角特征图像,并可以直接对三维物体进行检索,简单方便,易于实现,解决了三维图像检索中由于用户拍摄物体视角变化引起的检索性能下降的问题。该现有技术没有考虑自然场景中拍摄的图像检索,忽略了很多其他重要信息,影响三维模型的检索性能。
技术实现思路
本专利技术提出了一种面向自然场景的三维物体模型检索方法,以解决自然图像与多视角表达的三维模型存在的数据领域差异,实现自然图像对多视角三维物体的检索。本专利技术为解决上述技术问题采取的技术方案是:一种面向自然场景的三维物体模型检索方法,所述方法的实现过程为:步骤一、模型的多视角投影与渲染在三维场景中,利用虚拟相机,对三维物体模型进行多视角投影,并利用Blender工具合成出以自然图像为背景的视角图像;对三维物体模型数据集中每个模型做视角投影并做模型渲染;步骤二、构建跨领域检索网络利用最大池化层对三维模型的多视角特征进行融合,构建共享权值的跨领域检索网络;步骤三、构建三元组立体损失训练数据利用提出的新型三元组立体损失训练策略,构建三元组立体损失训练数据,对每个输入包(batch)中同时挖掘困难的正样本对和负样本对,使两个不同数据域的特征分布具有相似统计特性;步骤四、训练跨领域检索网络利用提出的三元组中心-分离损失函数方法,训练具有联合特征的构建跨领域检索网络,将自然图像域与模型多视角图像域的特征有效地映射到同一嵌入空间中;步骤五、自然图像的模型检索将自然图像和多视角表示的CAD模型输入到共享权值网络中,通过计算自然图像特征和模型特征库中各模型间的距离,检索自然图像。进一步地,在步骤一中,模型的多视角投影与渲染的过程为:为得到与自然场景物体相对应的多视角三维模型数据,需要根据数据集中模型的视角标注信息,方位角(φ)、高度角和旋转角(ψ),设定相机的拍摄位姿,将三维模型投影到自然图像坐标系中;假设初始状态下,世界坐标与模型坐标系以及相机坐标系重合,根据视角标注,可确定相机在世界坐标系中的空间位置C为:其中d是相机与模型中心的距离,旋转相机光轴对齐世界坐标系原点;定义相机自身坐标系,镜头光轴向后方向为k轴,相机向上方向为j轴;按照右手定则,由i轴到j轴可确定k轴,绕相机自身坐标的j轴旋转度,再绕i轴接着再绕k轴转动-ψ度,得到世界坐标系到相机坐标系的旋转矩阵R;三维空间中基于世界坐标系的物理点Pw,变换到相机坐标系为Pc,其变换关系:Pc=R(Pw-C)=[R-RC]Pw其中:R为旋转矩阵,Pw为世界坐标,Pc为相机坐标,C为相机在世界坐标系中的空间位置;在模型默认坐标系中,利用物体视角信息,按上述位姿变换,将虚拟相机摆放在预设的位置上,设定相机的姿态角;将相机光轴对准物体坐标中心,沿着该平面绕模型每隔30o拍摄视角图像,共采集12张图像作为该模型的多视角表示;按照以上步骤平移、旋转相机,得到不同位置上的投影视角;在投影视角的基础上做裁剪优化,按照图像中实际内容将多余的部分裁掉,再将修改后的图像放大到224x224的分辨率,得到投影视角;将模型放入特定场景或者用自然图像作为背景,做模型渲染;通过选择与自然场景相近的背景,利用Blender软件与投影视角图像中包含的透明度信息α,控制前景图像与背景融合时的占比,合成图像I与纯净视角图像V和背景图像B的关系:I=αV+(1-α)B合成出的以自然图像为背景的视角图像。进一步地,在步骤二中,构建跨领域检索网络的具体过程为:跨领域检索网络采用三元组网络结构,以Resnet18网络为基础,对其结构进行微调,构建跨领域检索网络,用来对自然图像和CAD模型进行特征提取;Resnet18网络由四个卷积块组成,每个块中含有两个卷积层以及一个直通连接;在第三个卷积块之后加入最大池化层以对多视角CAD模型数据进行特征融合,多视角图像经过最大池化层的融合特征后,再经过最后一个卷积块,可被编码成模型的单一嵌入特征;将原始网络中最后一层输出的1000个节点替换成相应数据集的类别数以适用数据集的分类。进一步地,在步骤三中,构建三元组立体损失训练数据的具体过程为:采用三元组立体损失训练策略构建训练数据,在构造三元组数据时,采用困难样本挖掘方法挖掘出更困难的负样本对;在训练小包中,有M组来自不同类别的样本集,每组中含S个从该类中随机选择的不同样本,用公式表达为满足i≠j;其中S表示来自同类中的样本数量,M则是小包中的类别数,y*为样本类别;对于任意两组来自不同类别的样本列和计算距离矩阵;那么对于样本列来说,将其与其它S-1个样本列产生的距离矩阵堆叠成距离立方体;每个样本列都以相同方式计算后,总共可以得到S个距离立方体;对于模型正样本距离以及负样本距离其中d(g)表示欧式距离,表示由卷积神经网络计算的模型的嵌入特征。进一步地,在步骤四中,训练跨领域检索网络的具体过程为:训练神经网络利用损失函数(网络学习收敛需要的损失函数)衡量实际输出与期望输出间的误差,通过不断迭代更新神经元中的权值而使网络能准确地模拟输入数据与样本标签间的映射关系,找到能使输出结果与期望值尽可能一致的权重参数,使提取到的图像特征和模型特征在同一嵌入空间中具有类似分布;在三元组基础上引入中心-分离损失约束进行联合特征学习,以提高类内紧凑性和类间区分性,每个物体类别对应一个类别中心,与每类物体相关的自然图像和多视角表示的CAD模型都指向该中心;对于单个样本特征fi和其对应的类别中心来说,三元组-中心分离本文档来自技高网
...

【技术保护点】
1.一种面向自然场景的三维物体模型检索方法,其特征在于,所述方法的实现过程为:/n步骤一、模型的多视角投影与渲染:在三维场景中,利用虚拟相机对三维物体模型进行多视角投影,并利用Blender工具合成出以自然图像为背景的视角图像;/n步骤二、构建跨领域检索网络:利用最大池化层对三维模型的多视角特征进行融合,构建共享权值的跨领域检索网络;/n步骤三、构建三元组立体损失训练数据:利用三元组立体损失训练策略,构建三元组立体损失训练数据,对每个输入包(batch)中同时挖掘困难的正样本对和负样本对,使两个不同数据域的特征分布具有相似统计特性;/n步骤四、训练跨领域检索网络:利用提出的三元组中心-分离损失函数方法,训练具有联合特征的构建跨领域检索网络,将自然图像域与模型多视角图像域的特征有效地映射到同一嵌入空间中;/n步骤五、自然图像的模型检索:将自然图像和多视角表示的CAD模型输入到共享权值网络中,通过计算自然图像特征和模型特征库中各模型间的距离,检索自然图像。/n

【技术特征摘要】
1.一种面向自然场景的三维物体模型检索方法,其特征在于,所述方法的实现过程为:
步骤一、模型的多视角投影与渲染:在三维场景中,利用虚拟相机对三维物体模型进行多视角投影,并利用Blender工具合成出以自然图像为背景的视角图像;
步骤二、构建跨领域检索网络:利用最大池化层对三维模型的多视角特征进行融合,构建共享权值的跨领域检索网络;
步骤三、构建三元组立体损失训练数据:利用三元组立体损失训练策略,构建三元组立体损失训练数据,对每个输入包(batch)中同时挖掘困难的正样本对和负样本对,使两个不同数据域的特征分布具有相似统计特性;
步骤四、训练跨领域检索网络:利用提出的三元组中心-分离损失函数方法,训练具有联合特征的构建跨领域检索网络,将自然图像域与模型多视角图像域的特征有效地映射到同一嵌入空间中;
步骤五、自然图像的模型检索:将自然图像和多视角表示的CAD模型输入到共享权值网络中,通过计算自然图像特征和模型特征库中各模型间的距离,检索自然图像。


2.根据权利要求1所述的一种面向自然场景的三维物体模型检索方法,其特征在于:在步骤一中,模型的多视角投影与渲染的过程为:
为得到与自然场景物体相对应的多视角三维模型数据,需要根据数据集中模型的视角标注信息,方位角(φ)、高度角和旋转角(ψ),设定相机的拍摄位姿,将三维模型投影到自然图像坐标系中;假设初始状态下,世界坐标与模型坐标系以及相机坐标系重合,根据视角标注,可确定相机在世界坐标系中的空间位置C为:









其中d是相机与模型中心的距离,旋转相机光轴对齐世界坐标系原点;
定义相机自身坐标系,镜头光轴向后方向为k轴,相机向上方向为j轴;按照右手定则,由i轴到j轴可确定k轴,绕相机自身坐标的j轴旋转度,再绕i轴接着再绕k轴转动-ψ度,得到世界坐标系到相机坐标系的旋转矩阵R;
三维空间中基于世界坐标系的物理点Pw,变换到相机坐标系为Pc,其变换关系:
Pc=R(Pw-C)=[R-RC]Pw
其中:R为旋转矩阵,Pw为世界坐标,Pc为相机坐标,C为相机在世界坐标系中的空间位置;
在模型默认坐标系中,利用物体视角信息,按上述位姿变换,将虚拟相机摆放在预设的位置上,设定相机的姿态角;将相机光轴对准物体坐标中心,沿着该平面绕模型每隔30o拍摄视角图像,共采集12张图像作为该模型的多视角表示;
按照以上步骤平移、旋转相机,得到不同位置上的投影视角;在投影视角的基础上做裁剪优化,按照图像中实际内容将多余的部分裁掉,再将修改后的图像放大到224x224的分辨率,得到投影视角;
将模型放入特定场景或者用自然图像作为背景,做模型渲染;通过选择与自然场景相近的背景,利用Blender软件与投影视角图像中包含的透明度信息α,控制前景图像与背景融合时的占比,合成图像I与纯净视角图像V和背景图像B的关系:
I=αV+(1-α)B
合成出的以自然图像为背景的视角图像。


3.根据权利要求2所述的一种面向自然场景的三维物体模型检索方法,其特征在于:在步骤二中,构建跨领域检索网络的具体过程为:
跨领域检索网络采用三元组网...

【专利技术属性】
技术研发人员:王滨王栋陶隽源金明河刘宏
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1