【技术实现步骤摘要】
一种面向自然场景的三维物体模型检索方法
本专利技术属于图像处理
,涉及一种面向自然场景的三维物体模型检索方法。
技术介绍
用自然场景中拍摄的图像检索对应的多视角表达的三维CAD模型,在增强现实、计算机辅助设计等应用中具有重要的价值。与给定CAD模型检索CAD模型的数据形式不同,自然图像与三维模型的数据有明显的区别,自然图像受复杂光照、多样化背景以及不可控图像退化等因素影响呈现出复杂多变的数据形态,三维模型则是在人工设定环境下创造的单一、纯净,极大程度上排除了不可控因素干扰的数据形式。针对自然图像对三维模型的检索,现有的方法试图将自然图像和对应模型的视角特征映射到同一嵌入空间中。但实质上只考虑了对齐两个数据域的边缘分布,忽略了很多其他重要信息,并且缺少大规模高质量的包含自然图像与CAD模型对应的三维数据集。因此,在训练数据有限的情况下,提出一种面向自然场景的三维物体模型检索方法,对于提高三维模型的检索性能是非常必要的。现有技术中,文献号为CN110070626A的专利文献提供了一种基于多视角分类的三维物体检索方法,包括:获取原始图像;对所述原始图像进行处理得到多视角图像;对所述多视角图像进行处理得到特征描述子;对所述特征描述子进行处理得到词汇树;将待检索图像在所述词汇树中检索得到所述原始图像的序列号。该文献采用多视角分类算法,得到全方位的三维物体在二维平面的多视角特征图像,并可以直接对三维物体进行检索,简单方便,易于实现,解决了三维图像检索中由于用户拍摄物体视角变化引起的检索性能下降的问题。该现有 ...
【技术保护点】
1.一种面向自然场景的三维物体模型检索方法,其特征在于,所述方法的实现过程为:/n步骤一、模型的多视角投影与渲染:在三维场景中,利用虚拟相机对三维物体模型进行多视角投影,并利用Blender工具合成出以自然图像为背景的视角图像;/n步骤二、构建跨领域检索网络:利用最大池化层对三维模型的多视角特征进行融合,构建共享权值的跨领域检索网络;/n步骤三、构建三元组立体损失训练数据:利用三元组立体损失训练策略,构建三元组立体损失训练数据,对每个输入包(batch)中同时挖掘困难的正样本对和负样本对,使两个不同数据域的特征分布具有相似统计特性;/n步骤四、训练跨领域检索网络:利用提出的三元组中心-分离损失函数方法,训练具有联合特征的构建跨领域检索网络,将自然图像域与模型多视角图像域的特征有效地映射到同一嵌入空间中;/n步骤五、自然图像的模型检索:将自然图像和多视角表示的CAD模型输入到共享权值网络中,通过计算自然图像特征和模型特征库中各模型间的距离,检索自然图像。/n
【技术特征摘要】
1.一种面向自然场景的三维物体模型检索方法,其特征在于,所述方法的实现过程为:
步骤一、模型的多视角投影与渲染:在三维场景中,利用虚拟相机对三维物体模型进行多视角投影,并利用Blender工具合成出以自然图像为背景的视角图像;
步骤二、构建跨领域检索网络:利用最大池化层对三维模型的多视角特征进行融合,构建共享权值的跨领域检索网络;
步骤三、构建三元组立体损失训练数据:利用三元组立体损失训练策略,构建三元组立体损失训练数据,对每个输入包(batch)中同时挖掘困难的正样本对和负样本对,使两个不同数据域的特征分布具有相似统计特性;
步骤四、训练跨领域检索网络:利用提出的三元组中心-分离损失函数方法,训练具有联合特征的构建跨领域检索网络,将自然图像域与模型多视角图像域的特征有效地映射到同一嵌入空间中;
步骤五、自然图像的模型检索:将自然图像和多视角表示的CAD模型输入到共享权值网络中,通过计算自然图像特征和模型特征库中各模型间的距离,检索自然图像。
2.根据权利要求1所述的一种面向自然场景的三维物体模型检索方法,其特征在于:在步骤一中,模型的多视角投影与渲染的过程为:
为得到与自然场景物体相对应的多视角三维模型数据,需要根据数据集中模型的视角标注信息,方位角(φ)、高度角和旋转角(ψ),设定相机的拍摄位姿,将三维模型投影到自然图像坐标系中;假设初始状态下,世界坐标与模型坐标系以及相机坐标系重合,根据视角标注,可确定相机在世界坐标系中的空间位置C为:
其中d是相机与模型中心的距离,旋转相机光轴对齐世界坐标系原点;
定义相机自身坐标系,镜头光轴向后方向为k轴,相机向上方向为j轴;按照右手定则,由i轴到j轴可确定k轴,绕相机自身坐标的j轴旋转度,再绕i轴接着再绕k轴转动-ψ度,得到世界坐标系到相机坐标系的旋转矩阵R;
三维空间中基于世界坐标系的物理点Pw,变换到相机坐标系为Pc,其变换关系:
Pc=R(Pw-C)=[R-RC]Pw
其中:R为旋转矩阵,Pw为世界坐标,Pc为相机坐标,C为相机在世界坐标系中的空间位置;
在模型默认坐标系中,利用物体视角信息,按上述位姿变换,将虚拟相机摆放在预设的位置上,设定相机的姿态角;将相机光轴对准物体坐标中心,沿着该平面绕模型每隔30o拍摄视角图像,共采集12张图像作为该模型的多视角表示;
按照以上步骤平移、旋转相机,得到不同位置上的投影视角;在投影视角的基础上做裁剪优化,按照图像中实际内容将多余的部分裁掉,再将修改后的图像放大到224x224的分辨率,得到投影视角;
将模型放入特定场景或者用自然图像作为背景,做模型渲染;通过选择与自然场景相近的背景,利用Blender软件与投影视角图像中包含的透明度信息α,控制前景图像与背景融合时的占比,合成图像I与纯净视角图像V和背景图像B的关系:
I=αV+(1-α)B
合成出的以自然图像为背景的视角图像。
3.根据权利要求2所述的一种面向自然场景的三维物体模型检索方法,其特征在于:在步骤二中,构建跨领域检索网络的具体过程为:
跨领域检索网络采用三元组网...
【专利技术属性】
技术研发人员:王滨,王栋,陶隽源,金明河,刘宏,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。