一种基于大规模场景三维模型精细语义标注方法技术

技术编号:27308074 阅读:22 留言:0更新日期:2021-02-10 09:25
本发明专利技术公开了一种基于大规模场景三维模型精细语义标注方法,在主动学习(Active Learning)框架下迭代执行以下几个步骤,S1使用不断扩大的带标记图像集对CNN进行语义分割网络训练;S2利用标定后的摄像机参数将所有图像中的像素标签反投影到三维网格模型上;S3以融合后的语义三维模型作为监督者;S4训练

【技术实现步骤摘要】
一种基于大规模场景三维模型精细语义标注方法


[0001]本专利技术属于无人机倾斜摄影
,具体为一种基于大规模场景三维模型精细语义标注方法。

技术介绍

[0002]近年来,三维模型的语义标注一直是一个具有挑战性的研究方向。当前,大规模三维模型自动语义标注方法有以下两种。一种是结合三维模型和语义去重建场景。采用预训练的决策树进行图像分割。然后结合标签图像和深度图重建语义模型。二是为三维模型分配语义标签。先对二维图像进行像素级语义分割,然后利用标定后的摄像机参数将这些标签反投影到三维模型中并融合在一起。
[0003]由于三维物体在不同场景中的种类和形状各异,很难有适合大多数场景的通用方法。三维语义模型可帮助人类和自动化系统知道在特定场景中“什么对象”在“什么地方”,并在自动驾驶,增强现实和机器人等领域具有多种应用。一个精细的大规模场景三维模型具有成千上万个面片,一种最直接的方法就是对其进行手工标注。然而,现在并没有有效的工具对每一个面片进行手工标注,并且现有的深度学习技术也无法处理大规模场景的三维模型。因此寻找一种可以对大规模场景三维模型进行标注的方法是十分有必要的。
[0004]针对相关技术中的问题,目前尚未提出有效的解决方案,为此,我们提出一种基于大规模场景三维模型精细语义标注方法。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供一种基于大规模场景三维模型精细语义标注方法,解决了
技术介绍
中提到的问题。
[0007](二)技术方案
[0008]为实现上述目的,本专利技术提供如下技术方案:一种基于大规模场景三维模型精细语义标注方法,在主动学习(Active Learning)框架下迭代执行以下几个步骤:
[0009]S1使用不断扩大的带标记图像集对CNN进行语义分割网络训练,然后使用训练的CNN获取未标记图像的像素级语义标签;
[0010]S2利用标定后的摄像机参数将所有图像中的像素标签反投影到三维网格模型上,然后使用MRF优化方法对标签及三维网格模型进行融合,通过结合二维语义标签和三维几何特征,给每个面片一个单独的标签;
[0011]S3以融合后的语义三维模型作为监督者,应用批量图像选择方法,选取多幅有价值的图像进行标注,在被手动标记之后,这些图像被合并到训练集中,准备下一次迭代;
[0012]S4训练-融合-选择过程将不断进行,直到模型的标签变得稳定,即在先前和当前迭代中同一面片具有不同标签的百分比低于阈值η。
[0013]优选的,该方法以SfM和MVS重建的三维网格模型和标定后的图像为输入,输出三
维语义网格模型,每个面片都被贴上语义标签,不同颜色代表不同类别。
[0014]优选的,所述SfM为由多条的channel水平和垂直交错而成,每条channel提供8Gbps交换能力(supervisor720提供每channel 20Gpbs),矩阵交换的最大优点是允许多个相互不冲突的交换同时进行,并支持点对多点(Multicast)的交换。
[0015]优选的,所述MVS是一种基板,其使用两颗14Mhz的Motorola 68000CPU,可达320x224的分辨率(最大发色数65,536色,同屏显示4096色),声音处理芯片为Z80A,有8声道的FM合成音源和7声道的数字立体声音源(PSG&PCM),系统RAM为7MB(56Mbits).卡带最大容量42MB(330Mbits)。
[0016]优选的,所述语义分割为计算机视觉中的任务,在这一过程中,我们将视觉输入中的不同部分按照语义分到不同类别中,通过“语义理解”,各类别有一定的现实意义。
[0017]优选的,所述S2中的MRF优化,首先在传统的MRF图像分割算法中引入可变权重的参数来连接标记场模型与特征场模型,使得两种模型之间形成一种平衡,获取可保持图像边缘、图像重要细节和具有区域一致性的分割结果,然后在边缘处自适应地引入边缘惩罚函数,调整势函数的能量对能量函数的贡献,减少分割时对边缘的模糊,提高对边缘的定位精度,通过实验结果分析表明,所提出的优化的MRF影像分割算法比传统的ICM迭代计算MRF分割算法和变权重的MRF分割算法具有更高分割精度。
[0018](三)有益效果
[0019]与现有技术相比,本专利技术提供了一种基于大规模场景三维模型精细语义标注方法,具备以下有益效果:
[0020]本专利技术通过确定语义分割类别数、标注数据、标注数据进行训练、对图像进行语义分割几个操作,可用于对由图像重建的大规模场景三维模型进行精细标记,所提出的方法使用有限的人工,同时还可保证模型的语义标注的质量。
附图说明
[0021]图1为本专利技术工作流程图;
[0022]图2为本专利技术图像示意图;
[0023]图3为本专利技术3D图像示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]实施例
[0026]请参阅图1-3,本专利技术提供一种技术方案:一种基于大规模场景三维模型精细语义标注方法,在主动学习(Active Learning)框架下迭代执行以下几个步骤:
[0027]S1使用不断扩大的带标记图像集对CNN进行语义分割网络训练,然后使用训练的CNN获取未标记图像的像素级语义标签;
[0028]S2利用标定后的摄像机参数将所有图像中的像素标签反投影到三维网格模型上,
然后使用MRF优化方法对标签及三维网格模型进行融合,通过结合二维语义标签和三维几何特征,给每个面片一个单独的标签;
[0029]S3以融合后的语义三维模型作为监督者,应用批量图像选择方法,选取多幅有价值的图像进行标注,在被手动标记之后,这些图像被合并到训练集中,准备下一次迭代;
[0030]S4训练-融合-选择过程将不断进行,直到模型的标签变得稳定,即在先前和当前迭代中同一面片具有不同标签的百分比低于阈值η。
[0031]其中,该方法以SfM和MVS重建的三维网格模型和标定后的图像为输入,输出三维语义网格模型,每个面片都被贴上语义标签,不同颜色代表不同类别。
[0032]具体操作如下:
[0033]步骤1:确定语义分割类别数、标注数据;
[0034]语义分割类别数:4类,label标记为0-3(分别代表其他类、建筑物、道路、植被);标注数据:使用Labelme数据标注软件对少量图像进行语义分割标注,生成.json文件;
[0035]步骤2:通过语义分割网络对标注数据进行训练,获取比较理想的分类模型;
[0036]步骤3:对图像进行语义分割,获取每个类别的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大规模场景三维模型精细语义标注方法,其特征在于:在主动学习(Active Learning)框架下迭代执行以下几个步骤:S1使用不断扩大的带标记图像集对CNN进行语义分割网络训练。然后使用训练的CNN获取未标记图像的像素级语义标签;S2利用标定后的摄像机参数将所有图像中的像素标签反投影到三维网格模型上,然后使用MRF优化方法对标签及三维网格模型进行融合,通过结合二维语义标签和三维几何特征,给每个面片一个单独的标签;S3以融合后的语义三维模型作为监督者,应用批量图像选择方法,选取多幅有价值的图像进行标注,在被手动标记之后,这些图像被合并到训练集中,准备下一次迭代;S4训练-融合-选择过程将不断进行,直到模型的标签变得稳定,即在先前和当前迭代中同一面片具有不同标签的百分比低于阈值η。2.根据权利要求1所述的一种基于大规模场景三维模型精细语义标注方法,其特征在于:该方法以SfM和MVS重建的三维网格模型和标定后的图像为输入,输出三维语义网格模型,每个面片都被贴上语义标签,不同颜色代表不同类别。3.根据权利要求1所述的一种基于大规模场景三维模型精细语义标注方法,其特征在于:所述SfM为由多条的channel水平和垂直交错而成,每条channel提供8Gbps交换能力(supervisor720提供每channel 20Gpbs),矩阵交换的最大优点是允许多个相互不冲突的交换同时进行,并支持点对...

【专利技术属性】
技术研发人员:何娇王江安
申请(专利权)人:陕西土豆数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1