一种基于投影卷积网络的三维形状分割及语义标记方法技术

技术编号:15569399 阅读:81 留言:0更新日期:2017-06-10 03:08
本发明专利技术提出了一种基于投影卷积网络的三维形状分割及语义标记方法,输入采用多边形网格的三维形状表示,信息点大限度地覆盖形状表面,渲染形状为阴影图像和深度图像,产生双通道图像,经相同图像的全连接网络(FCN)模块,对于每个输入图像每个函数模块输出置信图,图像表面投影层聚合多个视图的置信度图,结合边界线索进行表面条件随机域CRF传播,对任务各模块进行训练,最终获得分割语义标记结果。本发明专利技术不需要利用任何人工调整几何描述符,减少闭塞和覆盖形状表面,不会丢失显著部分标签,有效地关联信息,闭塞的部分也被标记,保证了分割的完整性和连贯性,方法显著优于以前的方法。

A 3D shape segmentation and semantic tagging method based on projection convolution network

The invention provides a three-dimensional shape segmentation and semantic tagging method based on projection convolution network, input represented by three-dimensional shape of polygonal meshes, point of information to maximize the coverage of surface shape, shape for rendering the shadow image and the depth image, double channel image, the image of the same fully connected network (FCN) for the module. Each input and output images of each function module confidence map, image projection surface layer aggregation of multiple view confidence map, surface condition random fields CRF propagation with boundary clue, carries on the training task of each module, the final segmentation results obtained semantic markup. The invention does not need to use any artificial adjustment of geometric descriptors, reduce the occlusion and cover surface, do not lose a significant portion of the label, effectively related information, the occluded parts can be labeled, to ensure the integrity of the segmentation and coherence method is significantly better than before.

【技术实现步骤摘要】

本专利技术涉及图像分割领域,尤其是涉及了一种基于投影卷积网络的三维形状分割及语义标记方法
技术介绍
三维形状分割成标记的语义得到广泛的应用,常用于机器人技术和虚拟现实技术,如三维形状、跨模态分析、图像目标检测、图像三维重建和三维对象的风格转换等等,根据部分的形状和种类,进行相应的分割和语义标记,现有的三维几何形状数据语义推理技术大多依赖于启发式处理阶段和人工调整几何描述符,且分割边界的线索非常细微,需要对噪点有较强的鲁棒性,易产生严重闭塞,影响分割边界的连贯性和完整性。本专利技术提出了一种基于投影卷积网络的三维形状分割及语义标记方法,输入采用多边形网格的三维形状表示,信息点大限度地覆盖形状表面,渲染形状为阴影图像和深度图像,产生双通道图像,经相同图像的全连接网络(FCN)模块,对于每个输入图像每个函数模块输出置信图,图像表面投影层聚合多个视图的置信度图,结合边界线索进行表面条件随机域CRF传播,对任务各模块进行训练,最终获得分割语义标记结果。本专利不需要利用任何人工调整几何描述符,减少闭塞和覆盖形状表面,不会丢失显著部分标签,有效地关联信息,闭塞的部分也被标记,保证了分割的完整性和连贯性,方法显著优于以前的方法。
技术实现思路
为解决上述问题,本专利技术提供一种基于投影卷积网络的三维形状分割及语义标记方法,其主要内容包括:数据输入(一);完全卷积网络(FCN)模块(二);图像表面投影层(三);表面条件随机域(CRF)模块(四);训练(五)。其中数据输入(一),输入采用多边形网格的三维形状表示,作为预处理,形状表面通过均匀分布点采样(这里采用1024个);确定紧凑的信息点,最大限度地覆盖形状表面,对于每一个信息点,在一个二值图像的透视投影下,每个角度的形状光栅化,信息点的覆盖范围的测量作为可见的表面点的片段,对形状进行渲染。进一步地,最大限度覆盖形状表面,通过从图像中聚合表面点引用来估计,对于每一个的尺寸,最大覆盖的信息点插入到列表中,然后重新估计覆盖在这个规模,选择信息点覆盖了省略点,与下一个大范围的信息点添加到列表;重复该过程,直到所有表面点在此规模被覆盖。进一步地,渲染确定信息点收集,渲染形状为阴影图像和深度图像,对于每一个信息点,放置一个摄像头指向的表面点用于生成这种信息点,并旋转向量4次,每次90度(即使用4个平面内旋转),这4个旋转,渲染阴影和深度图像,连接成一个双通道图像,这些图像被馈送作为输入到图像网络处理模块(FCN),栅格化形状到另一个图像,每个像素存储多边形ID,投影最接近的像素中心,这些图像称为“表面参考”的图像,被馈送到网络的“投影层”。其中,FCN模块(二),在上一步产生双通道图像,经相同图像的全连接网络(FCN)模块,对于每个输入图像每个函数模块输出L置信图,大小为768×768,其中L是部分标签数量,由于输入是一个2通道的图像,使用2通道3×3过滤器,适应这些过滤器来处理灰度而不是彩色图像,上采样置信图大小768×768通过转置卷积层(“去卷积”),置信度通过CRF层转换成概率。其中,图像表面投影层(三),这一层的目标是聚合多个视图的置信度图,并将结果投影到三维表面上;位置和最佳角度的数量和形状都不同,且无规则,给定输入形状s的输入图像Ms,L从FCN模块提取的置信图叠成一个Ms×768×768×L图像,投影层作为输入这四维图像,这层输出Fs×L列,其中Fs是形状s的多边形数,投影是通过视图池操作完成的,对于每个表面多边形f和部分类别标签l,分配置信度P(f,l)等于在所有像素和输入图像映射到该多边形根据表面参考图像的最大标签的置信度,投影操作公式为:C(m,i,j,l)是图像m的像素(i,j)的标签l的置信度,I(m,i,j)储存相应的参考图像m像素(i,j)多边形ID;是标记多边形f的标签l的输出置信度。其中,表面CRF(四),一些小的表面区域可能是高度封闭的,因此未观测到所有选定的信息点,或不包括在任何参考图像中,任何这样的多边形,标签的置信度都设置为零,正确的标签将通过在投影层之后的条件随机域(CRF)层传播;此外,由于采样的函数模块,有可能在表面凸起或凹陷,可能是分割边界,需要结合表面边界线索进行CRF操作。进一步地,CRF操作,在曲面表示(法)中定义CRF操作处理,每个多边形f被分配一个随机变量Rf代表其标签;CRF包括每个变量的一元因素,这是在投影层根据置信度设置的:CRF编码这些变量之间相互作用的基础上的表面接近和曲率,每对相邻的多边形(f,f′),定义了一个考虑其法线之间的角度ωf,f′的因素,有利于多边形共享法线相同的标签,公式如下:其中wadj和wl,l′是学习因子和标签相关权重;定义多边形f类似标签的因素f′,根据之间的测地线距离df,f′,空间上彼此接近;使CRF相对密集和更敏感的远程表面变量之间的相互作用,这些因素被定义如下:其中依赖因子的权重wdist和依赖标签的权重wl,l′是学习获得的参数,df,f′代表f和f′之间的测地距离,距离归一化为[0,1];基于上述所有因素,CRF定义在所有的表面随机变量形状的如下:Zs是一个归一化常数。其中,训练(四),FCN模块与过滤器预训练图像处理任务初始化,网络输入呈现灰度(无色)的图像,平均卷积层预训练过滤器BGR通道的权重,即3×3×3滤波器转换为颜色不敏感3×3×1过滤器,复制两次权重3×3×2过滤器,接受双输入图像,CRF的权重初始化为1;给定一个输入训练数据集的3D形状,生成深度、阴影和参考图像,微调FCN模块滤波参数θ学习CRF的权重wadj、wdist和{wl,l′本文档来自技高网...
一种基于投影卷积网络的三维形状分割及语义标记方法

【技术保护点】
一种基于投影卷积网络的三维形状分割及语义标记方法,其特征在于,主要包括数据输入(一);完全卷积网络(FCN)模块(二);图像表面投影层(三);表面条件随机域(CRF)模块(四);训练(五)。

【技术特征摘要】
1.一种基于投影卷积网络的三维形状分割及语义标记方法,其特征在于,主要包括数据输入(一);完全卷积网络(FCN)模块(二);图像表面投影层(三);表面条件随机域(CRF)模块(四);训练(五)。2.基于权利要求书1所述的数据输入(一),其特征在于,输入采用多边形网格的三维形状表示,作为预处理,形状表面通过均匀分布点采样(这里采用1024个);确定紧凑的信息点,最大限度地覆盖形状表面,对于每一个信息点,在一个二值图像的透视投影下,每个角度的形状光栅化,信息点的覆盖范围的测量作为可见的表面点的片段,对形状进行渲染。3.基于权利要求书2所述的最大限度覆盖形状表面,其特征在于,通过从图像中聚合表面点引用来估计,对于每一个的尺寸,最大覆盖的信息点插入到列表中,然后重新估计覆盖在这个规模,选择信息点覆盖了省略点,与下一个大范围的信息点添加到列表;重复该过程,直到所有表面点在此规模被覆盖。4.基于权利要求书2所述的渲染,其特征在于,确定信息点收集,渲染形状为阴影图像和深度图像,对于每一个信息点,放置一个摄像头指向的表面点用于生成这种信息点,并旋转向量4次,每次90度(即使用4个平面内旋转),这4个旋转,渲染阴影和深度图像,连接成一个双通道图像,这些图像被馈送作为输入到图像网络处理模块(FCN),栅格化形状到另一个图像,每个像素存储多边形ID,投影最接近的像素中心,这些图像称为“表面参考”的图像,被馈送到网络的“投影层”。5.基于权利要求书1所述的FCN模块(二),其特征在于,在上一步产生双通道图像,经相同图像的全连接网络(FCN)模块,对于每个输入图像每个函数模块输出L置信图,大小为768×768,其中L是部分标签数量,由于输入是一个2通道的图像,使用2通道3×3过滤器,适应这些过滤器来处理灰度而不是彩色图像,上采样置信图大小768×768通过转置卷积层(“去卷积”),置信度通过CRF层转换成概率。6.基于权利要求书1所述的图像表面投影层(三),其特征在于,这一层的目标是聚合多个视图的置信度图,并将结果投影到三维表面上;位置和最佳角度的数量和形状都不同,且无规则,给定输入形状s的输入图像Ms,L从FCN模块提取的置信图叠成一个Ms×768×768×L图像,投影层作为输入这四维图像,这层输出Fs×L列,其中Fs是形状s的多边形数,投影是通过视图池操作完成的,...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1