【技术实现步骤摘要】
一种面向室内场景三维语义分割的虚拟视图选择方法和装置
[0001]本专利技术涉及三维场景理解
,尤其涉及三维场景的语义分割方法和装置。
技术介绍
[0002]在虚拟现实、增强现实、智能机器人等应用中,精确地对室内场景进行语义分割有助于智能体对该场景有更深的理解,可以使应用与该场景更好地进行交互。
[0003]现有技术中,对室内场景三维语义分割任务,大多方法通过将三维几何进行转化,形成点云、体素或者三维网格,再通过合适的三维深度学习网络直接进行分割,这种方法由于缺少了二维图片的信息,对几何形状不明显的物体分割效果较差;部分方法使用了二维图片信息和三维几何信息相结合的方式,但普遍采用原始扫描的图片,因为原始扫描的图片视场小、角度有限,难以解决物体之间相互遮挡、光照不一致等问题。有方法使用了虚拟视图来视图解决该问题,但虚拟视图选择没有规律,会导致很多质量很低的图片,增加了大量计算的同时,降低了分割结果的准确性。
[0004]总之,对室内场景的三维语义分割技术还有待提升。
技术实现思路
[0005]本专利技术提供一种面向室内场景三维语义分割的虚拟视图选择方法和装置,以深度强化学习为基础,训练一个预测场景各区域不确定度分数的打分网络,并根据网络预测的不确定度选择虚拟视图视角,使虚拟视图尽可能覆盖不确定度高的区域,利用这些虚拟视图和场景的几何特征,优化该三维场景的语义分割结果。
[0006]第一方面,本专利技术提供了一种基于虚拟视图选择的室内场景三维语义分割方法,所述方法包括: />[0007]利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;
[0008]利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;
[0009]根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;
[0010]结合虚拟视图和原三维场景三维信息,优化三维室内场景的语义分割结果。
[0011]根据本专利技术提供的对三维室内场景的三维语义分割方法,所述利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果,包括:
[0012]将三维场景的点云进行体素化,得到以5厘米为边长的体素构成的三维场景几何表示。
[0013]将体素输入一个基础三维语义分割网络骨架,得到该场景的几何特征向量。
[0014]将该场景的几何特征向量输入基础三维语义分割网络的分类器,得到该场景的三维语义分割初步结果。
[0015]根据本专利技术提供的对三维室内场景的三维语义分割方法,所述利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度,包括:
[0016]建立一个3D
‑
UNet架构的三维不确定度打分网络,其输入是三维场景的特征向量和三维语义分割初步结果,输出是该场景的不确定度分布图。
[0017]利用三维场景的语义分割人为标注的真实标签,和该场景的初步分割结果进行比较,用以监督不确定度打分网络。
[0018]根据本专利技术提供的对三维室内场景的三维语义分割方法,所述根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图,包括:
[0019]基于输入三维场景,计算场景中每个体素的法向方向向量。
[0020]基于各体素的三维坐标和法向向量,使用k
‑
means算法进行聚类,将三维场景划分成多个区域。
[0021]对每个区域的总不确定度进行排序,选取总不确定度高的部分区域为选定区域。
[0022]对选定区域进行多角度虚拟视图生成和渲染。
[0023]根据本专利技术提供的对三维室内场景的三维语义分割方法,所述结合虚拟视图和原三维场景三维信息,优化三维室内场景的语义分割结果,包括:
[0024]使用二维语义分割网络将生成的虚拟视图进行语义分割。
[0025]建立各虚拟视图的像素位置和室内三维场景的体素位置的对应关系。
[0026]将虚拟视图的语义分割结果和其相对应的体素的三维语义分割结果进行融合。
[0027]根据本专利技术提供的对三维室内场景的三维语义分割方法,所述监督训练不确定度打分网络的深度强化学习过程,包括:
[0028]随机初始化不确定度打分网络权值θ;
[0029]对场景S,所述不确定度打分网络输出场景各体素的不确定度;
[0030]随机地将场景各个区域赋值0或1,选取所有赋值为1的区域,对选取区域进行虚拟视图选择和渲染;
[0031]根据所述虚拟视图分割与结合方法得到二维三维联合分割结果p
i
;
[0032]比较p
i
和上一次循环的联合分割结果p
i
‑1,计算得到强化学习的激励项Reward;
[0033]使用所述激励项Reward更新不确定度打分网络权值θ;
[0034]对场景S重复上述过程。
[0035]第二方面,本专利技术提供一种基于虚拟视图选择的室内场景三维语义分割装置,所述装置包括:
[0036]三维语义分割网络模块,用于对室内场景进行初步语义分割,得到室内场景的特征向量和语义分割初步结果;
[0037]深度强化学习模块,用于训练不确定度打分网络,估计场景各处的不确定度大小;
[0038]虚拟视图选取模块,用于根据场景的不确定度选择合适的虚拟视图取景区域,并从恰当角度渲染虚拟视图;
[0039]联合优化模块,用于结合虚拟视图的二维语义分割结果和原三维几何信息,提升室内场景的三维语义分割结果的精确度。
[0040]本专利技术提供一种面向室内场景三维语义分割的虚拟视图选择方法和装置。利用基
于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;用虚拟视图和原三维场景三维信息结合,得到三维室内场景的语义分割结果。本专利技术在优化三维室内场景语义分割结果的过程中,利用深度强化学习监督了场景不确定度的生成,同时引入了虚拟视图渲染方法,保证了原本分割结果较差的位置上有更多的信息,使得三维室内场景语义分割的准确性显著提高。
附图说明
[0041]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1是本专利技术提供的面向三维室内场景三维语义分割的虚拟视图选取方法的流程示意图;
[0043]图2是本专利技术提供的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种面向三维场景语义分割的虚拟视图选择方法,其特征在于,所述方法包括:利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到室内场景的特征向量和初始语义分割结果;利用所述特征向量和所述初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;根据所述场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;结合所述虚拟视图和原三维场景三维信息,优化三维室内场景的语义分割结果。2.根据权利要求1所述的面向三维场景语义分割的虚拟视图选择方法,其特征在于利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果,包括:将所述三维场景的点云进行体素化,得到以5厘米为边长的体素构成的三维场景几何表示。将所述体素输入一个基础三维语义分割网络骨架,得到该场景的几何特征向量。将所述场景的几何特征向量输入基础三维语义分割网络的分类器,得到所述场景的三维语义分割初步结果。3.根据权利要求1所述的面向三维场景语义分割的虚拟视图选择方法,其特征在于根据所述特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度,包括:建立一个3D
‑
UNet架构的三维不确定度打分网络,其输入所述三维场景的特征向量和三维语义分割初步结果,输出是所述场景的不确定度分布图。利用所述三维场景的语义分割人为标注的真实标签,和所述场景的初步分割结果进行比较,用以监督不确定度打分网络。4.根据权利要求1所述的面向三维场景语义分割的虚拟视图选择方法,其特征在于根据所述场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图,包括:基于所述输入三维场景,计算场景中每个体素的法向方向向量。基于所述各体素的三维坐标和法向向量,使用k
‑
means算法进行聚类,将所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。