一种基于卷积神经网络的深度图置信度估计方法技术

技术编号：29212158 阅读：22 留言：0更新日期：2021-07-10 00:49

本发明专利技术公开了一种基于卷积神经网络的深度图置信度估计方法，用于多目立体匹配算法所生成深度图的质量评估和后处理操作，该方法包括如下步骤：由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图；利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取，得到特征图；使用卷积长短时记忆结构、预测模块、细化模块和多监督方法由所述特征图预测深度图的置信度并细化估计结果。本发明专利技术能对各种多目立体匹配算法所生成的深度图进行质量评估，能鲁棒地估计出多目立体匹配中的深度图置信度，以利于多目立体匹配算法的评估和对深度图的后处理。算法的评估和对深度图的后处理。算法的评估和对深度图的后处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的深度图置信度估计方法

[0001]本专利技术涉及计算机视觉与深度学习领域，具体是一种利用卷积神经网络对多视立体匹配中的中间结果进行特征提取及置信度预测，以完成对深度图的质量评估。

技术介绍

[0002]深度图质量评估是计算机视觉领域的一个基本课题，目前基于深度学习的方法基于单目或双目立体匹配输出的深度图和原始彩色图，构建卷积神经网络预测得到置信度图，这种方法无法充分利用多目立体匹配得到的多模态数据，并且由于网络结构简单而产生较低的精度。

技术实现思路

[0003]本专利技术的目的是为了解决现有技术的不足，提供一种基于卷积神经网络的深度图置信度估计方法，从多视立体匹配算法所估计的中间结果中提取特征并预测深度图置信度的技术问题。
[0004]为了实现以上目的，本专利技术所述的一种基于卷积神经网络的深度图置信度估计方法，该方法的具体步骤如下：
[0005]一种基于卷积神经网络的深度图置信度估计方法，该方法的具体步骤如下：
[0006]由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图；
[0007]利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取，得到特征图；
[0008]使用卷积长短时记忆结构、预测模块、和细化模块由所述特征图预测深度图的置信度并通过多监督方法细化估计结果。
[0009]进一步地，所述由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图，包括：
[0010]像素和其4
>‑
邻域构成局部窗口，假设窗口内的点所对应的三维点在同一个平面上，则从所述三维点构成的向量中，任选两个不在同一平面的向量进行叉乘，即得到所述像素对应的法线；
[0011]多目立体匹配的几何误差用三维点的Z坐标与平面深度之差来表示，所述几何误差是三维点到平面的距离的近似，将几何误差映射到预设范围内，并加权处理，使用逆深度来计算截断符号距离函数图。
[0012]进一步地，所述U型网络结构提取图像的高层次语义信息，包括编码和解码两个部分，每个编码子模块包括卷积、批归一化、非线性激活和最大池化四个操作，每个解码子模块包括转置卷积、卷积、批归一化和非线性激活四个操作。
[0013]进一步地，所述利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取，得到特征图，包括：
[0014](a)对输入图像进行编码：每个编码子模块的输入为前一个子模块的输出，经过每
个子模块后输出特征图的高和宽各缩小到输入的1/2，通道数增加到输入的2倍，保留每个子模块的卷积结果用于解码；
[0015](b)对编码模块的输出进行解码：每个解码子模块的输入为前一个子模块的输出，经过每个子模块后输入特征图的高和宽各增加到输入的2倍，通道数减小到输入的1/2。
[0016]进一步地，所述使用卷积长短时记忆结构、预测模块、和细化模块由所述特征图预测深度图的置信度，包括：多次迭代，在每次迭代中，使用卷积长短时记忆结构保留特征图在多次迭代时的长时和短时记忆，之后使用卷积层构成的预测模块得到每次迭代的置信度图，使用由卷积层构成的细化模块对预测得到的结果进行细化。
[0017]进一步地，迭代地从特征图中预测并细化置信度图，将U型网络结构提取到的U
‑
Net特征作为固定参考信息，每轮迭代中，将U
‑
Net特征和上一轮迭代的预测输出串联，作为本次迭代的输入，然后依次经过卷积长短时记忆结构、预测模块、和细化模块；
[0018]循环上述卷积长短时记忆结构、预测模块、和细化模块多次得到细化后的置信度图，在不同次迭代间共享模块的权重；
[0019]在首轮迭代中将预测输出初始化为像素值为0的图，在最后一轮迭代中只使用卷积长短时记忆结构和预测模块来获取预测结果。
[0020]进一步地，所述卷积长短时记忆结构用于处理序列数据，基础结构是元胞，元胞内包括遗忘门、输入门和输出门，分别决定该元胞需要遗忘、存储和输出的信息。
[0021]进一步地，所述细化模块由多个卷积层构成，输入是每轮迭代的预测结果，输出是由预测结果提取到的新特征，将所述新特征和U型网络结构提取到的U
‑
Net特征串联作为新一轮预测的输入。
[0022]进一步地，所述细化模块的具体操作步骤为：
[0023]细化模块对预测模块的结果进行细化，每个卷积层包括卷积、批归一化和非线性激活操作；
[0024]细化模块对单通道置信度图进行特征再提取，第一个卷积层从单通道置信度图中提取出多通道信息，之后的卷积层不再改变通道数，只编码关于置信度图的高层次信息。
[0025]进一步地，所述通过多监督方法细化估计结果，包括：
[0026]监督最终预测的置信度图，以及单独对U型网络结构解码后的特征进行监督：对U型网络结构输出结果做单层卷积、批归一化和sigmoid激活，得到由U型网络结构直接预测到的置信度图，最后分别由所述U型网络结构直接预测到的置信度图和所述最终预测的置信度图计算交叉熵损失函数，根据结果调整两者权重。
[0027]本专利技术的优点在于：本专利技术能对各种多目立体匹配算法所生成的深度图进行质量评估，能鲁棒地估计出多目立体匹配中的深度图置信度，以利于多目立体匹配算法的评估和对深度图的后处理。
附图说明
[0028]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本专利技术的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0029]图1根据本专利技术实施方式的一种基于卷积神经网络的深度图置信度方法流程图；
[0030]图2为根据本专利技术实施方式的U
‑
Net结构图；
[0031]图3为根据本专利技术实施方式的由U
‑
Net结构预测得到的初始置信度图；
[0032]图4为根据本专利技术实施方式的对convLSTM的元胞结构图；
[0033]图5为根据本专利技术实施方式的由预测及细化模块得到的最终置信度图。
具体实施方式
[0034]下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0035]本专利技术提出基于多目立体匹配的深度图置信度估计网络初步解决了该问题，利用U型网络(U
‑
Net)结构对多目立体匹配算法生成的截断符号距离函数图(tsdf)、彩色图和法线图进行特征提取，利用卷积长短时记忆(convLSTM)和预测模块由特征图预测深度图的置信度，利用细化模块和多监督方法改善估计效果。
[0036]U
‑...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络的深度图置信度估计方法，其特征在于：该方法的具体步骤如下：由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图；利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取，得到特征图；使用卷积长短时记忆结构、预测模块、和细化模块由所述特征图预测深度图的置信度并通过多监督方法细化估计结果。2.根据权利要求1所述的一种基于卷积神经网络的深度图置信度估计方法，其特征在于：所述由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图，包括：像素和其4
‑
邻域构成局部窗口，假设窗口内的点所对应的三维点在同一个平面上，则从所述三维点构成的向量中，任选两个不在同一平面的向量进行叉乘，即得到所述像素对应的法线；多目立体匹配的几何误差用三维点的Z坐标与平面深度之差来表示，所述几何误差是三维点到平面的距离的近似，将几何误差映射到预设范围内，并加权处理，使用逆深度来计算截断符号距离函数图。3.根据权利要求1所述的一种基于卷积神经网络的深度图置信度估计方法，其特征在于：所述U型网络结构提取图像的高层次语义信息，包括编码和解码两个部分，每个编码子模块包括卷积、批归一化、非线性激活和最大池化四个操作，每个解码子模块包括转置卷积、卷积、批归一化和非线性激活四个操作。4.根据权利要求3所述的一种基于卷积神经网络的深度图置信度估计方法，其特征在于：所述利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取，得到特征图，包括：(a)对输入图像进行编码：每个编码子模块的输入为前一个子模块的输出，经过每个子模块后输出特征图的高和宽各缩小到输入的1/2，通道数增加到输入的2倍，保留每个子模块的卷积结果用于解码；(b)对编码模块的输出进行解码：每个解码子模块的输入为前一个子模块的输出，经过每个子模块后输入特征图的高和宽各增加到输入的2倍，通道数减小到输入的1/2。5.根据权利要求1所述的一种基于卷积神经网络的深度图置信度估计方法，其特征在于：所述使用卷积长短时记忆结构、预测模块、和细化模块由所述特征图预测深度图的置信度，包括：多次迭代，在每次迭代中，使用卷积长短时记忆结构保留特征图在多次迭代时的长时和短时记忆，之后使用卷积层构成的预...

【专利技术属性】
技术研发人员：李兆歆，王兆其，张小格，朱登明，朱正刚，
申请(专利权)人：苏州中科广视文化科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人