应用深度学习的二维影像转三维影像的系统与方法技术方案

技术编号:31725510 阅读:14 留言:0更新日期:2022-01-05 15:50
本发明专利技术公开一种应用深度学习的二维影像转三维影像的系统,其包括一二维(Two

【技术实现步骤摘要】
应用深度学习的二维影像转三维影像的系统与方法


[0001]本专利技术涉及一种二维影像转三维影像的系统与方法,特别是涉及一种应用深度学习的二维影像转三维影像的系统与方法。

技术介绍

[0002]在三维(Three-Dimension,3D)影像中,其所包含的信息(例如影像中物体形状或景深程度等)比二维(Two-Dimension,2D)影像更多,因此,直接从2D影像推测3D影像形状对计算机而言并不是容易的工作。然而,对人类来说,对于生活中常见到的物体,常常可以从单一角度看,就可以推测物体的整个形状(在三维空间中的样子),人类之所以能做到这样是因为长久经验的累积,因此对于计算机而言,如果能学习足够多的2D影像以及3D形状的信息,理应可以将2D影像成功地转换为3D影像。
[0003]因此,近来有不少应用深度学习的2D影像转3D影像的方法,利用大量的训练数据(例如:影像以及相对应的三维形状)来训练深度学习的神经网络建构的模型,达到由单张或多张2D影像作为输入,推测转换为3D影像。
[0004]然而,采用深度学习方法预测2D影像的景深时,并无法准确模拟还原真实3D影像的景深程度,而且逐帧(frame)景深结果难以将影像的抖动问题消除。另外,影像的景深预测是应用卷积神经网络(Convolutional Neural Network,CNN)模型来做预测,深度学习的模型训练损失函数不可能降到0,误差总存在。以深度影像为基础的绘图(Depth-Image-Based Rendering,DIBR)转换模型需要设定多个参数还原3D的影像效果,新生成的影像视角部分的图像是有缺失的,应用深度学习(DIBR)进行补图不是真正的缺失还原。
[0005]应用深度影像为基础的绘图(DIBR)生成3D视频时,双目距离、观影距离或出入屏效果参数等需要根据实际场景设置观影参数。而且,在深度学习中,3D影像的补图,并不能还原真实缺失的图像。景深预测通常是利用深度学习的卷积神经网络(Convolutional Neural Network,CNN)模型,通过学习大量深度图像素材,在建立的损失函数基础上,优化CNN模型结构的各层参数,最终利用训练得到的CNN模型离线预测深度图像对应的3D景深图像。深度图像在DIBR演算演算法下生成虚拟新视角,并和原图一起构成3D图像。
[0006]故,如何通过设计改良,来提升深度学习的影像转换效果,来克服上述的缺陷,已成为该项事业想要解决的重要课题之一。

技术实现思路

[0007]本专利技术所要解决的技术问题在于解决现有二维影像转三维影像的转换效果差,针对现有技术的不足提供应用深度学习的二维影像转三维影像的系统,其采用空洞修复技术以生成更好的三维影像。
[0008]为了解决上述的技术问题,本专利技术所采用的其中一技术方案是提供一种应用深度学习的二维影像转三维影像的系统,其包括一二维(Two-Dimension,2D)影像景深生成模块、一新视角生成模块与一三维(Three-Dimension,3D)影像显示器。二维影像景深生成模
块包括一2D影像采集单元与一景深计算单元,2D影像采集单元用于接收至少一2D影像,景深计算单元连接2D影像采集单元,用于进行至少一2D影像的至少一景深图的建立。新视角生成模块连接景深计算单元,用于结合至少一2D影像与至少一景深图以输出一三维影像。3D影像显示器连接新视角生成模块,用于显示3D影像。
[0009]为了解决上述的技术问题,本专利技术所采用的另外一技术方案是提供一种应用深度学习的二维影像转三维影像的方法,其包括:收集至少一2D影像,并将至少一2D影像传送至一景深计算单元进行至少一景深图的建立;通过取样实现至少一2D影像的分辨率转换;应用多个卷积神经网络(Convolutional Neural Network,CNN)模型进行至少一2D影像的至少一景深图预测;用一新视角生成模块结合至少一2D影像与至少一景深图以生成一3D影像;以及以单通道景深影像输出方式输出经过深度处理的3D影像。
[0010]本专利技术的一个有益效果在于,本专利技术所提供的应用深度学习的二维影像转三维影像的系统与方法,其能通过卷积神经网络模型以及空洞修复技术的技术方案,最大限度的保留了原始2D影像的主要信息,同时去除冗余信息,进而有效地表征景深信息,可以获得更好的3D转换效果。
[0011]为使能更进一步了解本专利技术的特征及
技术实现思路
,请参阅以下有关本专利技术的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本专利技术加以限制。
附图说明
[0012]图1为本专利技术应用深度学习的二维影像转三维影像的系统方框图。
[0013]图2为本专利技术所应用的卷积神经网络架构的示意图。
[0014]图3为本专利技术应用深度影像为基础的绘图(DIBR)的示意图。
[0015]图4为应用深度学习的二维影像转三维影像的方法流程图。
[0016]【符号说明】
[0017]10:二维影像转三维影像的系统
[0018]11:二维(2D)影像景深生成模块
[0019]111:2D影像采集单元
[0020]112:景深计算单元
[0021]1121:彩色影像输入器
[0022]1122:下取样器
[0023]1123:影像调节器
[0024]1124:第一卷积计算器
[0025]1125:编码器
[0026]1125A:区块
[0027]1125B:第二卷积计算器
[0028]1126:解码器
[0029]1126A:上取样器
[0030]1127:叠加器
[0031]1127A:多分辨率特征融合器
[0032]1127B:第三卷积计算器
[0033]1128:影像增强器
[0034]1128A:第四卷积计算器
[0035]1129:单通道景深影像输出器
[0036]12:新视角生成模块
[0037]121:三维(3D)影像生成模块
[0038]122:空洞修复模块
[0039]13:三维影像显示器
[0040]S401-S405:步骤
具体实施方式
[0041]以下是通过特定的具体实施例来说明本专利技术所公开有关“应用深度学习的二维影像转三维影像的系统与方法”的实施方式,本领域技术人员可由本说明书所公开的内容了解本专利技术的优点与效果。本专利技术可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不背离本专利技术的构思下进行各种修改与变更。另外,本专利技术的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本专利技术的相关
技术实现思路
,但所公开的内容并非用以限制本专利技术的保护范围。另外,本文中所使用的术语“或”,应视实际情况可能包括相关联的列出项目中的任一个或者多个的组合。
[0042]【系统实施例】
[0043]参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用深度学习的二维影像转三维影像的系统,其包括:一二维(Two-Dimension,2D)影像景深生成模块,包括:一2D影像采集单元,用于接收至少一2D影像;以及一景深计算单元,连接所述2D影像采集单元,用于进行至少一所述2D影像的至少一景深图的建立;一新视角生成模块,连接所述景深计算单元,用于结合至少一所述2D影像与至少一所述景深图,以输出一三维(Three-Dimension,3D)影像;以及一3D影像显示器,连接所述新视角生成模块,用于显示所述3D影像。2.如权利要求1所述的应用深度学习的二维影像转三维影像的系统,其中,所述新视角生成模块包括一3D影像生成模块,所述3D影像生成模块应用3D的(Depth-Image-Based Rendering,DIBR)技术,将至少一所述2D影像与至少一所述景深图结合以输出所述3D影像。3.如权利要求2所述的应用深度学习的二维影像转三维影像的系统,其中,所述新视角生成模块还进一步包括一空洞修复模块,以修复所述3D影像。4.如权利要求1所述的二维影像转三维影像的系统,其中,所述景深计算单元应用卷积神经网络(Convolutional Neural Network,CNN)模型于至少一所述2D影像中,以获得至少一所述景深图。5.如权利要求4所述的应用深度学习的二维影像转三维影像的系统,其中,所述卷积神经网络模型采用联合损失函数,其方程序程序为L=I
depth
+λI
grad
+μI
normal
,其中,λ与μ为子损失函数的权重系数、I
depth
为全域景深图欧拉损失函数、I
grad
为空间倒数损失函数以及I
normal
为表面法向量点积误差损失函数。6.如权利要求5所述的应用深度学习的二维影像转三维影像的系统,其中,所述全域景深图欧拉损失函数所述景深图空间倒数损失函数所述表面法向量点积误差损失函数其中,设di为影像(pix)的预测景深值,gi为标签景深值,影像误差可表示为e
i
=||d
...

【专利技术属性】
技术研发人员:郑江红闫鑫施清德
申请(专利权)人:深圳市博浩光电科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1