基于对抗网络的快速多视角三维合成和展示方法及装置制造方法及图纸

技术编号:17781201 阅读:56 留言:0更新日期:2018-04-22 10:34
基于对抗网络的快速多视角三维合成和展示方法及装置,对某一视角下深度图和RGB图进行处理,利用构建生成对抗网络(GAN),便可得到连续的多视角下物体的二维映射,无需对三维模型进行重建,仅仅对某一视角下深度图和RGB图进行处理,无需重建高质量的三维模型,便可得到连续的多视角下物体的二维映射,通过变换视角,可以实时的获取该二维图像,简化了三维物体展示的流程,能实现对三维物体的多视角的实时较高质量的展示。

【技术实现步骤摘要】
基于对抗网络的快速多视角三维合成和展示方法及装置
本专利技术涉及包含游戏交互,三维动画制作与合成,虚拟现实内容获取,三维虚拟物体展示等领域,具体涉及一种可将现实物体基于对抗网络快速在不同视角下合成和展示的方法及装置。
技术介绍
在过去的几年里,随着移动互联网和智能设备的快速普及,人们对人机交互方式有了更高的要求,虚拟现实(VR)技术也因此有了快速的发展,三星的GearVR头盔和OculusRift等VR设备的出现,给人们带来了全新的交互体验,人们可以通过VR设备体验VR游戏,VR社交,甚至可以将一个局部的现实世界重建出来,带给人强烈的真实感。目前,已有许多科研技术人员在研究三维重建技术,如何将现实中的物体或者场景真实的反映在虚拟世界中,然后将重建结果展示出来。所谓三维重建技术,就是通过相机采集的二维的图像,经过几何映射和点对应等方法,在三维世界中重建出三维物体,然后可以对该重建出的虚拟物体在各个视角进行观测展示,给人一种逼真的感觉。现有的对现实物体到虚拟世界的展示技术,均是通过三维重建技术进行建模,然后再通过纹理映射重光照等技术,恢复物体表面的色彩纹理和光照,然后对其进行展示。其中仅三维重建模型就包含了采集多视角图像,寻找匹配点对应,几何投影,点云融合,面片融合等各项复杂的流程,整个过程纷繁复杂,速度慢而且效果也不是尽好,重建的模型中时而会出现黑色的空洞,反而降低了模型的质量,给人不真实的感觉。鉴于以上问题,本专利技术从三维展示的本质出发,提出了一种无需对现实物体进行三维建模,而直接对其进行多视角展示的方法。
技术实现思路
为解决上述技术问题,本专利技术提供一种基于对抗网络的快速多视角三维合成和展示方法及装置,无需对三维模型进行重建,仅仅对某一视角下深度图和RGB图进行处理,无需重建高质量的三维模型,便可得到连续的多视角下物体的二维映射,通过变换视角,可以实时的获取该二维图像,简化了三维物体展示的流程,能实现对三维物体的多视角的实时较高质量的展示。为实现上述技术目的,所采用的技术方案是:基于对抗网络的快速多视角三维合成和展示方法,对某一视角下深度图和RGB图进行处理,利用构建生成对抗网络(GAN),便可得到连续的多视角下物体的二维映射,其具体实现方法是:步骤一、学习过程1.1、获取目标物体多视角下的RGB图像P和其对应的深度图像D,并且记录其视点位置V,得到有多个(P,D,V)构成的一个数据集;1.2、从数据集中随机取出两组数据作为输入,构建出一个训练样本,首先对训练样本进行特征提取和变换,将一组数据作为原图像,将另一组数据的视点位置作为新视角位置,得到了一个粗糙的在原图像在新视角下的投影RGBD图像;1.3、构建生成对抗网络GAN,将粗糙的RGBD图形与一个均匀分布的随机数产生器产生的一组随机变量Z输入GAN的生成器中得到生成器生成图像,将粗糙的RGBD图形与原图像作为判别图像,与生成器生成图像一起输入CAN的判别器判别真假,通过最大化判别器的差别能力和最小化生成器的分布损失函数,得到最优图像结果,生成对抗网络CAN的整体参数;步骤二、合成过程在完成上述学习部分后,任意的给定一个物体的RGB图p和相应的深度图d,给定一个视角v,将其进行视角变换后的得到的粗糙的RGBD图像输入GAN网络中,便可得到该视角下的生成图像,保持RGB图和深度图不变,变换视角位置v,便可得到不同视点下的RGB图像,即得到了对该物体多视角下的展示图。进一步,所述的最大化判别器的差别能力和最小化生成器的分布损失函数为其中,x是来自真实数据集的图像,z是一个均匀分布随机数产生器产生的一组随机变量,G是生成器,D是判别器。进一步,所述的步骤一中的1.3步骤具体实现方法是:(一)首先对GAN网络中所有参数,包括生成器和判别器进行随机初始化;(二)将样本输入网络中,得到生成图像并使用判别器得到结果;(三)固定生成器参数,应用改进的梯度下降或者其他方法,优化判别器的参数,使其判别能力得到最大;(四)固定判别器参数,应用改进的梯度下降或者其他方法,优化生成器的参数,使得整个最大化判别器的差别能力和最小化生成器的分布损失函数最小化;(五)判断结果是否收敛,如果没有收敛,重复(二)-(五)的操作直到收敛或最大迭代轮数;(六)最后得到生成对抗网络CAN的整体参数。进一步,所述的学习过程为离线过程,在系统为运行时先对该网络进行训练。进一步,所述的合成部分为在线过程,与系统一起运作,可以边采集图像边切换视角,同时获取切换视角下的生成图像。进一步,所述的生成器生成图像的具体实现方法是,将粗糙的RGBD图形与一个均匀分布的随机数产生器产生的一组随机变量Z输入GAN的生成器中,通过对粗糙的RGBD图形N*N的不同卷积核多次对RGBD图像进行卷积核池化操作,得到粗糙的RGBD图形的中间结果,对随机变量Z采取多次逆卷积,生成随机变量Z的中间结果,将两个中间结果拼接在一起,而后进行多次卷积和逆卷积操作最后得到生成器生成图像。进一步,所述的获取目标物体多视角下的RGB图像P和其对应的深度图像D,并且记录其视点位置V的装置为深度相机。实现基于对抗网络的快速多视角三维合成和展示方法的装置,包括:物体信息获取单元,获取目标物体多视角下的RGB图像P和其对应的深度图像D,并且记录其视点位置V,得到有多个(P,D,V)构成的一个数据集;粗糙图像获取单元,从物体信息获取单元的数据集中随机取出两组数据作为输入,构建出一个训练样本,首先对训练样本进行特征提取和变换,将一组数据作为原图像,将另一组数据的视点位置作为新视角位置,得到了一个粗糙的在原图像在新视角下的投影RGBD图像;学习训练单元,构建生成对抗网络GAN,将粗糙图像猎取单元得到的粗糙的RGBD图形与一个均匀分布的随机数产生器产生的一组随机变量Z输入GAN的生成器中得到生成器生成图像,将粗糙的RGBD图形与原图像作为判别图像,与生成器生成图像一起输入CAN的判别器判别真假,通过最大化判别器的判别能力和最小化生成器的损失函数,得到最优图像结果,生成对抗网络CAN的整体参数;合成单元,任意的给定一个物体的RGB图p和相应的深度图d,给定一个视角v,将其进行视角变换后的得到的粗糙的RGBD图像输入学习训练单元中,便可得到该视角下的生成图像,保持RGB图和深度图不变,变换视角位置v,便可得到不同视点下的RGB图像,即得到了对该物体多视角下的展示图。本专利技术有益效果是:本专利技术中方法与传统的物体的三维展示不同,传统的物体三维展示需要先对物体进行三维建模,生成表面,而后再做纹理映射等方法得到其在特定视角下的二维映射。而本专利技术的方法,不需要建立精确的三维模型和表面,而是从物体本身的属性出发,将图像经过投影矩阵得到新视点下粗糙的图像,而后通过深度学习的方法,学习物体从粗糙图像到高质量图像映射,简化了三维重建的复杂过程,同时,该方法在学习阶段时离线的,在推断阶段时在线的,训练完成后可以实时的对进行多视角变换映射,从而实现对物体的展示。本系统中的方法对1024*1024的图像处理速度跟硬件水平密切相关,在装有英伟达1080显卡的情况下,可以达到每秒钟34帧,符合实时性的要求。附图说明图1为本专利技术的工作流程图;图2为本专利技术的GAN网络整体结构图;图3本文档来自技高网...
基于对抗网络的快速多视角三维合成和展示方法及装置

【技术保护点】
基于对抗网络的快速多视角三维合成和展示方法,其特征在于:对某一视角下深度图和RGB图进行处理,利用构建生成对抗网络(GAN),便可得到连续的多视角下物体的二维映射,其具体实现方法是:步骤一、学习过程1.1、获取目标物体多视角下的RGB图像P和其对应的深度图像D,并且记录其视点位置V,得到有多个(P,D,V)构成的一个数据集;1.2、从数据集中随机取出两组数据作为输入,构建出一个训练样本,对训练样本进行特征提取和变换,将一组数据作为原图像,将另一组数据的视点位置作为新视角位置,得到了一个粗糙的在原图像在新视角下的投影RGBD图像;1.3、构建生成对抗网络GAN,将粗糙的RGBD图形与一个均匀分布的随机数产生器产生的一组随机变量Z输入GAN的生成器中得到生成器生成图像,将粗糙的RGBD图形与原图像作为判别图像,与生成器生成图像一起输入CAN的判别器判别真假,通过最大化判别器的差别能力和最小化生成器的分布损失函数,得到最优图像结果,生成对抗网络CAN的整体参数;步骤二、合成过程在完成上述学习部分后,任意的给定一个物体的RGB图p和相应的深度图d,给定一个视角v, 将其进行视角变换后的得到的粗糙的RGBD图像输入GAN网络中,便可得到该视角下的生成图像,保持RGB图和深度图不变,变换视角位置v,便可得到不同视点下的RGB图像,即得到了对该物体多视角下的展示图。...

【技术特征摘要】
1.基于对抗网络的快速多视角三维合成和展示方法,其特征在于:对某一视角下深度图和RGB图进行处理,利用构建生成对抗网络(GAN),便可得到连续的多视角下物体的二维映射,其具体实现方法是:步骤一、学习过程1.1、获取目标物体多视角下的RGB图像P和其对应的深度图像D,并且记录其视点位置V,得到有多个(P,D,V)构成的一个数据集;1.2、从数据集中随机取出两组数据作为输入,构建出一个训练样本,对训练样本进行特征提取和变换,将一组数据作为原图像,将另一组数据的视点位置作为新视角位置,得到了一个粗糙的在原图像在新视角下的投影RGBD图像;1.3、构建生成对抗网络GAN,将粗糙的RGBD图形与一个均匀分布的随机数产生器产生的一组随机变量Z输入GAN的生成器中得到生成器生成图像,将粗糙的RGBD图形与原图像作为判别图像,与生成器生成图像一起输入CAN的判别器判别真假,通过最大化判别器的差别能力和最小化生成器的分布损失函数,得到最优图像结果,生成对抗网络CAN的整体参数;步骤二、合成过程在完成上述学习部分后,任意的给定一个物体的RGB图p和相应的深度图d,给定一个视角v,将其进行视角变换后的得到的粗糙的RGBD图像输入GAN网络中,便可得到该视角下的生成图像,保持RGB图和深度图不变,变换视角位置v,便可得到不同视点下的RGB图像,即得到了对该物体多视角下的展示图。2.如权利要求1所述的基于对抗网络的快速多视角三维合成和展示方法,其特征在于:所述的最大化判别器的差别能力和最小化生成器的分布损失函数为其中,x是来自真实数据集的图像,z是一个均匀分布随机数产生器产生的一组随机变量,G是生成器,D是判别器。3.如权利要求1所述的基于对抗网络的快速多视角三维合成和展示方法,其特征在于:所述的步骤一中的1.3步骤具体实现方法是:(一)首先对GAN网络中所有参数,包括生成器和判别器进行随机初始化;(二)将样本输入网络中,得到生成图像并使用判别器得到结果;(三)固定生成器参数,应用改进的梯度下降或者其他方法,优化判别器的参数,使其判别能力得到最大;(四)固定判别器参数,应用改进的梯度下降或者其他方法,优化生成器的参数,使得整个最大化判别器的差别能力和最小化生成器的分布损失函数最小化;(五)判断结果是否收敛,如果没有收敛,重复(二)-(五)的操作直到收敛或最大迭代轮数;(六)最后得到生成对抗网络CAN的整体参数。4.如权利要求1...

【专利技术属性】
技术研发人员:宋强
申请(专利权)人:洛阳中科信息产业研究院中科院计算技术研究所洛阳分所
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1