【技术实现步骤摘要】
一种基于GAN潜码的多视点视频重建方法
本专利技术涉及图像处理和多视点图像重建领域,特别是一种基于GAN潜码的多视点视频重建方法。
技术介绍
随着计算技术和多媒体技术的飞速发展,用户对于高质量体验的沉浸式视频的追求也日益增长,虚拟现实(VR)和增强现实(AR)已然成为各界的关注焦点。多媒体系统通过其提供的显示及追踪技术在时间和空间上忠实再现现实世界的行为和感觉,就被称为沉浸。沉浸式视频超越了时间和空间的界限,让人们在虚拟世界中也能产生身临其境的临场。为了增强沉浸感和互动性,使用户可以像现实世界一样自主选择观看的角度和位置,在计算机视觉领域中提出了光场(LF)表示技术作为该问题的解决方案。光场表示旨在从一系列视点提供3D场景的照片级渲染效果。3维场景自由视点VR系统适合采用的是摄像机阵列来获取多视点图像集,并通过多视图渲染进行场景重建,但是由于稠密的视点信息才能重建平滑的3维场景,海量的光场视频数据的采集,存储和传输带来巨大挑战。因此,对采集到的光场、多视点视频数据进行压缩变得至关重要。对多视点 ...
【技术保护点】
1.一种基于GAN潜码的多视点视频重建方法,其特征在于:包括以下步骤:/n步骤S1:空时域EPI生成:将摄像机阵列采集的多视点视频图像转化为空时域的EPI图像;所述多视点视频图像包括奇数视点视频图像和偶数视点视频图像;/n步骤S2:构建一个包含编码网络E、生成网络G和判别网络D的总体网络模型;/n步骤S3:构建总体网络模型的码率与重建质量联合代价函数;/n步骤S4:将空时域EPI图像输入总体网络模型中,然后开始训练模型;/n步骤S5:传输奇数视点:将多视点视频中奇数视点的视频用H.265标准压缩传输;/n步骤S6:传输偶数视点:将多视点视频中偶数视点的视频通过训练好的总体网 ...
【技术特征摘要】
1.一种基于GAN潜码的多视点视频重建方法,其特征在于:包括以下步骤:
步骤S1:空时域EPI生成:将摄像机阵列采集的多视点视频图像转化为空时域的EPI图像;所述多视点视频图像包括奇数视点视频图像和偶数视点视频图像;
步骤S2:构建一个包含编码网络E、生成网络G和判别网络D的总体网络模型;
步骤S3:构建总体网络模型的码率与重建质量联合代价函数;
步骤S4:将空时域EPI图像输入总体网络模型中,然后开始训练模型;
步骤S5:传输奇数视点:将多视点视频中奇数视点的视频用H.265标准压缩传输;
步骤S6:传输偶数视点:将多视点视频中偶数视点的视频通过训练好的总体网络模型中的E网络生成偶数视点对应的潜码,并将该潜码进行压缩传输;
步骤S7:偶数视点EPI重建:将奇数视点视频对应的空时域EPI图像和偶数视点对应的潜码一起输入训练好的总体网络模型中的G网络中,得到重建的多列宽EPI图像;
步骤S8:从重建的多列宽EPI图像中恢复出偶数视点视频,并和传输后的奇数视点视频组合,恢复成多视点视频。
2.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:所述步骤S1具体包括以下步骤:
步骤S11:将多视点视频图像转化为多列宽EPI图像:首先将视点中的帧图像每8行组成行块,转置后形成列块,然后将不同视点在相同时刻的列块拼接在一起,得到多列宽EPI图像;将多列宽EPI图像的构建过程形式化描述如下,所述多列宽EPI图像矩阵为:
式中,t代表原始多视点视频中的某一时刻,T代表矩阵转置,m代表多列宽EPI图像的序列号以及原始多视点图像的第m行,K是代表多视点图像总个数,Ii为第i个视点的多视点图像;矩阵Am的大小等于图像大小,表示如下:
矩阵Bi的大小等于图像大小,表示如下:
步骤S12:将多列宽EPI图像堆叠成空时域EPI图像:时域上交叠选取连续的三帧多列宽EPI图像,将该三帧彩色图像堆叠在一起形成一个包含9个通道的空时域EPI图像;将空时域EPI图像的构建过程形式化描述如下,所述空时域EPI图像矩阵为:
式中,τ代表时域的帧顺序,u、v表示像素的空间位置横、纵坐标,k表示堆叠的多列宽EPI个数,O表示原始的多列宽EPI图像,R,G,B分别代表图像的三个通道。
3.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:所述步骤S2的具体内容为:
总体网络模型内部为多层的神经网络结构,由编码网络E、生成网络D和判别网络G三个网络串联而成;其中E网络一共有18层,由输入部分1个卷积层,中间部分4个残差块和输出部分1个卷积层构成;其中每个残差块由2个卷积层及2个BN层构成;D网络一共有14层,由输入部分的11个卷积层和输出部分的3个全连接层构成;G网络一共有68层,由输入部分的2个卷积层,中间部分16个残差块和输出部分2个卷积层构成;其中每个残差块由2个卷积层及2个BN层构成;将原始多视点视频转化得到的空时域EPI图像的中间视点作为编码网络E的输入,输出原始空时域EPI图像中间视点的潜码;将E网络输出的空时域EPI图像中间视点的潜码以及原始多视点视频转化得到的空时域EPI图像的旁边视点相拼接,作为G网络的输入,由G网络生成重建的EPI中间视点图像;对于D网络,当D网络的输入是原始空时域EPI图像和中间视点的潜码时,D网络的输出是1;当D网络的输入是G网络的输出和中间视点的潜码时,输出0。
4.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:步骤S3中所述总体网络模型的码率与重建质量联合代价函数,具体如下,
其中,第一项表示D网络用于区分真实图像,第二项表示G网络用于生成近似原始样本数据集分布的图像,第三项中d(x,G(q(E(x))))为重建质量约束项,第四项中H(q(E(x))...
【专利技术属性】
技术研发人员:兰诚栋,罗铖,缪辰启,赵铁松,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。