一种视频图像合成方法及装置制造方法及图纸

技术编号:19068638 阅读:28 留言:0更新日期:2018-09-29 15:08
本发明专利技术公开一种视频帧合成方法及装置,属于图像处理技术领域。本发明专利技术的一种视频图像合成方法及装置,包括获取视频流中多帧原始视频图像,输入多帧原始视频图像到全卷积编码/解码器得到深度体素流,利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素,基于目标体素合成预测帧视频图像。本发明专利技术的一种视频图像合成方法及装置通过降低使用数据帧率来预测现有的帧,在数量和质量上比之前的方式得到改进。

【技术实现步骤摘要】
一种视频图像合成方法及装置
本专利技术涉及一种视频图像合成方法及装置,属于图像处理领域中的模式识别领域。
技术介绍
模式识别又称图形识别,是一门正在兴起的技术,它融入图像处理、计算机等许多领域的先进技术。它与人工智能、图像处理的研究有交叉关系,例如自适应性的模式识别系统应用于人工智能研究的景物理解,图像处理中的图像分析也应用模式识别技术。我们通常观察到的视频是一系列复杂现象的组合,譬如物体迅速移动和发生形变、遮挡、灯光发生变化和相机移动等。视频的外观参数模型往往过于简单,无法准确地模拟、插补或推断视频。在视频和电影制作过程中,使用视频插值方法合成视频帧是一种非常普遍的方式。流行的商用插件Twixtor用于将视频重新取样到新的帧率,并且产生慢动作效果。与之相关的问题是视频推断,通过合成视频帧来预测视频图像的变化趋势.这些问题的传统解决方案是估计帧与帧之间的光流,然后沿光流矢量进行插值或推断。当光流精确的时候,这种方法效果很好,相反当光流精度无法保证的时候,会产生明显的伪像。一种新的方法是使用卷积神经网络(CNNs)直接合成视频帧的RGB像素值,但是直接合成RGB值效果并不如基于光流的方法成功,最终合成的图像往往是模糊的。
技术实现思路
本专利技术的目的在于提供一种视频图像合成方法及装置,通过获取视频流中多帧原始视频图像,将多帧原始视频图像到全卷积编码/解码器得到深度体素流,之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素,最后基于目标体素合成预测帧视频图像,通过降低使用数据帧率来预测现有的帧,在数量和质量上比之前的方式得到改进。本专利技术提供技术方案如下:一方面,本专利技术提供了一种视频图像合成方法,包括:获取视频流中多帧原始视频图像;输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流;利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素;基于所述目标体素合成预测帧视频图像。根据本专利技术的一实施方式,所述获取视频流中多帧原始视频图像的步骤包括:截取视频流中前后间隔的第一帧原始视频图像和第二帧原始视频图像;其中,原始视频图像表示为X∈RH×W×L,R表示视频图像帧,H,W,L分别表示高,宽和输入视频的帧数量,当L=2时,L0表示第一帧原始视频图像,L1表示第二帧原始视频图像。根据本专利技术的另一实施方式,所述利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素的步骤包括:通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;计算所述虚拟体素的八个顶点的整数位置;通过所述体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。根据本专利技术的另一实施方式,所述深度体素流表示为:其中,表示全卷积编码/解码器,θ是网络参数,是深度体素流F在二维网格的整数目标像素位置,第一帧和第二帧原始图像的绝对位置分别为L0=(x-Δx,y-Δy),L1=(x-Δx,y-Δy)。根据本专利技术的另一实施方式,所述虚拟体素的八个顶点的整数位置分别为:其中,是底部函数,定义插值的时间范围。根据本专利技术的另一实施方式,所述目标体素表示为:其中,为体积采样函数,Wijk是三线重采样权。根据本专利技术的另一实施方式,所述全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一反卷积层、第一双线性上采样层、第二反卷积层、第二双线性上采样层、第三反卷积层、第三双线性上采样层以及瓶颈层,所述第一、第二和第三卷积层与所述第一、第二和第三反卷积层分别对应跳跃连接,所述第一、第二和第三卷积层的卷积核大小分别为5×5,5×5和3×3,所述第一、第二和第三反卷积层的卷积核大小分别为3×3、5×5和5×5,所述瓶颈层通过内核大小为3×3的卷积连接。另一方面,本专利技术还提供了一种视频图像合成装置,包括:获取模块,用于获取视频流中多帧原始视频图像;全卷积编码/解码器模块,用于输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流;采样模块,用于利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素;合成模块,用于基于所述目标体素合成预测帧视频图像。根据本专利技术的一实施方式,所述全卷积编码/解码器模块包括第一卷积层单元、第一池化层单元、第二卷积层单元、第二池化层单元、第三卷积层单元、第三池化层单元、第一反卷积层单元、第一双线性上采样层单元、第二反卷积层单元、第二双线性上采样层单元、第三反卷积层单元、第三双线性上采样层单元以及瓶颈层单元,所述第一、第二和第三卷积层单元与所述第一、第二和第三反卷积层单元分别对应跳跃连接,所述第一、第二和第三卷积层单元的卷积核大小分别为5×5,5×5和3×3,所述第一、第二和第三反卷积层单元的卷积核大小分别为3×3、5×5和5×5,所述瓶颈层单元通过内核大小为3×3的卷积连接。根据本专利技术的另一实施方式,所述采样模块包括:构造单元,用于通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;计算单元,用于计算所述虚拟体素的八个顶点的整数位置;生成单元,用于通过体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。本专利技术的有益效果如下:本专利技术的视频图像合成方法通过获取视频流中多帧原始视频图像,将多帧原始视频图像到全卷积编码/解码器得到深度体素流,之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素,最后基于目标体素合成预测帧视频图像。本专利技术实施例的视频图像合成方法可以以两帧或多帧图像作为输入,剩下的帧作为重建目标,通过视频体积内插值来对颜色进行采样,将任意大小的视频用作输入,通过全卷积编/解码器,最终合成预测的多步帧图像。本专利技术实施例的视频图像合成方法通过降低使用数据帧率来预测现有的帧,在数量和质量上比之前的方式得到改进。附图说明图1为本专利技术的一种视频图像合成方法的一个实施例的流程示意图;图2为本专利技术的一种视频图像合成方法的另一个实施例的流程示意图;图3为本专利技术的一种视频图像合成装置的一个实施例的结构框图;图4为本专利技术的一种视频图像合成装置的另一个实施例的结构框图图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。一方面,如图1所示,本专利技术实施例提供了一种视频图像合成方法,包括:步骤100:获取视频流中多帧原始视频图像;步骤200:输入多帧原始视频图像到全卷积编码/解码器得到深度体素流;深度体素流,是指一个端到端的全微分网络视频帧的合成,多帧原始视频图像到通过一个全卷积编码器/解码器预测深度体素流即三维体素流,体素流的空间分量表示从目标帧到下一帧的光流;该光流的负值用于识别前一帧中相应的位置即假设光流是局部线性的,并且在帧之间在时间上是对称的,体素流的时间分量是前一帧和下一帧之间的线性混合权重,以在目标帧中形成颜色。步骤300:利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素;步骤400:基于目标体素合成预测帧视频图像。本专利技术实施例的视频图像合成方法通过获取视频流中多帧原始视频图像,将多帧原始视频图像到全卷积编码/解码器得到本文档来自技高网...

【技术保护点】
1.一种视频图像合成方法,其特征在于,包括:获取视频流中多帧原始视频图像;输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流;利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素;基于所述目标体素合成预测帧视频图像。

【技术特征摘要】
1.一种视频图像合成方法,其特征在于,包括:获取视频流中多帧原始视频图像;输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流;利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素;基于所述目标体素合成预测帧视频图像。2.根据权利要求1所述的一种视频图像合成方法,其特征在于,所述获取视频流中多帧原始视频图像的步骤包括:截取视频流中前后间隔的第一帧原始视频图像和第二帧原始视频图像;其中,原始视频图像表示为X∈RH×W×L,R表示视频图像帧,H,W,L分别表示高,宽和输入视频的帧数量,当L=2时,L0表示第一帧原始视频图像,L1表示第二帧原始视频图像。3.根据权利要求2所述的一种视频图像合成方法,其特征在于,所述利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素的步骤包括:通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;计算所述虚拟体素的八个顶点的整数位置;通过所述体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。4.根据权利要求3所述的一种视频图像合成方法,其特征在于,所述深度体素流表示为:其中,表示全卷积编码/解码器,θ是网络参数,是深度体素流F在二维网格的整数目标像素位置,第一帧和第二帧原始图像的绝对位置分别为L0=(x-Δx,y-Δy),L1=(x-Δx,y-Δy)。5.根据权利要求4所述的一种视频图像合成方法,其特征在于,所述虚拟体素的八个顶点的整数位置分别为:其中,是底部函数,定义插值的时间范围。6.根据权利要求5所述的一种视频图像合成方法,其特征在于,所述目标体素表示为:其中,为体积采样函数,Wijk是三线重采样权。7.根据权利要求1-6任一所述的一种视频图像合成方法,其特征在于,所述全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层...

【专利技术属性】
技术研发人员:王国强张斌孙士杰陈学伟
申请(专利权)人:视缘上海智能科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1