一种视频图像合成方法及装置制造方法及图纸

技术编号：19068638 阅读：28 留言：0更新日期：2018-09-29 15:08

本发明专利技术公开一种视频帧合成方法及装置，属于图像处理技术领域。本发明专利技术的一种视频图像合成方法及装置，包括获取视频流中多帧原始视频图像，输入多帧原始视频图像到全卷积编码/解码器得到深度体素流，利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素，基于目标体素合成预测帧视频图像。本发明专利技术的一种视频图像合成方法及装置通过降低使用数据帧率来预测现有的帧，在数量和质量上比之前的方式得到改进。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频图像合成方法及装置
本专利技术涉及一种视频图像合成方法及装置，属于图像处理领域中的模式识别领域。
技术介绍
模式识别又称图形识别，是一门正在兴起的技术，它融入图像处理、计算机等许多领域的先进技术。它与人工智能、图像处理的研究有交叉关系，例如自适应性的模式识别系统应用于人工智能研究的景物理解，图像处理中的图像分析也应用模式识别技术。我们通常观察到的视频是一系列复杂现象的组合，譬如物体迅速移动和发生形变、遮挡、灯光发生变化和相机移动等。视频的外观参数模型往往过于简单,无法准确地模拟、插补或推断视频。在视频和电影制作过程中，使用视频插值方法合成视频帧是一种非常普遍的方式。流行的商用插件Twixtor用于将视频重新取样到新的帧率,并且产生慢动作效果。与之相关的问题是视频推断，通过合成视频帧来预测视频图像的变化趋势.这些问题的传统解决方案是估计帧与帧之间的光流,然后沿光流矢量进行插值或推断。当光流精确的时候，这种方法效果很好，相反当光流精度无法保证的时候，会产生明显的伪像。一种新的方法是使用卷积神经网络(CNNs)直接合成视频帧的RGB像素值，但是直接合成RGB值效果并不如基于光流的方法成功,最终合成的图像往往是模糊的。
技术实现思路
本专利技术的目的在于提供一种视频图像合成方法及装置，通过获取视频流中多帧原始视频图像，将多帧原始视频图像到全卷积编码/解码器得到深度体素流，之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样，得到目标体素，最后基于目标体素合成预测帧视频图像，通过降低使用数据帧率来预测现有的帧，在数量和质量上比之前的方式得到改进。本专利技术...

【技术保护点】
1.一种视频图像合成方法，其特征在于，包括：获取视频流中多帧原始视频图像；输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流；利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样，得到目标体素；基于所述目标体素合成预测帧视频图像。

【技术特征摘要】
1.一种视频图像合成方法，其特征在于，包括：获取视频流中多帧原始视频图像；输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流；利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样，得到目标体素；基于所述目标体素合成预测帧视频图像。2.根据权利要求1所述的一种视频图像合成方法，其特征在于，所述获取视频流中多帧原始视频图像的步骤包括：截取视频流中前后间隔的第一帧原始视频图像和第二帧原始视频图像；其中，原始视频图像表示为X∈RH×W×L，R表示视频图像帧，H,W,L分别表示高，宽和输入视频的帧数量，当L＝2时，L0表示第一帧原始视频图像，L1表示第二帧原始视频图像。3.根据权利要求2所述的一种视频图像合成方法，其特征在于，所述利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样，得到目标体素的步骤包括：通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样，构造虚拟体素；计算所述虚拟体素的八个顶点的整数位置；通过所述体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。4.根据权利要求3所述的一种视频图像合成方法，其特征在于，所述深度体素流表示为：其中，表示全卷积编码/解码器，θ是网络参数，是深度体素流F在二维网格的整数目标像素位置，第一帧和第二帧原始图像的绝对位置分别为L0＝(x-Δx，y-Δy)，L1＝(x-Δx，y-Δy)。5.根据权利要求4所述的一种视频图像合成方法，其特征在于，所述虚拟体素的八个顶点的整数位置分别为：其中，是底部函数，定义插值的时间范围。6.根据权利要求5所述的一种视频图像合成方法，其特征在于，所述目标体素表示为：其中，为体积采样函数，Wijk是三线重采样权。7.根据权利要求1-6任一所述的一种视频图像合成方法，其特征在于，所述全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层...

【专利技术属性】
技术研发人员：王国强，张斌，孙士杰，陈学伟，
申请(专利权)人：视缘上海智能科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人