用于视频帧内插的基于CNN的系统和方法技术方案

技术编号：26305701 阅读：22 留言：0更新日期：2020-11-10 20:03

一种根据输入帧对合成中间非现有帧的卷积神经网络(CNN)的系统，包括：接收在连续时间点获取的一对图像的粗糙CNN、配准模块、细化CNN、加法器以及运动‑补偿帧内插(MC‑FI)模块。粗糙CNN根据一对图像输出前一特征图、下一特征图、粗糙内插运动矢量场(IMVF)和遮挡图，配准模块使用粗糙IMVF将前一特征图和下一特征图扭曲为与粗糙IMVF的像素位置对准，并且输出配准的前一特征图和下一特征图，细化CNN使用配准的前一特征图和下一特征图来校正粗糙IMVF，并且加法器将粗糙IMVF与校正相加并输出最终IMVF。

全部详细技术资料下载

【技术实现步骤摘要】
用于视频帧内插的基于CNN的系统和方法
本公开的实施例涉及用于视频处理的系统和方法，并且更具体地涉及用于视频帧内插的基于CNN的系统和方法。
技术介绍
在视频帧内插(VFI)中，中间非现有(non-existing)帧是根据原始输入帧合成的。要求VFI的经典应用是帧率上转换，其用于处理LED/LC显示器中的如显示运动模糊和抖动之类的问题。其他应用包括视频编码和流传输中的帧恢复、慢动作效果和新颖的视图合成。包括精心手工设计的模块的VFI常规方法通常包括以下步骤：双向运动估计、运动内插和遮挡推理以及运动-补偿帧内插(MC-FI)。由于上述任何组成部分的质量不足，因此这样的方法易于出现各种伪像，比如光晕、重影和破裂。在过去的几年中，深度学习(特别是卷积神经网络(CNN))已成为用于许多图像处理和计算机视觉任务的领先方法。VFI处理可以得益于这些尖端技术的使用，比如用一个或多个预训练的CNN替代VFI算法流程中的一些步骤。
技术实现思路
本公开的示例性实施例涉及用于根据给定视频中的输入帧对合成中间非现有帧的系统和方法。与用于VFI的常规方法相反，本公开的实施例集中于设计基于CNN的框架，该基于CNN的框架保留了简单的手工制作的模块，并且通过已对大量示例进行了预训练的CNN替代更复杂的组成部分。根据本公开的实施例的方法可以减少光晕、重影和破裂伪像的等级，光晕、重影和破裂伪像是常规解决方案的典型特征。此外，通过选择常规的组成部分和基于CNN的组成部分的良好平衡的混合，可以在从GPU至神经处理器...

【技术保护点】
1.一种使用卷积神经网络CNN根据给定视频中的输入帧对来合成中间非现有帧的系统，包括：/n粗糙卷积神经网络CNN，接收在连续时间点获取的一对图像，其中所述一对图像包括前一图像和下一图像；/n配准模块，连接到所述粗糙CNN；/n细化CNN，连接到所述配准模块和所述粗糙CNN；/n加法器，连接到所述细化CNN和所述粗糙CNN；以及/n运动-补偿帧内插MC-FI模块，连接到所述加法器和所述粗糙CNN，/n其中，所述粗糙CNN根据所述前一图像和所述下一图像输出前一特征图和下一特征图，根据所述一对图像输出粗糙内插运动矢量场IMVF和遮挡图，所述配准模块使用所述粗糙IMVF将所述前一特征图和所述下一特征图扭曲为与所述粗糙IMVF的像素位置对准，并且输出配准的前一特征图和配准的下一特征图，所述细化CNN使用所述配准的前一特征图和所述配准的下一特征图来校正所述粗糙IMVF，并且所述加法器将所述粗糙IMVF与对所述粗糙IMVF的校正相加并输出最终IMVF。/n

【技术特征摘要】
20190510 US 16/409,1421.一种使用卷积神经网络CNN根据给定视频中的输入帧对来合成中间非现有帧的系统，包括：
粗糙卷积神经网络CNN，接收在连续时间点获取的一对图像，其中所述一对图像包括前一图像和下一图像；
配准模块，连接到所述粗糙CNN；
细化CNN，连接到所述配准模块和所述粗糙CNN；
加法器，连接到所述细化CNN和所述粗糙CNN；以及
运动-补偿帧内插MC-FI模块，连接到所述加法器和所述粗糙CNN，
其中，所述粗糙CNN根据所述前一图像和所述下一图像输出前一特征图和下一特征图，根据所述一对图像输出粗糙内插运动矢量场IMVF和遮挡图，所述配准模块使用所述粗糙IMVF将所述前一特征图和所述下一特征图扭曲为与所述粗糙IMVF的像素位置对准，并且输出配准的前一特征图和配准的下一特征图，所述细化CNN使用所述配准的前一特征图和所述配准的下一特征图来校正所述粗糙IMVF，并且所述加法器将所述粗糙IMVF与对所述粗糙IMVF的校正相加并输出最终IMVF。

2.根据权利要求1所述的系统，其中，所述运动-补偿帧内插MC-FI模块通过使用所述最终IMVF扭曲所述前一图像和所述下一图像并使用来自所述遮挡图的遮挡权重对扭曲的前一图像和扭曲的下一图像进行加权混合，来生成与所述前一图像和所述下一图像的时间点之间的时间相对应的内插帧。

3.根据权利要求1所述的系统，其中，所述粗糙CNN以多个分辨率等级接收所述一对图像，其中所述粗糙CNN包括：
特征提取子网络，在每个分辨率等级下生成与所述一对图像相对应的一对特征图；
编码器-解码器子网络，将每个分辨率等级下的所述一对特征图级联成单个特征图，并对所述单个特征图进行处理以产生具有减少的空间分辨率的新的单个特征图；
融合子网络，通过对每个分辨率等级的所述新的单个特征图执行加权平均来将每个分辨率等级下的所述新的单个特征图合并为单个合并的特征图，其中用于所述加权平均的权重是在训练阶段中学习的且针对每个像素而不同；以及
估计子网络，输出所述粗糙IMVF的水平分量和垂直分量以及遮挡图；并且
其中，所述特征提取子网络包括连体层。

4.根据权利要求3所述的系统，其中，所述估计子网络包括水平子模块、垂直子模块和遮挡图子模块，其中每个子模块接收从所述融合子网络输出的所述单个合并的特征图，
其中，所述水平子模块和所述垂直子模块分别输出水平概率图和垂直概率图，其中每个概率图中每个像素有S个概率值，其中每个概率值表示运动矢量是针对该像素的S个位移值中的一个位移值的概率，
其中，所述水平子模块和所述垂直子模块分别计算针对每个像素的所述概率值的一阶矩，以确定针对每个像素的期望的水平分量和垂直分量，其中由针对每个像素的期望的水平分量和垂直分量构成的对包括对所述粗糙IMVF的所述校正。

5.根据权利要求4所述的系统，其中，所述遮挡图子模块输出所述遮挡图，所述遮挡图包括用于在所述前一图像与所述下一图像之间执行加权平均的每像素权重。

6.根据权利要求3所述的系统，其中，所述细化CNN包括：
编码器-解码器子网络，将所述配准的前一特征图与所述配准的下一特征图级联，并且输出新的特征图集合，所述新的特征图集合具有相对于所述前一图像和所述下一图像的全分辨率被大小调整的空间分辨率；以及
估计子网络，针对所述配准的下一特征图和所述配准的前一特征图中的每个块估计对所述粗糙IMVF的所述水平分量和所述垂直分量的校正以输出校正的IMVF。

7.根据权利要求6所述的系统，其中，所述估计子网络包括水平子模块和垂直子模块，
其中，所述水平子模块和所述垂直子模块分别输出水平概率图和垂直概率图，其中每个概率图中每个像素有S个概率值，其中每个概率值表示运动矢量是针对该像素的S个位移值中的一个位移值的概率，
其中，所述水平子模块和所述垂直子模块分别计算针对每个像素的所述概率值的一阶矩，以确定针对每个像素的期望的水平分量和垂直分量，其中由针对每个像素的期望的水平分量和垂直分量构成的对包括对所述粗糙IMVF的所述校正。

8.一种使用卷积神经网络CNN根据给定视频中的输入帧对合成中间非现有帧的方法，包括下列步骤：
接收一对连续输入帧的金字塔表示，其中所述一对连续输入帧包括前一图像和下一图像，其中所述金字塔表示包括多对输入帧，每对输入帧处于不同的空间分辨率等级；
从所述金字塔表示的每个分辨率等级生成一对特征图，并且根据每对特征图估计粗糙内插运动矢量场IMVF和遮挡图；
通过将所述一对特征图中的每个特征图扭曲为与所述粗糙IMVF的像素位置对准，来根据所述粗糙IMVF和所述遮挡图配准相同分辨率等级的特征图对，并且输出配准的前一特征图和配准的下一特征图；
使用所述配准的前一特征图和所述配准的下一特征图来校正所述粗糙IMVF以生成对所述粗糙IMVF的校正；
将对所述粗糙IMVF的所述校正与所述粗糙IMVF相加以生成细化的IMVF；以及
根据所述一对连续输入帧、所述细化的IMVF和所述遮挡图产生合成的中间帧。

9.根据权利要求8所述的方法，其中，生成一对特征图包括：
针对所述多对输入帧中的每一对输入帧在每个空间分辨率等级下生成一对特征图，其中每对特征图具有相对于所述一对输入帧的分辨率减少的空间分辨率；
将每个分辨率等级下的所述特征图级联，并处理级联的特征图以生成新的特征图集合，所述新的特征图集合具有相对于所述一对连续输入帧的分辨率减少的空间分辨率；
通过对针对每个分辨率等级的所述新的特征图集合执行加权平均来将针对所有空间分辨率等级的所述新的特征图集合合并为单个合并的特征图，其中用于所述加权平均的权重是在训练阶段中学习的且针对每个像素而不同；以及
针对所述单个合并的特征图中的每个块估计所述粗糙IMVF的水平分量和垂直分量以及遮挡图，其中所述遮挡图包括用于在所述前一图像与所述下一图像之间执行加权平均的每像素权重。

10.根据权利要求9所述的方法，其中，估计所述粗糙IMVF的水平分量和垂直分量包括：
生成水平概率图和垂直...

【专利技术属性】
技术研发人员：托梅·皮莱格，迈克尔·迪纳斯坦，巴勃罗·塞凯伊，多伦·扎博，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：韩国;KR

全部详细技术资料下载我是这个专利的主人